세계 최초! 윤리적 데이터 회사

일회성 노동이 아닌 농촌 사회의 진흥을 꿈꿉니다

세계 최초! 윤리적 데이터 회사
튜링 게임에서 인간은 시뮬레이션 결과와 같아지는데, 이는 감독관에게 필사가 아니라 컴퓨터로 출력한 인쇄물이 주어지기 때문이다.
– 프리드리히 키틀러 <축음기, 영화, 타자기> p. 41. 일부 각색
목차
1. "세계 최초 윤리적 데이터 회사"는 어떤 모습일까?
2. 자동화라는 이름의 눈속임
3. 생성 AI에도 드리운 편향의 그림자
4. 이 주의 정책 카드: 벨기에 윤리적 해커

💌 AI 윤리 레터가 오래 유지될 수 있도록 응원하러 가기

"세계 최초 윤리적 데이터 회사"는 어떤 모습일까?

by 🎵소소

AI 학습에 필요한 많은 데이터를 만드는 사람들이 있습니다. 🦜AI 윤리 레터는 데이터 노동자에 대해 여러 차례 다뤄 왔는데요. 데이터 노동자까지 고려하는 인도의 한 데이터 비영리 단체 카리아AI(Karya AI)가 타임지에 소개되었습니다. 카리아AI는 자신들을 “세계 최초의 윤리적 데이터 회사”라고 자처합니다. 카리아AI는 다른 데이터 회사와 무엇이 다를까요?

빨간 지붕 아래 청록색 벽과 기둥 앞에 남아시아계 사람들이 모여 있다. 각자 손에 스마트폰을 들고 카메라 쪽으로 비추고 있다.
출처: 타임(TIME)지 표지, 수프라나브 대시(Supranav Dash)가 촬영

노동자에게 충분한 소득을 제공하고, 잉여 이익은 농촌 빈민에게 투자합니다.
노동자가 받는 금액도 중요하지만, 더욱 중요한 것은 기업의 분배 논리입니다. 오픈AI에 데이터를 공급하며 5만 명을 빈곤에서 구출했다고 홍보해 왔던 데이터 기업 Sama가 케냐의 AI 노동자를 착취해 왔던 사실이 밝혀지는 등 기업의 수익을 노동자의 이익보다 우선하는 사례는 흔하기 때문입니다. 카리아AI는 노동자와 농촌을 앞세운 분배를 설계합니다.

  • 카리아AI는 노동자에게 시간당 최소 5달러를 지불합니다. 이는 인도 최저임금의 20배에 달합니다. 지금까지 약 3만 명의 농촌 인도인에게 약 80만 달러의 임금을 지급했습니다.
  • 부의 재분배를 위해 비영리 단체로 운영합니다. 노동자에게 충분한 수익을 배분한 후, 잉여 이익은 농촌 빈민에 재투자합니다.

노동자의 데이터 소유권을 인정합니다.
노동자에게 데이터 소유권이 있으면, 데이터가 재판매될 때마다 추가 소득을 얻을 수 있습니다. 데이터 원작자에게 데이터 재판매 비용을 보상하려는 시도는 종종 있었습니다. 이미지 공유 플랫폼 셔터스톡도 AI에 데이터가 재사용될 때마다, 데이터 원작자에게 일정 비용을 보상한다고 발표했죠. 그러나 실제 보상이 어떻게 이루어지는지, 수익 배분율은 어떻게 정해지는지도 살펴봐야 합니다.

  • 카리아AI의 데이터 재판매 수익은 100%가 노동자가 투입한 시간에 비례하여 배분됩니다.
  • 지금까지 약 4,000명의 직원에게 11만 6,000달러의 로열티를 지급했습니다.

노동자의 최대 소득을 제한하여 더 많은 노동자에게 기회를 제공합니다.
데이터 회사들은 대부분 “쉽게 원하는 소득을 얻을 수 있다”며 소득 중심의 홍보를 합니다. 반면 데이터 노동자들은 노동으로 부자가 되는 것은 결국 기업이라고 이야기하죠.

  • 한편 카리아AI는 노동자의 최대 수입을 인도의 평균 연봉인 1,500달러로 제한합니다. 이는 더 많은 사람에게 노동의 기회를 주기 위한 노력이자, 데이터 노동이 주 수입원이 아닌 보조 수입으로 활용되도록 하기 위함입니다.
  • 하지만 아이러니하게도 아직 단 한 명도 1,500달러의 수입에 도달한 적이 없다고 하네요.

소외된 지역 언어의 AI 접근성을 높이기 위한 프로젝트를 진행합니다.
데이터 노동은 주로 영어를 공용어로 사용하는 인도, 케냐, 필리핀 등에서 이루어집니다. 그러나 영어를 할 줄 모르는 지역 사회 사람들은 정작 AI 포함한 기술의 혜택을 얻기 어렵습니다.

  • 카리아AI는 인도의 칸나다어를 포함한 지역 언어로 AI 모델을 구축합니다.
  • 예를 들면, 의료 NGO와 협력하여 인도에서 매년 약 20만 명의 목숨을 앗아가는 결핵에 대한 음성 데이터 세트를 지역 언어로 구축하고 있습니다. 이러한 지역 언어로 AI 모델을 만들어 결핵에 대한 정보를 쉽게 얻고 예방하는 것이 목적이라고 합니다.
💬
댓글
- (🤔 어쪈) 우리나라 역시 일자리 창출 사업 일환으로 AI 학습용 데이터 제작과 데이터 노동자(라벨러) 양성에 적지 않은 공공 예산을 지원해 오고 있는데요. 카리아AI처럼 데이터 노동자의 권리나 사업의 지속가능성을 얼마나 고민했을지 궁금해집니다.

자동화라는 이름의 눈속임

by 🤖아침

예전 🦜뉴스레터에서 짤막하게 언급한 '가짜 자동화(fauxtomation)’에 관해 더 이야기해보려 해요. 애스트라 테일러가 에세이 <자동화 흉내 내기(The Automation Charade)>에서 제시한 이 개념은, 자동화의 기술적 성취를 실제보다 과대포장하고 인간의 노동을 비가시화하는 경향을 가리킵니다. 키오스크(무인판매대)가 점원의 노동을 '자동화'하는 것이 아니라, 점원이 하던 노동을 소비자에게 시키는 장치인 것처럼요.

테일러는 가짜 자동화의 사례로 '미국 건국의 아버지'이자 노예 소유주였던 토머스 제퍼슨이 자신의 '몬티첼로' 저택에 설치한 덤웨이터(음식용 승강기)를 언급합니다. 그는 손님들과 식사할 때, 마치 사람의 손길을 거치지 않고 음식이 저절로 나타나는 듯한 이 신기한 장치를 자랑스럽게 사용하곤 했다고 합니다. 물론 실제로는 장치 반대편, 지하실에서 여전히 노동 중인 노예들이 음식을 올려놓고 작동시킨 것이죠.

여기에는 손이 많이 가는 기술을 마치 마법처럼 포장하는 동시에, 그 기술을 작동시키는 데 여전히 필요한 인간의 노동을 눈에 안 보이게 숨기는 이중의 속임수가 작동합니다. '자동화'된 식사라는 환상을 구현하기 위해서는, 장치를 작동시키는 노동뿐만 아니라 '노동을 사라지게 만드는 노동'이 추가로 필요했던 것입니다.

저택 안 벽난로 오른쪽에 설치된 덤웨이터를, 정장을 입고 손에 식기를 든 흑인 노예가 작동시키고 있다.
출처: 하우스위드히스토리. 토마스 제퍼슨 몬티첼로 저택의 덤웨이터 사진

홍보 차원에서 기술력을 좀 과장했을 뿐이라 느낄 수도 있겠습니다. 가짜 자동화는 마케팅에 그치지 않습니다. 테일러는 지적합니다. 자동화는 현실이기도 하지만 동시에 이데올로기라고요. 자본주의는 최대한 많은 노동이 보상 없이 수행되는 상황을 추구합니다. 이런 맥락에서 가짜 자동화는 필요하고 중요한 노동을 평가절하하고 보이지 않게 만들어, 노동권을 약화하고 자본에 복무합니다.

AI를 둘러싼 가짜 자동화는 AI에 의해 영향을 받는 노동의 양 측면 모두에서 일어납니다. AI 기술로 대체되는 노동과 AI를 만들어 내는 노동 모두에서 기술은 과대평가되는 반면, 노동은 평가절하되죠.

AI의 힘은 기술적 특성에서만 오는 게 아니라, 그것이 사회적으로 작용하기 때문에 존재합니다. 가짜 자동화라는 표현은 사회적 상호작용을 가리고 기술이 독자적으로 존재하는 것처럼 드러내고 싶어 하는 자본의 기획을 꼬집죠. 우리에게 가짜 자동화를 간파할 수 있는 기술적 이해와 비판적 시선이 모두 필요한 이유입니다.
덧붙이는 글 * 🤔 어쪈: 가짜 자동화의 이면에는 노동에 대한 평가절하와 더불어 몰이해가 있다는 점에 적극 동의합니다. 적지 않은 자동화 프로젝트가 실패로 돌아가고, 성공하더라도 결국 다시 사람을 불러들여 ‘보조’라는 이름으로 저평가된 ‘주요’ 업무를 맡기는 것 같아요.


생성 AI에도 드리운 편향의 그림자

by 🤔어쪈

AI 윤리 문제를 다루는 대표적인 넷플릭스 다큐멘터리, <알고리즘의 편견 (Coded Bias)>을 보셨나요? ‘알고리즘 정의 리그(Algorithmic Justice League)’라는 단체의 설립자 조이 부올람위니 박사를 중심으로 얼굴 인식 AI의 성별 및 인종 편향성을 집중 조명하는 영화입니다. 부올람위니가 팀닛 게브루와 함께 쓴 논문 ‘젠더의 그림자(Gender Shades)’는 지금까지 4500여 회 인용될 정도로 파급력이 컸는데요. 얼굴 사진을 토대로 특정인 여부 또는 성별을 판별하는 AI 서비스의 정확도가 흑인 여성에게서 확연히 낮아진다는 사실을 밝혀냈습니다.

거리를 배경으로 조이 부올람위니가 오른쪽을 향해 걷고 있다. 부올람위니의 얼굴에 패턴인식 알고리즘을 상징하는 기하학적 도형이 그려져 있다.
출처: 넷플릭스 <알고리즘의 편견> 소개 화면 갈무리

이후 IBM, 마이크로소프트 등의 기업들은 얼굴 인식 AI 소프트웨어 개발 및 판매를 아예 중단하거나 성별 판별 기능을 제거했는데요. 젠더 또는 피부색에 따라 얼굴 인식 AI의 정확도가 큰 차이를 보여선 안 된다는 인식과 함께, 생체정보를 활용하는 감시 기술에 대한 문제의식 역시 널리 퍼졌습니다. (논문 출판 5주년 기념 웹사이트에서 연구에 활용된 데이터셋과 시각화 자료 등을 살펴볼 수 있습니다.)

한편, 생성 AI에도 ‘젠더의 그림자’가 드리운 건 아닌지 살펴본 기자들이 있습니다. 블룸버그는 이미지 생성 AI의 대표 주자인 스테이블 디퓨전으로 비슷한 실험을 진행했습니다. 슬프게도 AI 업계는 과거 교훈을 잊은 듯합니다.

일반적인 이미지 생성 AI는 이용자가 프롬프트로 그림에 관해 설명하면 그에 맞는 결과를 출력합니다. 블룸버그 기자들은 여러 직업군에 대한 수천 장의 초상화 이미지를 생성했습니다. 상위 임금 직업군 7개 (건축가, 변호사, 회사 대표, 정치인, 판사, 엔지니어, 의사), 하위 임금 직업군 7개 (교사, 가정부, 계산원, 교도관, 주방 보조(설거지), 패스트푸드점 종사자, 사회복지사)를 선정해 각각 300장씩 이미지를 생성하고, 생성된 사진 속 인물의 피부색과 젠더를 분류하여 빈도를 계산했어요.

피부색 빈도 시각화. 밝은 쪽에서 어두운 쪽으로 건축가-변호사-CEO-정치인-판사-엔지니어-의사-교사-가정부-판매원-환경미화원-설거지 담당자-패스트푸드 종사자-사회복지사
출처: 블룸버그. 연구 결과에 따라 생성된 인물 이미지의 직업군 별 피부색 빈도 시각화

그 결과 고임금 직업군에서는 밝은 피부색 위주로 얼굴 이미지가 생성되었고, 반대로 저임금 직업군 이미지의 피부색은 어두웠습니다. 젠더에 따른 분류는 차이가 더 극심했는데요. 결과적으로 고임금 직업군을 대표하는 얼굴은 밝은 색상의 피부를 가진 남성이었습니다.

AI의 편향성을 비판할 때 숱하게 마주하는 반응이 있습니다. 애초에 세상이 차별로 가득 차 있어, 그로부터 나온 편향적인 데이터셋을 학습한 AI는 현실을 그대로 반영할 뿐이라는 거죠. 실제로 블룸버그의 문의에 스테이블 디퓨전 개발사 스태빌리티AI 역시 그렇게 답했습니다. 문제를 인지하고 있고 개선 방안을 찾는 중이라는 언급과 함께요.

다시 블룸버그 기사로 돌아가볼까요. 테러리스트에 대한 이미지는 대부분 무슬림 남성의 얼굴을 그리고 있습니다. 하지만 실제 미국에서 테러 사건은 무슬림보다 백인우월주의자를 포함한 극우극단주의자에 의해 3배 이상 더 많이 일어납니다.

블룸버그 기사의 제목처럼, AI는 현실을 반영하지 않습니다. “인간은 편향적이지만, 생성 AI는 더 심합니다(Humans are biased, generative AI is even worse)”. AI가 학습하는 데이터가 현실을 대표한다고 보기도 어렵고, 생성 AI는 데이터상의 분포와 패턴을 일반화한 결과를 만들어내죠. 즉, AI는 현실의 편향을 증폭합니다.

이미지 생성 AI는 이미 어도비, 셔터스톡, 캔바 등 각종 디자인 관련 생산성 도구에 적용되면서 적극 상용화되고 있습니다. 회사들은 창의력을 보조, 증강할 서비스라고 홍보하죠. 하지만 앞서 살펴본 이미지 생성 AI는 우리의 고정관념과 편견을 강화해 현실의 차별을 일으키기 쉬워 보입니다. 다양성이 배제된 창의성은 대체 무슨 의미일까요? 그게 가능하긴 한 걸까요?

💬
댓글
- (🎵소소) 인물 이미지의 직업군별 피부색 빈도"를 시각화하니 얼마나 편향이 뚜렷하게 나타나는지 알 수 있네요. 사실 포털 사이트의 검색 결과만 봐도 다양성이 부족하기는 마찬가지입니다. 특정 젠더와 직업군에 대해 편향적인 검색 결과를 주는 검색 포털에 이의를 제기하고, 시정조치 약속을 받은 ‘정치하는엄마들’ 이야기가 생각납니다. 결국 소비자가 이의를 제기하는 것이 가장 빠른 해결 방안일까요?

“모두가 하고 있으니 우리도 하자!”라고 천진난만하게 이야기할 수는 없지만, 해외 입법례는 정책적 상상력을 자극하는 좋은 정보입니다.

대부분의 사람이 투명성 원칙에 동의합니다. 하지만 정보 시스템은 기업의 지적재산으로, 공개되지 않죠. 지금까지는 분명 그랬습니다. 새로운 정책적 시도들이 등장하고 있어요. 백악관이 세계 최대 해킹대회 데프콘(DEF CON)에서 레드팀 챌린지를 열기로 한 것이 하나의 사례라면, 이번에 소개해 드리는 벨기에의 윤리적 해커 보호 정책은 색다른 방식으로 사이버 보안을 추구합니다.

이 주의 정책 카드: 벨기에 윤리적 해커 보호

by 🍊산디

구글에 윤리적 해커를 검색하면 온통 자격증 이야기뿐입니다만, 자격증은 윤리적 해커로서 법적 보호를 받는 것과 전혀 관련이 없습니다. 윤리적 해커가 되고 싶다면 자격증보다는 벨기에에 소재한 조직의 IT 시스템을 들여다보는 게 좋을 것 같네요.

  • 벨기에는 새로운 내부고발자 법을 개정하여 윤리적 해커를 보호. 2023년 2월부터 발효.
  • 개정된 법에 따르면 모든 개인, 법인은 특정 조건에 따라 벨기에에 있는 네트워크, 정보 시스템의 취약성을 조사하고 보고했을 때 형사 책임에서 면책.

윤리적 해킹이란?

  • 조직의 IT 시스템의 취약점을 찾고 해당 조직에 그 사실을 알리는 해킹 활동.
  • 그러나 벨기에에서도 윤리적 해킹은 형법상 범죄였고, 회사의 사전 허가가 있어야만 할 수 있었음. 법 개정은 회사의 사전 허가가 없어도 윤리적 해킹 활동을 할 수 있도록 한 것.

기존 법 체계 : 협력적 취약성 공개 정책(CVDP)

이번 법 개정이 전에도 벨기에는 윤리적 해커를 위한 정책을 갖고 있었습니다.

  • 벨기에는 이번 법 개정이 있기 전부터 윤리적 해커가 조직에게 연락할 방법을 명시하는 협력적 취약성 공개 정책(Coordinated Vulnerability Disclosure Policy)이 있었음.
  • CVDP는 IT 시스템을 운영하는 해당 조직이 윤리적 해커의 활동을 적극적으로 환영한다는 정책으로, CVDP가 있는 조직을 대상으로 한 윤리적 해킹만 예외적으로 형사 책임을 묻지 않았음.
  • CVDP는 금전적 보상을 제공하거나(bug bounty), 그 활동을 공개적으로 홍보하는 등의 혜택을 해커에게 약속하기도 함.
  • 하지만 이번 법 개정으로 벨기에는 CVDP가 없는 조직까지 포함하여, 조직의 사전 허가가 없어도 윤리적 해킹 활동의 형사 책임을 묻지 않게 됨.

윤리적 해커로 인정받기 위한 요건

다음의 요건들이 충족되면 해커는 윤리적 해커로 형사 책임을 면할 수 있습니다.

  • 발견된 취약점을 악용하거나 조직을 협박하는 등 조직에 해를 입히려는 의도로 행동해서는 안 됨.
  • 발견한 사실을 해당 조직에 공유한 후 벨기에의 사이버안보센터(Centre for Cyber Security Belgium)에 발견 사실을 최대한 빨리 보고.
  • 취약점을 확인하기 위해 필요한 최소한의 방법으로 침입하고, 조직이 제공하는 서비스가 활용 불가능해져서는 안 됨.
  • 사이버보안센터의 동의 없이는 발견한 취약점을 외부에 공개할 수 없음.

한계

흥미로운 정책이지만 한계도 분명합니다.

  • 윤리적 해킹 보호법은 벨기에에만 적용됨. EU의 사이버 보안 지침을 넘어서는 법이기 때문에 다른 EU 국가에서는 보호받을 수 없음. 벨기에 외부에도 IT 시스템을 가지고 있는 조직을 해킹했을 경우, 해당 국가의 법이 적용될 수 있음.
  • 형법상의 책임만 면책됨. 만약 기업이 민사 소송을 제기한다면 법적 대응이 필요할 수 있음.
  • 최소한의 방법으로 침입해야 한다는 것이 어떤 의미인지 모호. 해킹 활동이 벌어지는 구체적인 상황에 따라 활용 가능한 기술이 변화하는데, 윤리적 해커가 이를 해명해야 하는 부담.
  • 회사의 사이버보안을 강화한다는 순기능이 있을 수 있지만, 회사 스스로 사이버 보안에 투자하는 것이 더 본질적인 해결책.