'데이터셋'에 진짜로 들어있는 것

생성 AI, 그 데이터에서 발견한 것은?

'데이터셋'에 진짜로 들어있는 것
Mourizal Zativa via: Unsplash

그러나 '공정하다'거나 '좋다'는 것은 그 어떤 AI 시스템도 포함될 수 있는 무한히 넓은 단어이다. 우리가 던져야 할 질문은 그보다 더 심오한 것이다: AI가 권력을 어떻게 변화시키는가?
—Pratyusha Kalluri (2020), <Don’t ask if AI is good or fair, ask how it shifts power>

목차
1. '데이터셋'에 진짜로 들어있는 것
2. 2024 국정감사, AI 이슈 훑어보기

'데이터셋'에 진짜로 들어있는 것

by 🥨채원

딥러닝 시대에 들어선 이래 AI 모델 개발은 학습 데이터 수집에서 시작됩니다. 최근 몇 년간 AI 모델의 발전을 주도한 것은 구조상의 혁신이 아닌, 더 많은 데이터와 컴퓨터 자원을 투입한 결과라는 것도 널리 알려진 사실입니다. 그러나 새로운 모델을 개발하는 것에 비해, 이미 존재하는 데이터셋을 들여다보고 분석하는 작업은 상대적으로 주목을 받기 어렵습니다. 새로운 알고리즘의 개발을 더 중요시하는 학계의 구조적인 문제도 있겠지만, 데이터셋을 분석하는 것 자체가 노동집약적인 작업이기 때문이기도 합니다.

이번에 소개해 드릴 프로젝트는 이러한 비판의식을 가지고 하나의 데이터셋을 아주 깊고 끈질기게 파헤친 작업의 결과물입니다. 해당 프로젝트를 진행한 Knowing Machines ('아는 기계' 혹은 '기계 (학습) 알기' 등 중의적으로 해석될 수 있는 이름입니다.) 라는 그룹 자체도 아주 멋진데요, 이들은 머신 러닝 시스템이 어떻게 세상을 이해하는지 다양한 역사적, 실증적, 정치적 측면에서 파헤치는 연구 그룹입니다. 어떻게 데이터셋이 세상을 분류하고, 예측하고, 문화적 지식을 구조화하는지 분석하는 이들의 작업 중에는 이전 뉴스레터에서 소개해 드린 권력과 기술의 계보학도 포함되어 있습니다.

Models All The Way Down ('모델의 밑바닥까지')”은 웹페이지 상에서 스크롤하면서 따라 읽을 수 있는 인터랙티브 비주얼 스토리입니다. 스크롤을 내리다보면 소위 ‘생성형 AI를 위한 근본 데이터셋’이라고 불리우는 LAION-5B 데이터셋이 어떻게 만들어졌고, 그 안에 있는 데이터들이 어디서 왔는지 단계별로 차근차근 따라가게 됩니다. 이 비주얼 스토리에서 인상 깊었던 몇 가지 대목을 오늘 뉴스레터에서 공유 드리도록 할게요. 직접 해당 페이지를 살펴보시기를 강력하게 권해드려요.

yellow inflatable smiling emoji balloon in focus photography
Models All The Way Down” 갈무리

LAION-5B 데이터셋이라는 이름이 혹시 익숙하시나요? 저희 뉴스레터에서는 해당 데이터셋을 학습한 스테이블 디뷰전 모델이 허깅페이스에서 삭제되었다는 소식을 지난 뉴스레터에서 전해드린 적이 있습니다. 스탠퍼드의 인터넷 관측소에서 소아성착취물에 해당하는 1000여 장의 이미지를 발견하면서 논란이 되었었죠. ‘아주 아주 큰 데이터셋’이라고 해도 잘 와닿지 않는데요, 이 데이터셋의 용량은 사람 한 명이 하루 8시간, 주 5일 하나의 이미지마다 1초씩 할애한다고 했을 때 781년을 써야 할 정도의 양이라고 합니다.

이 외에도 여러 흥미로운 사실들이 있었습니다.

전체 데이터셋의 2.5% 정도는 쇼피파이 (Shopify) 라는 온라인 쇼핑몰 플랫폼에서 수집되었는데, 이 이미지들의 라벨 (해당 이미지가 무엇을 묘사하고 있는지 설명하는 글)은 이미지를 정확하게 묘사하는 것이 아니라 검색 최적화를 위해 작성된다는 것입니다. 즉, 이 이미지들은 사람이 어떻게 세상을 바라보는지 묘사한 것이 아니라, 검색 엔진의 관점에서 ‘눈에 잘 띄는’ 방향으로 묘사됩니다. 그리고 검색엔진 최적화는 매우 강력한 상업적인 논리에 의해 이루어집니다.

전체 데이터셋의 1.2% 정도는 파워포인트 슬라이드로 이루어져 있다는 사실도 놀랍습니다. 슬라이드 플레이어 (SlidePlayer)라는 파워포인트 슬라이드 공유 페이지에서 많은 이미지가 수집되었기 때문인데요. 이런 이미지가 많이 수집된 것은 파워포인트 슬라이드처럼 글을 포함한 이미지가 데이터셋에 포함될 이미지로서 ‘높은 점수’를 받기 때문이라고 합니다. 이러한 점수는 라벨이 이미지를 얼마나 정확하게 묘사하는지 판별하는 알고리즘이 작동하는 원리와도 맞닿아 있는데, 라벨이 이미지에 포함된 글을 그대로 포함하는 경우 높은 점수를 받습니다.

인터넷 쇼핑몰 사진과 파워포인트 슬라이드라니, 이 뒤죽박죽한 구성이 이 세상을 얼마나 정확하게 묘사하고 대표하는지 의문점이 듭니다. 그리고 이러한 데이터를 바탕으로 학습된 AI가 ‘만들어내는’ 세상이 어떤 모습일지도요. 막연하게 AI가 무엇을 할 수 있는지 예측하고 속단하는 작업보다, 실제로 AI가 정확하게 무엇으로 구성되어있는지 끈질기게 따라가는 이러한 작업들이 좀 더 많이 보였으면 좋겠습니다. 혹시 독자분들이 알고 있는 작업이 있다면 저희에게도 알려주세요!


2024 국정감사, AI 이슈 훑어보기

by. 🧑‍🎓민기

2024년 국정감사가 시작되었습니다. 국정감사는 입법부인 국회가 행정부 등 국가기관에 대해 감사를 실시하는 공개 청문회입니다. 올해 국정감사는 10월 7일부터 11월 1일까지 진행이 되는데요, 매년 이맘때 진행되는 국정감사는 국회의원들이 국민들 앞에서 이슈를 만들고 주목을 받는 대한민국 정치의 가장 큰 이벤트(?)라고도 할 수 있습니다.

AI 정책과 관련해서는, 국회 과학기술정보방송통신위원회(과방위)를 가장 주목해야겠습니다. 8일 다녀온 과학기술정보통신부(과기정통부) 국정감사장의 분위기를 중심으로 전해보려고 합니다.

이번 과방위 국정감사에는 김경훈 구글코리아 사장, 안철현 애플코리아 부사장, 정교화 넷플릭스코리아 정책법무총괄 등 해외기업의 한국지사 리더들이 증인으로 참석했습니다. 이들이 참석한 과학기술정보통신부 국정감사에서는 통신망 비용 부담 문제, 인앱결제, 그리고 매출 축소 논란과 디지털세 등을 주로 다뤘습니다. 해외 다국적 테크 기업에 대한 견제를 키우고 세금을 걷어 국내 기업을 보호하겠다는 여야의 시각으로 볼 수도 있겠습니다. 그러나 이것이 국내 빅테크 기업들에 대한 면죄부로 작동하지는 않을지 우려가 됩니다.

한편 네이버, 카카오에서는 김창욱 스노우 대표가 딥페이크 관련 증인으로, 하정우 네이버클라우드 AI이노베이션센터장이 AI 현안에 대한 참고인으로 소환되었습니다. AI 윤리 레터에서 다룬 스노우 관련 기사를 보면 어떤 문답이 오갔을지 예상하실 수 있을 것 같습니다. 이해민 의원은 스테이블 디퓨전 API를 사용하고 있다는 스노우의 서면답변을 ‘책임회피’로 비판하며, ‘서비스 제공자에게도 필터링을 하지 않은 책임이 있다’고 발언했습니다.

“소버린 AI”를 보는 하정우 센터장의 시각 또한 같은 날 레터에서 다룬 적이 있습니다. “소버린 AI”에 대한 의원들의 관심도는 높았고, 막연한 기대도 보였습니다. (의원실에서도 AI 윤리 레터를 읽었다면 더 세세한 토론이 가능했을 텐데요!) 반면 네이버 블로그·카페를 이용하려면 인공지능 학습에 쓸 것을 필수적으로 동의하도록 한 네이버의 약관은 지적을 받았습니다. AI 학습에 사용된 뉴스 기사 데이터에 대해 언론에 보상하라는 요구도 있었습니다.

이번 국정감사에서 AI 기본법 또한 다뤄질 것으로 예상되는데요, 지금까지는 산업계 참고인의 발언만 주목을 받고 시민사회의 입장을 대변할 참고인이 돋보이진 않은 것 같아 아쉽습니다. 마침 월요일 뉴스레터에서 다뤘듯, 지난달 24일 국회에서 열린 공청회에서는 AI 기본법 시민사회안의 뼈대가 공개되었습니다. 국정감사에서의 논의가 보여주기로 끝나는 것이 아닌, 실제로 시민의 권리와 안전을 지킬 수 있는 AI 기본법 논의로 이어졌으면 합니다.

산업통상자원중소벤처기업위원회(산자위)에서는 강한승 쿠팡 대표가 증인 출석 요구를 받았습니다. 공정거래위원회는 지난 6월 13일 검색 순위 알고리즘 조작과 임직원 자체 리뷰 지시를 통해 자체 브랜드(Private Brand; PB) 상품에 특혜를 준 혐의로 쿠팡에 과징금 1400억원을 부과했습니다. 쿠팡 측은 이에 대해 소비자 편의, 업계 관행, 타 업체와의 형평성 등을 이유로 항변했고, 취소소송을 진행 중입니다. AI · 알고리즘과는 별개의 사건이지만, 쿠팡은 소위 ‘블랙리스트’로 불리는 물류센터 취업 제한 인물 리스트를 작성하고 판별하는 프로그램을 만든 일도 있어 지적을 받을 것으로 보입니다.

아쉬운 장면들도 많았습니다. 과방위 국정감사는 방송통신 분야와 과학기술 분야의 감사를 함께 진행하면서 상대적으로 집중이 분산되었습니다. 또 AI 정책의 쟁점에 대한 의원들의 전문성이 아직 부족하다는 것이 드러나는 발언들도 일부 있었습니다. 예를 들면 최형두 의원의 “글로벌 빅테크를 우리가 많이 유치해서 국가 AI 컴퓨팅 인프라를 확충해야겠습니다” “우리만 독자적으로 개발가능해서 선두를 이끌만한 AI 데이터가 뭐가 있겠습니까” 질의내용은 용어를 표면적으로만 사용해 의미가 모호하다는 인상을 받았습니다. 또한 과방위 감사에서 AI 기본법 등 AI 관련 현안 쟁점은 많이 다뤄지지 못했습니다. 반면, AI를 투자 대상, 기술 우위를 확보해야 할 분야로 보는 시각은 두드러졌습니다.

갈수록 AI와 같은 과학 기술이 시민의 삶에 끼치는 영향은 커지고 있습니다. 따라서 시민을 대변해야 할 국회의원들의 역할도 막중해졌습니다. 하지만 과학기술을 단지 산업진흥의 수단으로 보거나, 산업계 전문가의 조언에만 의존해야 한다면 정치인들의 시각도 편중될 수밖에 없을 것입니다. 그만큼 더욱 과학기술 전문성을 갖추고 기술의 다면성을 인식하는 국회의원의 의정활동이 필요해 보입니다.


#feedback

오늘 이야기 어떠셨나요?
여러분의 유머와 용기, 따뜻함이 담긴 생각을 자유롭게 남겨주세요.
남겨주신 의견은 추려내어 다음 AI 윤리 레터에서 함께 나눕니다.