오픈AI 크롤러가 내민 딜레마 / 생성AI vs 예술가

콘텐츠 보호냐, 노출이냐? 어느 쪽이건 상황은 어둡습니다.

오픈AI 크롤러가 내민 딜레마 / 생성AI vs 예술가
나는 기술에 대해 문화이론가 폴 비릴리오가 한 말을 좋아한다. “배의 발명은 곧 난파의 발명이었다.” 물론 이 문장을 뒤집어서, 난파를 발명한 사람은 곧 배를 발명한 사람이라고 말할 수도 있다.

—루크 도멜 (노승영 역), <만물의 공식>
목차
1. 오픈AI: 빨간 휴지 줄까? 파란 휴지 줄까?
2. 이미지 생성기 산업이 예술가를 괴롭히는 법

💌 AI 윤리 레터가 오래 유지될 수 있도록 응원하러 가기

오픈AI: 빨간 휴지 줄까? 파란 휴지 줄까?

by 🤔어쪈

지난 AI 윤리 레터에서 다뤘던 오픈AI의 옵트아웃 정책과 문제점, 기억나시나요? 빠르게 복습해 봅시다.

오픈AI는 데이터가 자사 AI 모델 학습에 활용되기를 원치 않는 콘텐츠 소유자에게 두 가지 방법을 제시했죠:

  1. 오픈AI의 웹 크롤러 GPTBot을 차단하기
  2. 학습 데이터에서 제외하고픈 이미지를 직접 제공하기

그러나 이 제안에는 두 가지 함정이 숨어있습니다:

  1. AI 기업이 콘텐츠 소유자에게 허락을 구하는 게 아니라 거꾸로 데이터 주인이 제외 조치를 취해야 하는 점
  2. 이미 학습한 데이터와 개발한 모델에 대해선 함구하는 점

여기에 더해 오늘은 저번에 예고한 대로 오픈AI의 학습 데이터 확보 전략에 대한 제 나름의 가설을 소개합니다. 현재의 옵트아웃 정책은, 콘텐츠 소유자가 웹사이트 크롤링을 알아서 허용할 수밖에 없도록 설계되어 있다는 겁니다. 이렇게 되면 오픈AI에게 학습 데이터 수집 절차가 정당했다고 주장할 여지가 생깁니다.

잠깐 올해 초로 시간을 돌려볼까요. 챗GPT가 본격적으로 유행하며 많은 사람이 떠올린 활용처가 있었죠. 바로 검색입니다. 실제로 마이크로소프트와 구글이 앞다투어 언어모델을 적용한 검색엔진을 급히 내놓기도 했고요. 오픈AI 역시 지난 3월 챗GPT의 플러그인 도입을 발표하며 전면에 검색(Browsing) 기능을 내세웠습니다.

그런데 인터넷 검색을 위해서는 다름 아닌 웹 크롤러가 필요하죠. 오픈AI는 이미 검색 플러그인 공개 당시부터 ChatGPT-User라는 웹 크롤러를 운영해 오고 있습니다. 물론 회사의 말에 따르면 ChatGPT-User는 사용자 질문에 답변하기 위해서만 작동할 뿐 인터넷을 떠돌며 학습 데이터를 수집하는 것이 아니라고 해요. 하지만 정확히 그 용도로 만든 GPTBot을 발표하며 공식 문서에 슬그머니 아래와 같은 문장을 집어넣었습니다.

우리의 옵트아웃 시스템은 현재 ChatGPT-User와 GPTBot을 동일하게 처리합니다. ("Our opt-out system currently treats both user agents the same")

즉, 만일 AI 윤리 레터가 오픈AI에 학습 데이터 제공을 원치 않아 웹사이트에서 GPTBot을 차단하면 ChatGPT-User도 함께 차단된다는 건데요. 그 결과 챗GPT를 통해 AI 윤리 레터에 대한 정보를 받아볼 수 없게 됩니다. 다시 말해 오픈AI는 [챗GPT(검색)를 통한 콘텐츠 노출]을 곧 [AI 모델 학습을 위한 콘텐츠 제공]과 같은 것으로 만들었습니다.

‘어릴 때 누구나 듣는 괴담’이었는데, 요즘은 어떨지 모르겠네요. (책 표지)

조금 과장하자면 이 대표적인 생성 AI 기업이 콘텐츠 소유자에게 내민 선택지는 화장실 귀신의 빨간 휴지와 파란 휴지 괴담을 떠오르게 합니다. 무엇을 골라도 비극적인 결말이 기다리고 있죠.

  • 빨간 휴지: AI 모델 학습을 위한 콘텐츠 제공을 거부한다 → AI 및 검색 회사의 웹 크롤러를 차단한다 → 콘텐츠가 더 이상 검색되지 않는다 → 인터넷상에서 접근이 어려워져 사실상 죽은 콘텐츠가 된다
  • 파란 휴지: AI 모델 학습을 위해 콘텐츠를 제공한다 → 잠시 동안 AI 서비스에서 콘텐츠 원문 링크를 소개해 준다 → 수집된 데이터로 AI 모델이 학습된다 → AI 모델이 직접 유사 콘텐츠를 생성한다 → 더 이상 직접적인 콘텐츠 접근이 이뤄지지 않아 사실상 죽은 콘텐츠가 된다

물론 챗GPT는 (검색 기능이 있지만) 검색엔진이라고 보긴 어렵고, 사용 빈도 역시 (월 15억 회에 달하긴 하지만) 구글의 2%도 채 되지 않습니다. 콘텐츠 소유자가 챗GPT를 통해 유입될 수 있는 트래픽을 포기하고 오픈AI의 미래 모델 학습 데이터에서 빠지는 게 어려운 선택이 아닐 수 있죠. 하지만 구글, 마이크로소프트, 네이버 등 국내외 검색 시장을 잠식 중인 업체 대다수가 생성 AI 모델 개발에 여념이 없는 게 현실입니다. 이들이 비슷한 정책을 택한다면 어떻게 될까요?

제 가설이 틀리기만을 바랄 뿐입니다.

💬
댓글
- (🤖아침) 검색 목적의 봇 허용 여부와 학습 데이터 수집 목적의 봇 허용 여부를 결합한 것이군요. 이처럼 두 가지 이상의 목적으로 동의받는 절차를 한 번의 동의 행위로 묶어버리는 걸 “bundled consent”(도매금으로 동의받기, 내지는 묶음식 동의)라고 부르나 봐요. 일종의 눈속임 설계 패턴이라고 볼 수 있겠네요.
- (🌎다솔) 나중엔 챗GPT를 통한 검색이 기존 검색엔진을 대체할 수 있을까요? 사용자의 소비 방식이 기업에 영향을 줄 수 있듯, 우리가 챗GPT에 의존하여 정보를 접근하기보다, 다양한 검색 방법(검색 엔진, 책, 신문, 영상 등)을 시도하며 기업의 앞으로의 선택에도 영향을 줄 수 있으면 좋겠어요.

이미지 생성기 산업이 예술가를 괴롭히는 법

by 🤖아침

예술가 집단이 ‘시각 커뮤니케이션을 독점’하려는 특권 카르텔이라고 누군가 비판한다면, 아마 좀 의아해하는 반응이 보통일 겁니다. 예술가가 되는 것이 무슨 권력이나 이익을 독점하는 데 썩 효과적인 방법이라고 보기는 어렵잖아요. 특히 그런 말을 하는 사람이 헤지펀드 출신으로 AI 스타트업을 차려 1억 달러 투자금을 유치한 Stability AI의 CEO 에마드 모스타크라면요. 그의 발언은 이미지 생성 AI에 대한 시각예술가들의 비판을 반박하는 맥락에서 나온 것인데요.

하지만 현재의 이미지 생성기 산업은 오히려 서구 기업 몇 곳에 권력을 몰아주고, 대다수 예술가의 권리를 침해합니다. 인공지능 윤리 연구자 및 예술가 10명이 공저한 “AI 예술이 예술가에게 미치는 영향”의 관점입니다. 생성 AI 산업과 시각예술 분야 공동체의 관계, 그리고 현재진행형의 문제를 구체적이면서도 폭넓게 살피는 논문인데요. 논문은 이미지 생성 AI 기술을 개괄한 뒤, 이미지 생성기 산업의 영향을 다음과 같이 유형화합니다.

  1. 경제적 손실: 대표적으로 일자리 대체의 문제가 있습니다. 완전히 해고되지 않더라도 인간 예술가의 역할이 이미지 생성기 결과물을 다듬는 수준으로 축소될 수 있고요. 공모전에 생성 AI 창작물이 몰리면서 공모전 자체가 취소되는 등 기회가 줄어드는 현상도 있습니다. 기회의 축소는 경제적 여유가 없는 사람이 예술 분야에 종사하기 어렵게 만들어, 특권 구조를 더욱 강화하는 효과를 가져옵니다.
  2. 스타일 모작: 특정 예술가의 화풍 등을 모방하는 작업이 쉬워진다면 경제적 피해는 물론이고, 해당 예술가가 의도한 적 없는 방식(상업적 이용, 혐오 표현 등)으로 활용되어 명예를 실추하거나 정신적 피해도 발생시킬 수 있습니다.
  3. 헤게모니 재생산: 이미지 생성기는 특정 집단에 대한 고정관념을 재생산하고, 그로 발생한 이익을 해당 집단이 아닌 다른 이들이 (예컨대 소수민족 패션모델을 가상으로 제작하여 라이선싱하는 업체가) 가로채기도 합니다.
  4. 문화 활동 위축: 위 같은 문제로 지망생들이 진로에 위협을 느끼거나 포기하기도 하며, 예술가들이 무단 수집을 피하고자 작품 공유를 꺼리는 분위기 또한 강해집니다. ‘노출’이 중요한 시각예술 분야에서, 자기 작품을 AI 기업으로부터 지키려면 이른바 ‘영업’의 가능성을 포기해야 하는 딜레마에 처하는 것이죠.
    사진: Aarón Blanco Tejedor, 제공: Unsplash논문은 학술 연구와 기업 이익이 굉장히 밀접한 AI 분야에 종사하는 연구자들이 사실상 예술가의 권리를 박탈하는 데 일조하는 구조를 비판합니다. 대학 연구소 등을 통해 비영리 학술 목적으로 저작물을 수집해 데이터셋을 구축한 뒤 나중에 영리 목적으로 이용하는 ‘데이터 세탁’이 AI 연구와 기업 이익이 맞물리는 직접적 사례라면, 더 구조적인 권력의 문제도 있습니다. ‘기술은 중립적’이라는 탈정치적 관점은 기술과 권력의 관계를 간과하고, 결국 강자의 권력을 재생산하는 데 기여한다는 것입니다. “기계학습 공정성과 인공지능 윤리 커뮤니티 또한, 공정성 지표 같은 추상적 개념에 지나치게 집중하느라 여러 공동체가 입는 피해를 예방하는 데 실패했다”는 매서운 지적도 빼놓지 않습니다.

이처럼 기술 발전과 도입이 예술가 공동체에 피해를 주며 소수 기업의 이익을 강화하는 현상에 어떻게 맞서야 할까요? 연구진은 다음 세 가지를 제안합니다.

  • 동의 없는 이미지 생성기 구축을 금지하는 법규제
  • 기업 이해관계에서 독립적인 AI 연구 펀딩
  • 구체적 목적, 공동체에 기여하는 연구활동

논문은 독특하게도 ‘이미지 생성기는 예술가가 아니다’라는 명제를 공들여 정립하고 있는데요. 마케팅 언어에서 자주 보이는, AI 모델을 창작의 주체로 놓는 의인화 프레임이 그만큼 문제적이라고 간주합니다. 여기에 관해서는 다음에 더 살펴볼게요.

💬
댓글
- (🌎다솔) 이전 레터에서 다룬 내용 중, ‘소프트웨어 엔지니어가 윤리 문제를 해결하는 능력이 경제적 상황, 이민 등으로 인한 체류의 불안정성, 직장 문화, 조직의 보상 구조에 영향을 받고 이러한 요인들은 윤리 문제를 해결할 수 있는 힘을 제한한다’는 것이 생각납니다. AI 연구자가 기술과 권력의 관계를 이해함에도 해결하기 어려운 상위 레벨의 문제도 있을 것 같네요.