옵트-아웃 오픈AI / 뉴스 저작권 그 다음은?

오픈AI는 새 전략을 취하고, 언론사는 막막합니다

🤔어쪈, 🍊산디

2023년 9월 25일 — 11 min read

토끼를 모자에서 끄집어낼 수 있는 것은, 애초에 토끼를 모자에 집어넣었기 때문이다.

—자크 라캉, <세미나>

목차
1. 별말 없으면 동의한 걸로 간주합니다(?)
2. 오픈AI 크롤링 막는데 급한 언론사들… 그 다음은?

💌 AI 윤리 레터가 오래 유지될 수 있도록 응원하러 가기

별말 없으면 동의한 걸로 간주합니다(?)

by 🤔어쪈

올해 봄 생성 AI 유행 초기가 떠오를 정도로 기업의 AI 서비스 발표 소식이 연이어 들려오는 가을입니다. 지난주 오픈AI에서 이미지 생성 모델 DALL-E의 세 번째 버전을, 네이버는 생성 AI 기반의 검색 서비스 Cue:를 출시했고, 구글(바드)과 마이크로소프트(코파일럿), 아마존(알렉사)까지 새로운 기능 또는 개편 소식을 발표했습니다.

반년 전 관련 학계나 업계에 속하지 않은 대다수 사람은 생성 AI를 신기해하면서 써보기에 바빴지만, 이제 우리는 실눈을 뜬 채로 기술과 서비스, 또 기업들의 이면을 보다 면밀히 살펴보고 있습니다. 특히 그중에서도 기업들이 생성 AI 개발을 위해 각종 데이터를 무분별하게 수집하는 데 대한 비판의 목소리는 분명 커지고 있습니다. AI 윤리 레터에서도 여러 차례 다룬 이슈죠.

이제껏 기업들은 저작권 적용의 예외 조항에 해당하는 공정이용(fair use)을 방패 삼아 명확한 규제가 자리 잡지 않은 상황을 십분 이용해 왔습니다. 하지만 지금처럼 모두가 예민한 시점에서는 보다 눈치껏 행동할 필요가 있죠. 생성 AI의 개발과 활용에 있어 학습 데이터는 분명 핵심 요소이기에 기업들은 정당한, 또는 최소한 법적 책임을 지지 않을 수 있는 회피 전략을 마련 중입니다.

오픈AI를 살펴볼까요. DALL-E 3 소개 페이지는 ‘창의적 제어(creative control)’라는 알쏭달쏭한 제목의 섹션을 두고 있습니다. 여기서 오픈AI는 DALL-E 3이 살아있는 예술가의 스타일로 이미지를 생성해달라는 요청을 거절하도록 설계되었다고 설명합니다. 또한, 창작자들은 자신의 이미지를 오픈AI가 앞으로 개발할 이미지 생성 모델을 학습시키는 데 활용되지 않도록 제외 요청할 수 있다고 하네요. 이른바 옵트아웃 정책을 실시하겠단 겁니다.

분명 인터넷 어디선가 돌아다니고 있을 제 얼굴 사진이나 제가 직접 찍은 사진 역시 학습에 쓰였을 수 있는데 왜 예술가나 창작자만 옵트아웃 대상이 되는건지 궁금하지만, 일단 설명을 더 들어 봅시다.

오픈AI는 두 가지 방법을 제안합니다. 하나는 지난달 회사가 조용히 발표한 공식 웹 크롤러 GPTBot이 온라인상에 공개된 콘텐츠에 접근하지 못하도록 웹사이트에서 크롤링 불허 설정을 해두는 겁니다. 또 다른 하나는 오픈AI의 AI 모델 학습 데이터에서 제외하고픈 본인 소유 이미지를 직접 제공하는 거죠. 다만 무조건 빼주는 건 아니고, 오픈AI가 제3자를 통해 적법하게 얻은 이미지일 수도 있으니 제외 여부는 검토해 보고 알려주겠다고 하네요.

출처: 제 공개된 신상정보를 프롬프트 입력했을 때 DALL-E 2가 생성한 이미지들입니다. 다행히 저와 비슷한 모습은 하나도 없지만, 오픈AI가 사람들의 얼굴 사진을 학습한 건 분명해 보이네요.

어딘가 불편하시다고요? 당연합니다. 오픈AI가 제안하는 두 방법은 예술가 및 창작자를 비롯한 많은 사람이 요구하는 책임감 있는 자세는커녕 함정에 가깝거든요.

우선 첫째로, 순서가 뒤바뀌었습니다. 언제 사람들이 AI 학습을 목적으로 자신의 데이터를 크롤링할 것을 허용했죠? 왜 일단 가져간 후에 사람들로 하여금 직접 제외 요청을 하라고 하는 건가요? 반대로 가져갈 때 물어봐야 하는 것 아닌가요?

둘째, 이미 학습한 건 어떻게 되는 걸까요? 오픈AI는 옵트아웃 정책을 향후 개발할 모델에 대해서만 적용하겠다 약속합니다. 하지만 이미 수많은 데이터가 GPT-4나 DALL-E 3과 같은 최신 모델에 학습되었죠. 이전 버전까지 고려한다면 이 둘은 분명 세상에서 가장 많이 활용된 생성 AI 모델일 겁니다. 셀 수 없이 쏟아지는 AI 서비스에 직간접적으로 적용되어 지금도 돌아가고 있죠. 그런데 다음 모델에서부터 제외한다고요?

행동과 책임의 주체를 자신이 아닌 콘텐츠 소유자로 돌려놓는 오픈AI의 전략은 어쨌거나 먹혀드는 모습입니다. 아래 이어지는 글에서 산디 님도 써주시겠지만 이미 언론사를 비롯한 적잖은 온라인 매체들이 GPTBot의 크롤링을 막은 상태예요. 양질의 콘텐츠를 확보한 매체라면 AI 기업에 직접 데이터를 공급하는 방식으로 수익화를 꾀해볼 수도 있을 겁니다.

그럼, 이대로 모두가 GPTBot을 차단하면 오픈AI에게 불리해지는 것 아닐까요? 물론입니다. 하지만 저는 오픈AI가 전략 하나를 숨기고 있다고 생각해요. 바로 콘텐츠 소유자가 알아서 GPTBot가 자신의 웹사이트를 크롤링하도록 허용하게 만드는 거죠.

어떻게요? 그건 다음 시간에 이어서 살펴보도록 하겠습니다. 궁금하신 분들은 10월에도 AI 윤리 레터와 함께해 주세요!

🦜

함께 읽어도 좋을 지난 소식
- 웅성👥👤마이크로소프트가 책임진대👤👥웅성 (2023-09-13)
- 이용자 몰래 데이터를 활용하고 싶은 기업들 (2023-08-28)

오픈AI 크롤링 막는 데 급한 언론사들… 그다음은?

by 🍊산디

한국온라인신문협회와 한국신문협회는 AI가 학습한 뉴스 콘텐츠에 대한 정당한 대가를 요구합니다. 해외도 상황은 비슷합니다. CNN, 뉴욕타임스, 로이드 등 언론사들은 챗GPT의 기사 크롤링을 막았습니다. 워싱턴포스트, 블룸버그, ABC 뉴스 등도 마찬가집니다. 텍스트 데이터 마이닝을 법적으로 허용하고 있는 일본에서도 저작권법 개정을 요구하는 목소리가 커지고 있습니다.

크롤링을 막는 것만으로 뉴스 미디어가 콘텐츠 시장에서 누렸던 위상을 지킬 수는 없습니다. ‘인터넷 언론’이 처음 등장하던 90년대, 인터넷이라는 신기술에 어느 언론사가 먼저 적응하느냐를 두고 경쟁했던 아련한 그 시절이 돌아왔네요. 지금 언론사에는 AI를 고려한 비즈니스 모델이 없습니다. 언론사들이 오픈AI의 웹 크롤링을 막은 것은 협상력을 확보하기 위한 것일 뿐, 앞으로의 전략이 되지는 않습니다.

언론사들도 이를 알고 있습니다. 워싱턴포스트는 AI 전략 방향과 우선순위를 설정하는 AI 테스크포스와 전사 실험을 주도하는 AI 허브 등 조직을 개편했습니다. AP는 오픈AI에 콘텐츠 접근권을 제공하는 대신 오픈AI의 기술을 우선 도입하는 계약을 체결했습니다.

AP통신과 오픈AI의 거래를 두고 국내 언론사들은 오픈AI가 저작권 분쟁이 두려워 방어 전략을 펼친다거나, 오픈AI가 언론사에 돈을 내기 시작했다고 보도했습니다. 정작 AP 통신은 콘텐츠 접근을 막는 것은 한시적 대응에 불과하며 보다 근본적인 대응은 변화한 기술 환경에 발맞추는 것이라 판단했을 겁니다. AP통신의 전략에서 국내 언론사는 분명 무언가를 배울 수 있습니다.

생성 AI와의 경쟁에서 언론사가 승기를 잡아 새로운 문화 산업을 이끌어가길 진실로 진실로 간절히 기원합니다. 생성 AI가 만들고 AI가 추천한 콘텐츠만 유통되는 콘텐츠 시장은… 글쎄요. 별로 설레지 않아서요.

🦜