데이터셋 윤리 게임 천국

하나씩 읽자니 힘들어서 게임으로 만들었습니다

데이터셋 윤리 게임 천국
나는 이 질문에 대한 좋은 답을 가지고 있지 않습니다.
— J. 로버트 오펜하이머의 1965년 CBS 인터뷰
목차
1. 이용자 몰래 데이터를 사용하고 싶은 기업들
2. 그림 솜씨를 상속할 수 있을까?
3. 누구나 할 수 있는 생성 AI 해킹
4. 텍스트 생성 AI 안전하게 사용할 수 있을까?
5. 이 주의 게임 카드: '윤리 데이터셋' 들여다보기

💌 AI 윤리 레터가 오래 유지될 수 있도록 응원하러 가기

이용자 몰래 데이터를 활용하고 싶은 기업들

by 🎵소소

줌(Zoom) 자주 쓰시나요? 줌이 최근 서비스 약관을 업데이트했다가 역풍을 맞았습니다. "줌 이용자의 음성, 얼굴, 움직임, 채팅 대화 등의 데이터를 AI 학습에 활용할 수 있음”을 시사한 약관 변경에 대해 이용자들이 개인정보 침해 우려를 제기한 것인데요. 당연히 줌을 사용하지 않겠다는 의견이 줄을 이었고, 이용자들의 반발이 심상치 않음을 느낀 줌은 해명과 함께 서비스 약관을 업데이트했습니다. "고객 동의 없이 AI 모델 학습에 오디오, 비디오 또는 채팅 콘텐츠를 활용하지 않겠다"고요.

모든 문제가 해결된 것은 아니지만, 적어도 이용자의 데이터를 동의 없이 활용하는 것에 대해 경각심을 갖는 계기가 되었을 것입니다.

출처: 업데이트된 줌의 서비스 약관 Zoom Terms of Service 중 일부

최근 네이버도 ‘뉴스 콘텐츠 제휴 약관’을 언론사의 사전 동의 없이 네이버 서비스 개발 및 연구에 뉴스를 이용할 수 있도록 개정하여 논란이 됐습니다. 언론단체는 언론사의 지적재산권·자율권·편집권 침해 행위라며 동의할 수 없다는 성명서를 발표했습니다. 언론사의 반발에 네이버는 관련 뉴스 콘텐츠 약관을 전면 재개정했습니다. 한편, 공정거래위원회는 네이버 이용자가 블로그·카페·지식인 등에 올린 글을 AI 학습에 쓸 수 있게 수정한 약관의 불공정 여부를 조사하고 있습니다.

변경된 약관에 아무도 문제를 제기하지 않았다면 어땠을까요? 이용자 10명 중 7명은 약관을 읽지 않고 동의합니다. 서비스를 이용하기 위해서는 약관에 동의해야만 하는데, 이 약관이라는 게 도저히 읽을 수 없게 디자인되는 경우가 허다합니다. 상황이 이러하니 이용자가 데이터 제공의 실질적인 위험성을 파악하지 못하는 것은 당연합니다. 설령 약관에 동의하지 않아도 대개는 이의를 제기할 수 없습니다.

플랫폼 기업들은 이용자의 데이터를 기업의 자산으로 생각해 왔습니다. 현존하는 AI 모델 대부분도 이용자의 글을 데이터로 활용해 만들어졌죠. 기업에게는 명확하고 쉬운 서비스 약관을 마련할 의무가 있습니다. 기업은 데이터 주체에게 데이터 수집 목적을 명확히 전달하고, 이용자에게 합당한 권한을 부여해야 합니다. 하지만 이번 약관 변경으로 줌과 네이버는 많고 많은 반면교사의 사례에 포함되어 버렸네요.


그림 솜씨를 상속할 수 있을까?

by 🍊산디

부모가 소유한 그림을 상속하는 건 가능합니다. 하지만 부모의 빼어난 그림 솜씨를 상속하는 건 불가능합니다. 자녀가 부모의 그림 솜씨를 배워 훌륭히 모사해내는 정도죠. 하지만 조만간 그림 솜씨도 상속할 수 있을지 모르겠습니다. 물론 AI 이야기입니다.

이현세 AI는 기존의 AI와 저작권 이슈를 다루는 ‘일반적인’ 담론을 우회하는 독특한 사례입니다.

출처: 공포의 외인구단 1권 표지

만화 <공포의 외인구단>를 그린 한국 만화계의 명실상부한 스승 이현세 작가는 자신의 만화, 웹툰 그림을 재담미디어의 AI 학습에 제공하고 있습니다. 웹툰 에이전시인 재담미디어에게 이현세라는 거장과의 기술 콜라보는 좋은 기회였을 겁니다.

무엇보다 이런 서비스는 다수 예술가의 작품을 무차별적으로 학습하며 저작권을 침해했다는 비난에서 상대적으로 자유롭습니다. 만약 기존 생성 AI 모델에 기반하여 이현세 작가의 그림을 추가 학습시키는 것이라면 생성 AI 모델이 학습한 데이터의 저작권이 문제가 되겠지만, 이현세 작가의 그림만을 학습 데이터로 삼는 머신러닝 서비스라면 저작권 이슈에서 자유롭겠죠.

(실제 이현세 작가와 재담미디어의 소유 관계는 확인할 수 없었습니다만) 소유권 또는 이용권의 양도 역시 가능할 겁니다. 이현세 작가는 사후에도 계속해서 작품이 만들어지길 원한다고밝혔으니, 서비스를 상속받은 누군가가 계속해서 그림을 생산, 이용할 수 있을 거예요.

하지만 재담미디어는 기회와 함께 독특한 부담 역시 지게 됩니다.

  • 한 사람의 그림을 학습한 모델이다 보니 고객이 한 명으로 특정됩니다. 한 명을 위해 대규모의 투자가 필요하고 시장 확장 역시 제한됩니다.
  • 자연스럽게 단 한 명의 고객에 대한 존경과 예의가 중요해집니다. 포럼 등 대중에게 서비스를 소개하는 자리에서 재담미디어는 작품에 대한 팬심을 내비치며 작가의 ‘명작’을 ‘보존’하고 ‘선생님의 정신을 이어받아’ ‘작법을 전승’하기 위해 ‘특훈’하겠다는 등의 표현을 자주 사용합니다.

새삼 이현세 AI 이야기를 길게 한 것은 네이버웹툰이 저작권 침해 문제로부터 자유로운 AI 서비스를 개발하겠다 밝혔기 때문입니다. 특정 작가의 이미지만을 학습해 그 작가만 쓸 수 있는 AI 서비스를 만들겠다는 것이죠. 🦜AI 웹툰 보이콧 운동으로 대표되는 생성 AI와 저작권 문제에 대한 나름의 돌파구를 찾는 모습입니다.

이렇게 네이버웹툰은 저작권 문제에 대한 해법에 도달한 걸까요. 어떤 서비스가 탄생할지 결과를 지켜봐야겠지만, 아마 완전한 해법은 아닐 듯합니다. 네이버웹툰은 여러 작가를 만족시킬 수 있는 확장성을 가진 모델이 필요하고, 이를 위해서는 생성 AI 모델 위에서 특정 작가의 그림을 보강하는 형태로 작업할 수밖에 없을 거예요. 만약 그러하다면 생성 AI 모델의 학습 과정에 사용된 데이터의 저작권 문제에 대해 여전히 답할 수 있어야 합니다.

사회적으로 문제 제기가 이루어지고 AI 기술 기업은 새로운 해법을 모색합니다. 저작권 문제 역시 더 많은 시도가 이루어져야 합니다. 어떤 해법들이 등장하는지 살피고 흥미로운 지점과 한계를 함께 찾아갈 수 있었으면 합니다.


누구나 할 수 있는 생성 AI 해킹

by 🤔어쪈

AI 윤리 레터 대망의 1호를 통해 소개했던 내용의 후속 소식입니다. 백악관이 발표했던 세계 최대 해킹대회 데프콘(DEF CON)에서 생성 AI 모델의 취약점을 찾는 ‘생성형 레드팀 (Generative Red Team) 챌린지’가 진행되었습니다. 대회에 참가한 2200여 명의 해커들은 4일 동안 오픈AI, 구글 등 8개 기업의 AI 모델을 임의로 배정받아 여러 유형의 과제 중 하나를 선택해 이른바 ‘적대적 평가(adversarial test)’를 시도했습니다.

적대적 평가 과제의 사례는 이렇습니다.

  • 정보 진실성(information integrity): 곡해나 명예훼손 등의 피해를 불러일으킬 수 있는 허위정보를 생성하진 않는지
  • 내적 합치성(internal consistency): 표현, 언어 등 형식만 다를 뿐 사실상 같은 내용을 묻는 질문에 일관적인 답변을 하는지
  • 보안성(security): 학습 데이터에 포함된 카드번호 등의 중요한 정보나 개인정보를 출력하진 않는지
  • 특정 집단에 대한 차별 발언 등 사회적 위해(societal harm)가 있지는 않은지
출처: 생성형 레드팀 챌린지의 슬로건 ‘미래를 해킹하라’ 갈무리

우승자에게는 엔비디아의 RTX A6000 GPU(공식 가격이 6,800달러, 한화로 700만 원이 넘네요!)가 수여됩니다. 어떤 모델에 무슨 문제가 있었는지 등 최종 대회 결과는 내년 2월 백악관과 주최 측, 참여 기업들이 공동으로 투명성 보고서를 발표할 때까지 공개되지 않을 예정입니다. 아마도 기업들에게 개선할 시간을 주기 위해서겠죠.

레드팀은 정보보호 분야에서 보안 취약점을 찾기 위해 직접 해킹을 시도하는 것을 의미합니다. 생성 AI 모델 역시 소프트웨어이므로 전통적인 사이버보안 문제가 있죠. 게다가 거의 무한한 범위의 프롬프트가 입력될 수 있고, 그에 따른 출력 결과는 예측이 어렵습니다. 따라서 무엇을 생성 AI의 취약점이라고 볼 것인지 불분명한 상황이 발생합니다.

실제로 대회에서 주로 사용된 방법의 하나는 언어 모델과 역할극을 하는 것이었습니다. 말하자면 “히틀러로 빙의해 유대인에 대한 입장을 말해달라”는 프롬프트를 입력하는 거죠. 그 결과 유대인 차별을 정당화하는 내용이 생성됐다고 합시다. 우리는 이를 취약점으로 보고 해킹 성공이라 할 수 있을까요?

생성 AI 레드팀의 역할은 아직 불분명하지만, 이미 기업들은 기술 상용화를 위해 자체 레드팀을 적극적으로 운영하고 있어요. 보통 기업은 모델이 사전에 정의한 원칙을 위반하지 않도록 학습시키는 등의 별도 조치를 취하는데, 레드팀은 이를 우회할 수 있는 프롬프트를 찾는 데 중점을 둡니다. 탈옥(jailbreaking) 또는 프롬프트 주입(prompt injection)이라고 부르죠.

이런 작업에는 AI나 정보보호 분야에 대한 전문성보다 창의력과 규모가 더 중요할 수 있습니다. 대회 주최 측 역시 다양한 사람들로 구성된 대규모 레드팀을 운영하기 쉽지 않다며, 사실상 최초로 생성 AI 모델에 대한 공개 평가를 진행했다는 점에 의미를 부여한 것도 이러한 고민의 연장선에 있습니다.

다시 말해, 누구나 생성 AI 레드팀이 될 수 있습니다. 대회에 참가한 11살 아이도 7개 모델을 뚫는 데 성공했다며 자랑스러워했다고 해요. 마침 네이버가 챗GPT와 유사한 CLOVA X를 베타 서비스로 출시했습니다. 구독자 여러분도 비공식 레드팀이 되어 생성 AI 서비스의 취약점과 한계를 알아보는 건 어떨까요? 피드백이나 ‘위험한 대화’ 신고를 통해 모델을 개선할 기회를 개발사 역시 싫어할 리 없을 겁니다.


텍스트 생성 AI, 안전하게 사용할 수 있을까?

by 🌏다솔

2020년 12월, 구글 AI윤리팀의 공동 책임자였던 팀닛 게브루가 해고당하게 된 원인이었던 논문 <확률론적 앵무새>를 기억하시나요? <확률론적 앵무새>는 팀닛 게브루와 에밀리 벤더 외 2명이 공동 저자로 참여하여 대형 AI 언어 모델 (BERT, GPT-2 & 3 모델)의 위험을 지적하며 대형 언어 모델을 생성하는 데 사용된 데이터와 한계를 문서화하는 것이 중요하다고 강조한 바 있습니다.

출처: 에밀리 벤더의 강의자료 중 갈무리. 논문 <확률론적 앵무새>의 사고실험 이미지

최근 에밀리 벤더가 ChatGPT와 같은 합성 텍스트 생성 AI를 안전하고 올바르게 사용하는 방법을 소개했습니다. 이번 레터에서는 그 내용을 소개해 드리려 해요.

텍스트 생성 AI를 안전하고 올바르게 사용한 경우

  • 생성 AI 콘텐츠가 일관된 표현을 제공하여 오해의 소지가 없는 경우.
  • 생성 AI 콘텐츠에서 문제가 되는 편견과 혐오 콘텐츠를 필터링하여 식별할 수 있는 경우.
  • 독창성이 필요하지 않은 생성 AI 콘텐츠인 경우.
  • 데이터 도용 없이 공정한 노동 관행에 따라 작성된 대규모 언어모델을 사용하고 있는 경우.

텍스트 생성 AI 서비스 이용자가 시도할 수 있는 것
AI 시스템에 대한 뉴스나 글을 소비할 때 다음과 같은 질문을 통해 비판적으로 바라봅니다.(AI 윤리 레터 팀의 🦜AI HYPE 뉴스를 판별하는 방법도 참고해 보세요.)

  • 어떤 업무를 위해서 AI가 사용되었나요? AI가 무엇을 자동화하나요? AI를 어떻게 평가할 수 있을까요?
  • AI를 개발하기 위해 어떤 데이터가 사용되었나요? 관련 정보가 공개되었나요?
  • AI를 통해 누가 이득을 얻고 있나요?

텍스트 생성 AI를 활용하여 서비스를 제공하는 기업에서 시도할 수 있는 것

  • 사용된 텍스트 생성 AI의 훈련 데이터에 대한 명확한 문서 제공.
  • 서비스 제공에 활용되는 AI가 개발된 의도대로 사용성 테스트를 거침.
  • 서비스 제공을 위해 텍스트 생성 AI를 활용한 방법을 명확히 안내.
  • 텍스트 생성 AI 활용으로 인해 발생한 문제에 대한 책임은 기업에 있음을 명확히 함.

텍스트 생성 AI 서비스에 대해 사회가 시도할 수 있는 것

  • 기존의 규제를 AI 서비스에도 강력하게 적용.
  • AI의 투명성을 강조해야 함. 예를 들어, 어떤 데이터를 어디서 가져와서 학습했는지 투명하게 공개해야 하며, 합성된 콘텐츠는 워터마킹 처리.
  • AI로 인해 발생한 문제는 AI가 아닌 사람에게 책임이 있음을 분명히 함.
  • AI 자동화로 인해 발생할 수 있는 문제에 대한 대응책 마련.
  • AI 자동화로 인한 일자리 감소 및 노동자 권익 침해에 맞서기 위한 노동 친화적 환경 조성.

지난 7월 26일, 네이버클라우드는 AI 윤리/안전 데이터셋을 공개했습니다. 하나씩 살펴보려는데, 재미도 없고 힘도 들어서 간단한 도구를 만들었습니다.

이 주의 게임 카드: ‘윤리 데이터셋’ 들여다보기

by 🤖아침

데이터 라벨을 맞춰봅시다. 다음 문장은

저는 최근 네이버클라우드가 발표한 AI 윤리/안전 관련 데이터셋인 KoSBi를 살펴보기 시작했어요. 거대언어모델이 사회적 편향을 담은 텍스트를 생성하는 문제를 완화할 목적으로 구축한 것인데, 좋은 취지로 만들어진 데이터셋이 내용 측면에서도 좋은 자료를 담고 있는지 궁금해졌습니다.

문제는 데이터셋에 포함된 문장이 몇 만 개씩 돼서, 전부 읽어보기엔 부담된다는 건데요. 그래서 간단한 도구를 사용해보려 해요. 하나는 데이터셋에 들어있는 문장을 한 개씩 무작위로 불러온 뒤, 그 문장이 '위험'한지 '안전'한지 맞춰보는 🦜미니퀴즈고, 다른 하나는 문장에서 언급하는 사회 집단별로 데이터셋을 나누어 읽어볼 수 있는 🦜탐색기입니다. 도구는 아직 만들어 가는 중이니 편하게 의견 주시면 무척 감사하겠습니다.

문장을 읽다 보면 수긍이 되는 것도 있지만 고개가 갸우뚱해지는 것도 간혹 보입니다. 여러분도 직접 퀴즈를 풀면서 '안전한 AI'를 목표로 만들어진 데이터에 어떤 내용이 담겨 있는지 함께 보시죠.

👉KoSBi 데이터 탐색기