인간 커뮤 스택오버플로우

스택오버플로우가 AI 서비스를 출시합니다

🤔어쪈, 🎶소소, 🍊산디, 🤖아침

2023년 7월 31일 — 20 min read

당신처럼 싸우는 법을 배우는 중이야
—영화 <에브리씽 에브리웨어 올 앳 원스>

목차
1. 초거대→파운데이션→프론티어→???
2. 스택오버플로우, '(사람) 커뮤니티가 AI의 미래다'
3. AI 학습 데이터, 저작권 침해 면책...?!
4. 네이버 LLM 안전 데이터셋
5. 이 주의 논문 카드: 대량 학살, 추모 그리고 AI

💌 AI 윤리 레터가 오래 유지될 수 있도록 응원하러 가기

초거대→파운데이션→프론티어→???

by 🤔어쪈

🦜AI 윤리 레터 1호 제목을 장식했던 기사 ‘백악관에 집합당한 빅테크’의 후속 소식입니다. 두 달 전 백악관은 미국 대표 AI 기업 CEO들을 불러 안전하게 개발해달라 당부했었죠. 이번엔 구체적인 자율규제안을 발표했습니다. 아마존, 앤스로픽, 구글, 인플렉션, 메타, 마이크로소프트, 오픈AI까지 총 7개*로 참여 회사 수 역시 늘었습니다.

*상대적으로 덜 익숙할 수 있는 기업들이 있죠. 앤스로픽(Anthropic)은 오픈AI 출신 창업자가 세우고, 클로드(Claude)라는 모델을 개발했으며, 구글의 투자를 받았습니다. 인플렉션(Inflection)은 구글 딥마인드 출신의 창업자가 세우고, 동명의 모델 바탕의 파이(Pi)라는 반려 챗봇 서비스를 개발했으며, 마이크로소프트와 엔비디아의 투자를 받았습니다.

자율규제안을 요약하면 다음과 같습니다.

적용 대상: GPT-4와 같은 현존 생성 AI보다 강력한 모델로, 프론티어 AI (Frontier AI system)라고 칭함
안전 보장 (Safety): 내·외부 레드팀 활동을 통해 위험을 관리하고, 해당 내용을 타 기업 및 정부와 공유할 것
보안 준수 (Security): 사이버보안과 내부자 위협 보호에 투자해 모델 정보 유출을 방지하고, 제3자의 취약점 발견 및 신고를 장려할 것
신뢰 확보 (Trust): 이미지·음성·영상 콘텐츠가 AI로 생성되었는지 알 수 있도록 출처 표기 및 워터마킹 등의 메커니즘을 개발하여 도입할 것
모델 및 시스템의 성능, 한계, 적합한 사용 영역에 대한 정보를 공개하고 편향 및 차별, 프라이버시 침해 등의 사회적 위험에 대한 논의와 연구 결과를 공유할 것
기후변화 대응 등의 사회적 문제 해결을 위한 프론티어 AI를 개발 및 배포할 것

백악관 전경을 낮시간에 찍은 사진 — 출처: Photo CC BY-SA 4.0 PLBechly

발표 직후, 7개 기업 중 4개 기업은 기다렸다는 듯 자율규제안 준수를 위해 ‘프론티어 모델 포럼(Frontier Model Forum)’을 발족했습니다. 설립 목적과 참여 자격, 활동 계획을 적은 발표문에 따르면 포럼은 프론티어 AI 모델의 안전 표준과 평가 방법을 중심으로 연구 결과나 우수 사례 등의 정보를 공유하는 산업협회에 가까워 보여요. 결과적으로 프론티어 AI를 개발하는 업계 입장을 대표하여 정부를 비롯한 정책입안자, 학계 및 시민사회에 의견을 전달하는 역할을 하게 될 것 같습니다.

기업들이 스스로 나서 보다 안전하고 신뢰할 수 있는 AI를 개발하겠다고 활발하게 관련 실천을 이어 나가는 건 매우 좋은 일이죠. 하지만 발표 시점이나 영미권 기업으로 한정된 시·공간적 맥락, 프론티어 AI라는 새로운 정의 등 구체적인 내용을 살펴보면 마냥 잘했다고 박수만 칠 일은 아닌 것 같습니다.

AI 법 제정이 가시권으로 들어온 EU에 비해 미국은 무엇을 어떻게 규제하는 게 좋을지 구체화하지 못한 상황입니다. 빅테크를 중심으로 기술 분야를 선도하고 있지만, 타 국가에서 만든 규칙을 적용받아 손해를 보는 건 아닐지 우려하고 있죠. 이는 미국 정부 및 의회와 미국 소재 AI 기업 간 동맹을 결성할 유인이 됩니다. 최근에는 법제화 시점이 이르다는 비판을 듣는 EU보다 미국이 더 급해 보이기도 하죠.

AI를 직접 개발하는 기업들이 정부, 이용자보다 정보 우위에 있다는 점을 고려하면, 이번 자율규제안은 규제받아야 할 기업들이 오히려 규제 주도권을 갖게 되는 계기일 수 있습니다. 실제로 자율규제안에는 기업의 입김이 강하게 느껴지는 대목들이 있는데요. 우선 프론티어 AI라는 새로운 용어를 제시하며 규제 대상을 현존 기술 너머의 것으로 정의합니다. 챗GPT와 같이 이미 출시된 AI 서비스의 여러 사회적 문제에 대해서는 책임을 묻지 않죠. 프론티어 AI라는 용어 자체도 앞서 해당 기업 소속 연구자들이 발표한 AI 규제 방안을 다룬 논문에서 제안되었습니다. 백악관이 이를 그대로 반영하다니, 영 껄끄럽습니다.

규제 논의에서 포럼 참여 기업들만 목소리를 낼 수 있게 된다는 사실 역시 문제입니다. 포럼에는 참여 기업들이 세운 기준에 따라 프론티어 모델을 직접 개발하는 회사 등의 조직만 가입할 수 있는데요. 프론티어 모델 개발사부터 최종 이용자까지의 가치사슬을 감안하면, 일부 기업의 의견만 과대 대표되는 건 아닐지 우려되는 대목입니다.

이러한 맥락에서 프론티어 모델 포럼은 자율규제안 실천을 위한 산업협회가 아니라 일부 AI 선도 업체의 이익을 대변하는 로비단체에 지나지 않아 보입니다. 해당 회사들의 AI 규제 필요성을 역설하는 목소리가 ‘사다리 걷어차기’를 위한 것이라는 지적이 다시금 생각나네요.

스택오버플로우, '(사람) 커뮤니티가 AI의 미래다'

by 🎶소소

개발자들이 기술 질문과 답변을 주고 받는 커뮤니티 스택오버플로우의 사용량이 50% 가까이 감소했습니다. 챗GPT 등장 이후 6개월 동안의 일입니다. 접속자, 질문과 답변, 좋아요 모두 현저하게 줄었습니다. 사람들은 인간이 아닌 AI에게 질문을 던지기 시작했습니다. AI는 몇 초 안에 답을 주기 때문이지요. 이전에 누군가 했던 질문을 또 했다는 타박을 주지도 않고요.

"이것을 보니 슬프다"는 메시지와 함께 스택오버플로우 트래픽이 2022년 하반기 이후 급감하는 그래프 이미지가 첨부되어 있다. — 출처: 스택오버플로우 사용량 감소에 관한 트위터 갈무리. 슬프다는 반응과 예견된 수순이라는 반응이 오갔습니다.

그러나 AI가 사람들의 질문에 답할 수 있는 이유는 지난 십여 년간 커뮤니티에 쌓인 질문과 답변을 학습했기 때문입니다. 지금처럼 사람들 간의 논의가 감소하면 앞으로 AI가 학습할 데이터도 줄어들겠죠. AI 답변 품질도 갈수록 낮아질 수 있습니다.

스택오버플로우는 초반부터 생성 AI에 부정적인 입장을 표해왔습니다. 챗GPT 등의 생성AI를 사용해 답변을 작성하는 것을 금지하는 정책을 내기도 했죠. 답변의 오류를 확인하기 어렵다는 이유였습니다. 이용자들도 이에 동의하는 것처럼 보였지만, 결국 빠르게 답해주는 AI 도구에 익숙해졌습니다.

AI 기업이 더 이상 무료로 커뮤니티 데이터를 사용할 수 없도록 데이터의 유료화를 예고하기도 했습니다. 커뮤니티가 AI 학습에 기여한 만큼 보상을 받아야 한다는 입장이었죠. 그러나 개발자들이 모두 여기에 동의하지는 않았습니다. 자신들이 커뮤니티에 답변을 작성한 이유는 모두에게 공평하게 공유되기 때문이라면서요. 논란 속에 다시 데이터는 무료로 제공되기 시작했습니다.

스택오버플로우의 시대는 끝났다는 논란 속에, 오버플로우 AI 출시가 예고 되었습니다. 생성 AI를 커뮤니티에 통합할 계획을 세운 것이죠. 오버플로우 AI는 커뮤니티 기존의 답변을 출처로 인용해 답변을 생성합니다. 답변의 신뢰도를 높이면서도 이용자의 기여를 인정할 수 있도록 한 것이죠. 만약 AI가 제대로 답변하지 못하면, (사람) 개발자들에게 질문할 수 있도록 질문을 작성해 줍니다.

스택오버플로우는 이번 AI 서비스 발표에서 커뮤니티 정신을 강조했습니다. 오버플로우 AI는 커뮤니티가 부활하는 계기가 될 수 있을까요? 지식을 제공하는 사람들의 기여를 인정하고자 하는 마음이 통할까요? 한 가지는 확실합니다. 커뮤니티든 챗GPT든, 개발자들은 질문에 가장 좋은 답변을 얻을 수 있는 곳으로 몰려들 것입니다.

💬

댓글
- (🤖 아침) ‘커뮤니티’와 ‘지식’이라는 면에서 스택오버플로우보다도 더 상징적인 곳은 위키백과일 거예요. 또한 위키백과는 대형언어모델 학습데이터에 거의 항상 들어가는 필수 데이터 출처인데요. 위키미디어 재단은 LLM의 대중화 전부터 편집, 번역 등을 반자동화하는 인공지능 기능을 적극적으로 사용해 왔고, 최근에는 챗GPT 등 어시스턴트 도입 방안을 검토하고 있기도 합니다. AI 기술과 함께 변화하는 인터넷 지형에서 위키백과가 처한 상황을 가늠하는 뉴욕 타임스 기사도 참고할 만해 보여요(유료 기사).

AI 학습 데이터, 저작권 침해 면책…?!

by 🍊산디

지난 21일, 정부는 <서비스산업의 디지털화 전략>을 발표했습니다. 전략에는 AI 학습을 위해 데이터를 활용하는 경우 저작권 침해를 면할 수 있도록 법을 개정하겠다는 계획이 포함되었습니다. 이에 언론계를 중심으로 논란이 일고 있습니다.

저작권법 ‘정비’ 필요성을 이야기하며, 전략 문서는 “EU·일본 등은 AI 학습용 데이터 활용을 위한 저작권 면책규정 이미 도입”되었음을 상기시킵니다. 사실이기는 합니다. 하지만 EU와 일본의 법은 동일하지 않습니다. 게다가 법 개정 이후 각국은 현재 저작권법이 생성AI에는 어떻게 적용되어야 하는지를 둘러싼 논의를 계속하고 있죠.

먼저 EU를 살펴봅시다. EU 디지털 단일시장 저작권 지침은 연구기관이 과학 연구를 목적으로 데이터를 추출했거나, 또는 저작권자가 본인 저작물의 추출을 거부(옵트아웃)하지 않았을 때 저작권 침해에서 면책된다고 명시합니다. 하지만 이는 어디까지나 생성AI가 지금과 같은 모습으로 확대되기 전에 이루어진 법개정입니다. 저작권자가 데이터 추출을 어떻게 거부할 수 있고, 추출된 저작물은 어떻게 처리 및 저장되어야 하는지 다시금 문제 제기가 이루어지고 있죠.

일본은 상황이 좀 다릅니다. 일본의 저작권법은 데이터 분석이 목적이라면, 상업적이든 비상업적이든, 합법적인 콘텐츠이든 불법 콘텐츠이든 상관 없이 매우 폭넓게 저작권 침해 면책을 인정합니다. 다만 추출을 통해 저작물을 감상하거나(enjoy), 다른 사람의 감상을 막아서는 안 됩니다. 나가오카 문부과학대신은 현행 저작권법 고수 입장을 재확인한 바 있고, 의회 일각은 이에 대해 문제 제기하고 있습니다.

외국 입법례가 한국 법 개정을 정당화하지는 않습니다. ‘모두 하고 있으니, 우리도 하자!’고 천진난만하게 이야기할 수는 없죠. 이해관계가 얽혀 있는 경우는 더욱 그러합니다. 게다가 법 개정으로 혜택을 보는 건 국내 사업자만이 아닐 수 있습니다. 저작권은 국제 조약의 영향을 받습니다. 한국 정부가 해외 국가와 맺고 있는 국제 조약의 내국민대우 등으로 인해 해외 사업자도 국내 저작물을 추출해 가는 혜택을 볼 수도 있습니다.

🦜

더 읽어보기
- 생성AI와 저작권, 정산은 본질이 아니다 (2023-07-10)
- 생성AI에 맞서 저작권 지키기 (2023-06-12)
- AI 웹툰 보이콧, 누구를 위한 AI인가 (2023-06-05)

네이버 LLM 안전 데이터셋

by 🤖아침

네이버 AI랩에서 인공지능 언어모델 안전 관련 논문 및 데이터셋을 공개했습니다. 사회 이슈를 다루는 민감한 질문과 그에 허용 가능한 답변, 부적절한 답변으로 이루어진 데이터셋입니다.

관련 보도에 동성애 관련 예시가 수 차례 등장하는데요. 데이터 라벨링을 수행한 작업자 258명 중 성소수자는 1명이라고 논문에서 밝히고 있습니다(아래 도표). 동시에 네이버에 따르면 “굉장히 넓고 고른 인구통계학적 분포를 가진 작업자 258명이 질문과 답변을 가공 ”했다고 합니다. 흥미로운 대목이네요.

아직 요목조목 뜯어보지는 못했지만, 이 데이터셋은 앞으로 또 이야기할 일이 있을 것 같아요. 그럼!

데이터라벨링 노동자 인구통계 특성 발췌. [성적 지향] 스트레이트: 243명, LGBTQ+: 1명, 응답없음: 14명 / [장애] 없음: 251명, 있음: 1명, 응답없음: 6명 — 도표 출처: SQuARe: A Large-Scale Dataset of Sensitive Questions and Acceptable Responses Created Through Human-Machine Collaboration

미콜라 마크호르티크흐 등이 공저한 논문 <안드로이드가 제노사이드의 꿈을 꿀 수 있어야 하는가?>는 대량 학살의 추모와 사회적 기억에 있어 생성AI가 제기하는 가능성과 위협을 다룹니다. 논의는 얼핏 통상적인 생성AI 관련 비판적 검토와 비슷해 보입니다. 하지만 대량 학살 등의 참사를 기억하는 일은 특히나 도덕/윤리/정치가 치열하게 개입하는 영역이라는 점에서, 몇 가지 날카로운 논의 지점들을 제시합니다.

이 주의 논문 카드: 대량 학살, 추모 그리고 AI

by 🤖아침

생성AI와 디지털 추모: 희망 편

추모 콘텐츠 생성, 관계자 프라이버시 보호, 다양한 언어 지원을 통해 기억/추모 능력을 확장할 수 있다.
사건에 관한 서사를 새로 만들어, 기존 검색 기반 경험보다 폭넓은 상호작용과 새로운 대중 학습 방식을 제공할 수 있다.
대화형 데이터 탐색, 시각화 생성, 연관 자료 식별, 결과물 개인화, 합성데이터 생성 등으로 연구 자료 수집/분석을 도울 수 있다.
콘텐츠의 내용 및 출처 등에 근거한 분류 기법으로 대량 학살에 관한 거짓 정보 등 역사 왜곡을 탐지하는 데 활용할 수 있다.

챗봇에게 나치 수용소 관련 설명을 요청한 문답 내용과, 이미지 생성AI로 생성한 수용소 이미지 — 출처: 미콜라 마크호르티크흐 등, <안드로이드가 제노사이드의 꿈을 꿀 수 있어야 하는가?(2023)>

생성AI와 디지털 추모: 절망 편

서구 중심주의를 재생산하고 소수자 경험이 배제되거나 권위주의 국가에서 사회적 기억이 획일화되는 등 서사 헤게모니 고착의 위험.
특정 연구 방법론 음지화: AI 열풍이 전통적 질적 연구 방법의 매력도와 실행 가능성을 낮추어, 인간 경험을 중심으로 한 지식 생산이 퇴화하고, 디지털 시스템의 제약이 곧 연구의 제약으로 이어질 위험.
검열 강화: 프로파간다, 리스크 관리 등을 목적으로 특정 사건과 관련된 정보 생산이 제한될 위험.
의도적 허위정보 생산, 생성AI 환각 등으로 직간접적인 역사 왜곡이 강화될 위험.
기술 기반 추모 활동의 신뢰 약화: 기술과의 상호작용이 대인 상호작용과 유사해지면서 신뢰감이 높아져 비판적 독해를 방해할 가능성. 동시에 데이터 편향 우려가 검열을 의심하게 하여 신뢰를 낮출 가능성도 있음. 또한 정확성이 중요한 분야인 만큼 환각 문제와 그로 인한 이용자 불신도 해결해야 함.
민감정보: 개인정보 노출과 대량 학살 피해자를 어떻게 재현할 것인지에 대한 윤리적 접근 필요.
거짓 콘텐츠 생산: 거짓된 주장의 유통으로 인해 역사 문헌에 관한 신뢰가 저하될 우려.

그 밖의 고려사항

데이터 접근성: 대량학살 관련 자료는 대부분 전통적 아카이브에 들어 있고 일부만 디지털화되어 있음.
이용자 프라이버시: 생성AI 플랫폼들이 입력 내용 등 이용자 정보를 어떻게 사용하는지 불확실.
재현의 윤리: 피해자의 목소리와 생성AI의 결합, 실제 증언과 생성된 증언 등은 새로운 윤리 문제를 제기.
추모 관련 노동력 대체: 추모에 종사하는 노동자들은 역사적 인식과 감수성을 확산하는 역할도 수행한다는 점에서 이들의 일자리를 AI로 대체하는 것은 사회적 손실.

제언

위험을 경계하되 가능성을 탐색하는 인간 중심 실험이 계속되어야 함.
생성 AI를 활용한 기억 보존과 왜곡이 학계 안팎에서 어떻게 이루어지는지 관심 가질 필요.
인공지능 설계와 기능의 투명성, 성능 감시, 디지털 리터러시를 강화해야 함.
서구/실리콘밸리 중심주의에서 벗어나 다양한 지역의 AI 개발과 발전에 주목해야 함.
대량 학살과 관련한 생성 AI 사용 가이드라인 수립 필요.

인상에 남은 점

위험 방지를 위해 특정 프롬프트를 금지하는 등 활동을 아예 통제하려는 시도는 오히려 기억을 배제하는 부작용으로 이어질 수 있다.
생성AI가 추모 서사를 설득력 있게 만들어 낸다고 하자. 그것이 우리가 추모를 통해 수행하고자 하는 인간의 추모 활동에 부합하는가? 대량 학살에 대한 서사가 그럴싸해 보이는 것과, 우리에게 어떤 의미가 되는가는 별개의 문제다.
생성AI가 만들어 내는 대량 학살에 대한 서사를 둘러싼 국가 간 기억 전쟁, 즉 대립하는 해석이 충돌하는 담론전이 벌어질 수 있다.