엇박자를 내는 오픈AI
반어법을 알아듣는 AI?
현재의 미래 담론에서 어떤 미래가 힘을 얻고 있고 어떤 미래가 배제되고 있는지 살펴볼 필요가 있습니다.미래는 정치의 대상이자 결과입니다.
—전치형&홍성욱, <미래는 오지 않는다>
AI 윤리 뉴스 브리프
2024년 5월 넷째 주
by 💂죠셉
1. Superalignment 팀 해체
지난 한 주, GPT4o 공개와 영미권 최대 규모 온라인 커뮤니티인 레딧(Reddit)과의 파트너십 체결 뉴스 등 오픈AI 관련 뉴스가 많았습니다. 이 와중에 AI 윤리에 관심이 있는 이라면 심상치 않게 보았을 뉴스가 있습니다. 바로 오픈AI의 핵심 브레인이자 공동창업자였던 일리야 수츠케버의 사임 소식, 그리고 그가 이끌던 수퍼얼라인먼트(superalignment)팀의 해체입니다.
- 수츠케버는 지난 11월, 오픈AI의 방향성에 대한 의견 불일치로 샘 올트먼 퇴출을 주도했던 인물 중 하나였기에 사임 자체가 매우 놀랍지는 않습니다. 중요한 건 그와 함께 슈퍼 얼라인먼트 그 팀을 이끌어 온 얀 라이케 또한 수츠케버를 따라 사임한 정황인데요. 여러 매체에 따르면, 이 둘 뿐만 아니라 지난 달 해당 팀의 멤버 2인이 팀을 떠났던 것으로 보입니다. 그리고 며칠이 지나지 않아 오픈 AI는 해당 팀을 해체시켰습니다.
- 얼라인먼트(alignment)는 AI 시스템의 목적이 인간의 그것과 일치하도록 만드는 작업입니다. 오픈AI의 ‘슈퍼얼라인먼트’의 경우 ‘잠재적 초지능이 잘못된 방향으로 향해 걷잡을 수 없는 일이 생기지 않도록’하는 임무를 맡은 팀이었죠. 당사자들이 이유를 말해줄 수 없으니 팀의 해체에 대한 여러 추측들만 난무하고 있는 상황입니다. (가령 슈퍼얼라인먼트가 현실성 없는 걸 깨닫고 팀원들이 배에서 뛰어내린 게 아니냐는 추측.)
- 오픈AI는 20%의 리소스를 이 ‘미션’에 투입하겠다고 공언한 바 있는데요. 팀이 해체된 상황에서 앞으로 얼마나 이런 작업이 이뤄질 수 있을지는 회의적입니다. CEO인 샘 올트먼이 반도체 칩을 확보하기 위해 중동 국가들로부터 펀딩을 유치하는 등, AI의 전쟁에 승자가 되려 전력질주 하고 있는 상황에서 AI의 안전 문제에 목소리를 내던 내부 인사들의 이탈은 향후 오픈AI의 방향성에 의구심을 품게 만듭니다.
2. 오픈AI의 NSFW 허용 정책
오픈AI가 NSFW(Not-Safe-For-Work: '업무 상황에서 적절치 않은')로 분류되어 그동안 금지해 온 콘텐츠를 제한적으로 허가하는 건을 재고 중이라고 합니다. 오픈AI의 설명에 따르면 NSFW는 매우 잔인하거나 에로틱한 콘텐츠, 욕설 등을 포함합니다.
- 오픈AI의 모델 리드 조안 장에 따르면, 딥페이크나 불법 정보, 타인의 권리를 해치지 않는 선에서 사용자들이 NSFW 콘텐츠를 책임감을 가지고 (responsibly) 생성할 수 있도록 최대한의 권한 부여를 검토 중입니다.
- 얼마 전 있었던 테일러 스위프트의 딥 페이크 사건 이후 AI를 사용한 성착취물 제작 문제가 사회적으로 큰 화두가 됐기에 더욱 논쟁적인 사안입니다. 뉴욕 타임스 또한 평범한 사진을 누드 사진으로 바꾸는(nudify) AI 앱들이 미국 학교 내 괴롭힘 이슈로 이어지고 있다는 점을 보도한 바 있죠. AI가 음란물 제작에 사용될 수 있다는 지적에 대해 오픈AI는 “포르노를 어떻게 정의하느냐에 따라 달라질 수 있다.’는 다소 모호한 답변을 내놓고 있는데요.
- 그러면서도 ‘NSFW 콘텐츠는 연령 제한을 걸고 잘만 관리되면 예술 작품 등에도 사용될 수 있다’는 입장을 보이고 있어, ‘안전과 유익(safe and beneficial)’을 미션으로 내걸었던 오픈AI가 자기모순에 빠졌다는 지적이 나오고 있습니다.
3. 반어법을 알아듣는 AI?
AI가 무엇을 할 수 없는지를 이야기할 때 가장 많이 언급되는 게 감정의 영역이고, 그중에서도 인간의 유머 감각인데요. 유머의 핵심 요소 중 하나인 반어법, 즉 사르카즘(Sarcasm)을 AI에 학습 시키고 있는 팀이 있습니다.
- 네덜란드 흐로닝언 대학의 연구진은 미국 시트콤인 <프렌즈>와 <빅뱅 이론>의 장면 등을 활용해 ‘머스터드’라는 데이터셋을 구축 중입니다. 해당 시트콤에 대해 약 75% 정확도로 반어법을 골라낼 수 있다고 하네요.
- 인간의 언어 능력 중에서도 고차원적인 영역에 속하는 반어법을 AI가 구사할 수 있다면 인간과 더 자연스러운 대화를 할 수 있는 건 물론, 말의 뉘앙스를 파악해 혐오 발언을 걸러낼 수도 있을 것이라고 연구진은 기대하고 있습니다.
- 오늘 브리프의 키워드인 ‘얼라인먼트’ 관점에서도 흥미로운 소식인 것 같습니다. 반어법을 알아듣고, 사용하는 AI 챗봇과 어떤 상호작용이 가능할지, 지금으로선 상상하기 어렵습니다. 우리가 정말 원하는 건 ‘인간과 가까운’ AI인가요? 기계 학습과 자동화를 허용해야 하는 범위는 어디까지일까요? 이렇듯 명쾌한 답이 없는 회색지대야말로 우리가 ‘윤리’를 대화해야 하는 지점이 아닐까 합니다.
#feedback
오늘 이야기 어떠셨나요?
여러분의 유머와 용기, 따뜻함이 담긴 생각을 자유롭게 남겨주세요.
남겨주신 의견은 추려내어 다음 AI 윤리 레터에서 함께 나눕니다.