1등도 50점인 투명성 지수:FMTI

파운데이션 모델의 투명성을 측정합니다

1등도 50점인 투명성 지수:FMTI
우리는 도구에 의해 형성된다.

—셰리 터클(이은주 역), <외로워지는 사람들>
목차
1. 1등이 50점인 AI 모델 투명성 지수
2. 구글 딥마인드, 믿을 수 있을까요?

💌 AI 윤리 레터가 오래 유지될 수 있도록 응원하러 가기

1등이 50점인 AI 모델 투명성 지수

by 🤔어쪈

올해 봄 오픈AI는 많은 사람들이 그토록 기다리던 GPT-4를 발표하고서도 적지 않은 쓴소리를 들어야만 했습니다. 개발 방법이나 모델 규모나 구조와 같은 정보를 소상히 공개했던 전과 달리 주요 사항을 모두 숨겼기 때문인데요. 오픈AI가 ‘닫힌(Closed) AI’라는 오명을 감수하면서까지 정보를 감춘 이유는 시장 경쟁의 격화 때문이었습니다. 이후 적지 않은 기업들이 AI 모델에 대한 정보 공유를 꺼리기 시작했죠.

스탠포드 대학을 중심으로 모인 연구진이 보다 못해 나섰습니다. GPT와 같은 초거대 생성 AI에 ‘파운데이션 모델’이라는 이름을 붙인 연구소 CRFM에서 FMTI(Foundation Model Transparency Index)라는 AI 투명성 지수를 발표한 것이죠. 10개 주요 AI 개발 조직과 대표 모델을 평가한 결과도 함께 공개했습니다.

출처: 2023 파운데이션 모델 투명성 지수 (FMTI). 종합 점수 그래프

오픈소스로 개발된 메타의 Llama 2가 1위라고 하지만 점수는 겨우 50%를 넘겼을 뿐입니다. 허깅페이스 주축의 오픈소스 AI 개발 단체인 빅사이언스(BigScience)의 BLOOMZ가 뒤를 이었고, 나머지는 전부 50% 이하의 점수를 기록했습니다.

사실 투명성(transparency)은 지난 몇 년 간 정부, 기업, 국제기구 등 너나 할 것 없이 발표한 각종 AI 윤리 원칙에서 빠지지 않고 등장하는 단어입니다. 하지만 의미나 기준이 불명확한 개념이기도 합니다. 투명성은 AI 시스템이 어떻게 결과를 도출했는지 파악할 수 있도록 하는 설명가능성(explainability)과 자주 연결됩니다. 종종 관련 정보를 사전 고지할 것을 요구하는 개방성(openness)과 동의어로 이해되기도 하죠.

때문에 연구진은 100개에 달하는 다양한 하위 지표를 선정해 투명성의 여러 측면을 반영했습니다. 대표로 몇 개만 함께 살펴보면요:

  • 업스트림: 모델 개발 절차와 소요 자원 관련 정보
    • 학습 데이터 (규모, 출처, 수집 방법 등), 데이터 노동 (노동자 다양성, 보호 방안 등), 컴퓨팅 자원 (사용량, 개발 기간, 하드웨어 등)
  • 모델: 특성 및 기능 등 모델 자체에 대한 정보
    • 입출력 형식, 모델 구조 및 크기, 성능 평가 결과, 한계 및 위험 등
  • 다운스트림: 모델 배포 및 이용 관련 정보
    • 배포 및 이용 정책 (채널, 라이선스, 약관 등), 이용자 데이터 처리 방안, 피드백 절차 등

연구진은 전반적으로 낮은 점수에 실망하면서도, 개선의 여지가 분명 있다는 기대감을 나타냈습니다. 82개 지표를 최소 1개 이상의 회사가 충족했기 때문이죠. 더 높은 점수 달성이 가능하다는 겁니다. 특히 모델 개발에 들어간 학습 데이터나 노동, 컴퓨닝 자원에 대한 정보 공개가 필요하다는 결론을 내렸죠. 반면 이용자 데이터 보호나 모델 성능과 같이 그간 사회적으로 AI 개발사에 지속 요구되어온 항목은 비교적 성적이 좋았습니다. 결국 FMTI와 같은 연구, 목소리가 영향을 줄 수 있다는 뜻입니다.

우리나라는 미국이나 중국에 비할 바는 아니더라도 나름 파운데이션 모델 개발이 활발한 나라입니다. 네이버 하이퍼클로바를 비롯, LG AI 연구원의 엑사원, SKT의 에이닷 엑스, KT의 믿음 등 주요 기업들이 너도나도 출시하고 있죠. 조만간 국산 모델들을 직접 써보며 투명성 지수를 매겨보고, 개발사가 분발하도록 요구할 수 있는 날이 오길 바랍니다.


구글 딥마인드, 믿을 수 있을까요?

by. 🌏다솔

반년 전 구글에 직속 통합된 AI R&D 전문회사 구글 딥마인드(이하 딥마인드)에서 AI 시스템의 사회적, 윤리적 위험을 평가하기 위한 프레임워크를 제안하는 논문을 발표했습니다. 논문은 AI를 평가하고 감사하는 데 AI 개발자, 앱 개발자, 이해관계자 등 다양한 수준의 참여를 요구하고 있는데요. 왜 지금 이 시점에 발표했을까요?

다음 주, 영국 정부가 후원하는 AI Safety 서밋이 열립니다. 서밋에는 각국 정부, 주요 AI 기업, 시민사회단체, 연구 전문가들이 모여 AI 발전으로 인한 위험을 관리하는 최선의 방법에 대해 집중적으로 논의할 예정입니다. 영국은 UN의 ‘기후변화에 관한 정부 간 협의체’를 모델로 한 AI 글로벌 자문단을 도입할 계획이며, 이 자문단은 학계 전문가들로 구성하여 AI의 최첨단 발전과 그에 따른 위험에 대한 정기적인 보고서를 작성할 예정입니다.

딥마인드는 서밋에서의 정책 회담을 앞두고 AI 윤리에 대한 자신들의 관점을 눈에 띄게 공개하고 있습니다. AI의 성능 뿐만 아니라 AI가 인간과 상호 작용하는 차원, AI가 사회에 적용되고 미칠 효과까지 평가하는 종합적인 접근을 제안하고 있죠.

출처: 딥마인드. 어떤 사람들이 AI의 어떤 측면을 가장 잘 평가할 수 있는지 보여주는 차트

제안 내용은 그럴듯해 보입니다. 그렇다면 딥마인드의 모회사인 구글은 얼마나 투명한 기업일까요? 앞서 살펴본 파운데이션 모델 투명성 지표(FMTI) 연구에서 구글의 대표적인 언어모델 PaLM 2의 개방성은 40%에 그쳤죠.

딥마인드의 자체 모델과 모회사의 투명성 관련 조치가 미흡하다는 점으로 미루어 보아, 딥마인드가 가하는 윤리적 압박이 크지는 않은 듯 합니다. 딥마인드도 이러한 비판을 신경쓰고 있는 듯 해요. AI 평가 및 안전 연구를 지원하기 위해 영국 정부에 자사 AI 모델에 대한 "조기 또는 우선 접근"을 제공하기로 약속하기도 했거든요(OpenAI, Anthropic도 참여했습니다). 영국 정부와의 약속이 보여주기 식 퍼포먼스에 그칠지는 두고 볼 일입니다.

출처: DLD Conference 웹사이트 갈무리. 딥마인드 CEO 데미스 하사비스

곧 출시될 AI 챗봇, 제미니(Gemini)는 딥마인드가 AI 윤리에 얼마나 진실한지 알 수 있는 기회가 될 것입니다. 딥마인드의 CEO 데미스 하사비스가 챗GPT에 필적하는 기능을 제공할 거라 여러 차례 약속한 바 있죠. 딥마인드가 AI 윤리를 진지하게 받아들이고 있다면, 제미니의 강점뿐만 아니라 약점과 한계에 대해서도 철저하게 밝혀야 할 것입니다. AI 윤리 레터도 앞으로 딥마인드의 행보를 면밀히 지켜보겠습니다.