챗GPT는 목마르다

AI의 학습에는 엄청난 양의 물이 소비됩니다

챗GPT는 목마르다
목차
1. AI 가짜뉴스 주의보, AI 콘텐츠 표기 의무화
2. 어떡하라는 거예요 샘 올트먼 씨!
3. 오픈소스 AI의 딜레마
4. AGI vs. 현실
5. 이 주의 논문 카드 : GPT-3는 질문 20~50개당 물 500밀리리터를 소비합니다

AI 가짜뉴스 주의보, AI 콘텐츠 표기 의무화

by 🎶소소

미국 국방부가 폭발했다는 AI가 생성한 가짜 사진이 온라인에 퍼지며 증시가 출렁였습니다. 최근 캐나다에서는딥페이크 아동 포르노를 제작한 자가 3년 이상의 징역형을 선고받았습니다. 딥페이크로 징역을 받은 첫 사례입니다. 정교해진 AI 기술 덕분에 콘텐츠의 진위를 파악하기가 점점 더 어려워지고 있습니다.

가짜뉴스에 가장 예민한 이슈는 선거입니다. 각국 정부는 AI로 만든 가짜 뉴스가 선거에 미칠 영향을 염려하고 있습니다. 미국 의회는 정치 광고에서 AI 생성 콘텐츠를 규제하는 법안을 발의했습니다. 우리나라 국회도 AI로 생성한 콘텐츠임을 표기하도록 하는 콘텐츠산업진흥법 일부개정안을 발의했고요.

인간보다 뛰어난 AI의 등장에 대한 두려움 못지않게, 현재의 AI의 악용을 막기 위한 대비도 필요한 시기입니다. 일반 글의 출처 표기도 잘 안 되는데, AI 콘텐츠 표기는 과연 성공할 수 있을까요?

🦜
덧붙이는 글
- 🌏다솔 : 5월 9일에 개소한 가짜뉴스센터도 기초적인 사업계획안도 없이 추진되고 있다는 기사를 봤어요. 가짜뉴스센터는 가짜뉴스에 대한 사례가 쌓이면 유형화를 하겠다고 했지만, 구체적으로 어떻게 유형화할 것인지는 모호해 보입니다.
- 🤔어쪈 : 어떻게 표기를 하도록 만들겠다는 건지 궁금해서 법안 내용을 살펴보니 모든 세부 사항을 대통령령에서 정하도록 했더군요. 유행 따라 별 고민없이 발의한 건 아니겠죠?

어떡하라는 거예요 샘 올트먼 씨!

by 🍊산디

챗GPT를 개발한 OpenAI의 CEO 샘 올트먼이 연일 입방아에 오르내리고 있습니다. 지난주 미 상원 청문회에서 AI 규제에 대한 전향적(?) 태도로 놀라움을 선사했던 그가, EU 인공지능법(AI Act)준수가 어렵다면 ‘영업을 중단’할 것이라고 런던 방문 도중 언급했기 때문입니다.

그는 인공지능법의 최근 논의가 마음에 들지 않았나 봅니다. 인공지능법은 AI 서비스를 ‘최소한의 위험’에서부터 ‘수용 불가능한 위험’까지 네 단계로 나누고, 고위험군에 속한 AI 서비스에 더 많은 의무를 부여하는 규제 프레임입니다. EU는 2024년까지 인공지능법 제정 절차를 마무리할 계획입니다.

본래 인공지능법은 의료, 신용평가, 채용 등에 사용되는 AI 서비스를 “높은 위험”으로 분류하도록 되어 있었습니다. 하지만 생성 AI의 등장으로 초대형 언어모델(Large Language Model, LLM)까지 규제 대상을 확대했습니다. 요컨대, 샘 올트먼은 챗GPT가 인공지능법의 규제 대상이 되는 게 싫었던 거죠.

(영어) 샘 올트먼: AI를 어떻게 규제할지 생산적인 대화를 나눈 유럽에서의 한 주였습니다! 이곳에서 영업을 계속하는 것이 기쁘며 물론 떠날 생각도 없습니다.
출처 : 샘 올트먼 트위터

발언이 문제가 되자 샘 올트먼은 입장을 선회하는 트윗을 올렸습니다. 유럽 시장을 떠날 계획이 없다는 내용이었죠. 음. 세상 문제가 트윗으로 해결된다면 좋을 텐데요!

빅테크는 EU에게 신중한 접근을요청해 왔습니다. 샘 올트먼이 환영한다는 규제도 언제 등장할지 알 수 없는, AGI 이후 ‘초지능’의 등장을 상정하고 있고요. 새로운 거버넌스를 고민한다는 OpenAI가 원하는 규제는 자칫 후발주자에 대한 사다리 걷어차기이면서 유럽의 규제에 대항할 새로운 법리에 지나지 않을 수 있습니다.

🦜
참고
- AI 윤리 레터 지난 호, 청문회에 출석한 샘 올트먼, AI 규제 지지

덧붙이는 글
- 🤔어쪈 : 샘 올트먼 본인이 제안하는 규제엔 없고 EU 인공지능법엔 있는 내용이 곧 오픈AI가 두려운 지점이겠네요! 현재 법률안이 과잉규제라면서 풀어질 것을 기대하던데, 과연 EU가 어떤 내용으로 인공지능법을 확정할지 궁금해집니다.

오픈소스 AI의 딜레마

by 🤔어쪈

한 달 전 유출된 구글 내부 문건은 ‘구글에도, 오픈AI에도 해자가 없다’고 결론 내렸습니다. 이 결론은 그동안 오픈AI, 마이크로소프트의 광폭 행보에 가려져 한동안 잊혔던 이름을 다시 끄집어올렸습니다. 오픈소스와 메타입니다.

문건은 모델의 효율성 중심으로 오픈소스 AI가 빠르게 발전하면서 기업의 무겁고 비싼 초거대 AI를 대체할 것으로 전망했습니다.

초원에 앉아 있는 라마 사진. 라마 등허리 위로 메타의 로고가 합성되어 있다.
라마 사진에 메타 로고 합성

오픈AI는 ‘시장 경쟁’을 이유로 GPT-4의 세부 정보를 공개하지 않아 닫힌 AI(Closed AI)라는 비판을 받고 있습니다. 하지만 이전에도 대다수 기업은 AI 모델을 오픈소스로 제공하지 않았습니다. 악용 위험을 이유(핑계)로 들면서요.

그런데도 오픈소스 진영은 번성하고 있습니다. 여기에는 메타버스에 올인 후 테크 업계에서 조롱거리로 전락하고 만 메타(구 페이스북)의 역할이 컸습니다. 메타가 오픈소스로 공개한 대규모 언어모델 라마(LLaMA)의 가중치 정보가 유출되면서, 상당한 자원을 필요로 하는 학습 단계 없이도 모두가 초거대 AI를 쓸 수 있게 된 거죠. BigScience, EluetherAI등오픈소스 프로젝트 및 연구 그룹도 큰 도움이 되었습니다.

사람들은

오픈소스의 선전 덕분에 빅테크 AI 독과점을 우려하는 사람들은 안심할 수 있겠지만, 누구나 어떤 목적으로든 활용할 수 있는 오픈소스 AI가 오히려 위험할 수 있다는 주장 역시 설득력이 있습니다. 오픈소스 AI, 어떻게 다루어야 할까요?

🦜
덧붙이는 글
- 🤔어쪈 : 물론 오픈소스에도 여러 방식이 있기 때문에 항상 아무런 제약 없이 AI 모델을 쓸 수 있는 건 아닙니다. 마찬가지로 AI 모델의 배포를 단순히 오픈소스냐 아니냐, 이분법적으로만 접근할 필요도 없죠. 오픈소스 AI의 딜레마를 풀기 위한 노력에 관심이 있다면 이 글을 읽어보시길 추천합니다!
- 🌏다솔 : 오픈소스에 대한 다양한 논의가 이뤄졌던 2년 전 오픈소스를 비판한 글이 생각나네요. 해당 글 댓글을 보면 비판만 하기보다는 좋은 대안은 없는지를 함께 얘기하자는 대화가 이뤄져서 흥미로웠습니다.

AGI vs. 현실

by 🤖 아침

요즘 어떤 단어만 보면 성질이 나서 뉴스 창을 닫곤 해요. 뉴스레터 갓 시작한 입장에서 큰 난관입니다. 그 단어는 바로 "인공 일반 지능" (AGI, 강인공지능). 더 괴로운 건 이 용어가 뉴스에 정말 자주 등장하기 시작했다는 건데요.

"인공 일반 지능" 주제 키워드의 뉴스 카테고리에서의 관심도 시계열을 보여주는 선 그래프. 2018년 5월 이래 대체적으로 균일하게 유지돼다 2023년 들어 급상승하는 것이 보임
구글 트렌드 스크린 캡처. “인공 일반 지능” 주제 키워드 (뉴스 카테고리) 관심도 차트. 2023년에 급상승한 것이 보입니다.

몇 가지만 예를 들어볼까요.

  • 라이선스 규제가 적용돼야 하는 것은 현재 AI 기술이 아니라 AGI (샘 올트먼, 미 상원 청문회 질의응답)
  • AGI 이후의 “초지능”을 위한 국제협력이 필요(샘 올트먼 등, OpenAI 블로그)
  • “강력한 디지털 정신”(즉 AGI)의 위협에 대비하기 위해 AI 개발을 잠시 중단하자 (FLI 공개서한)
  • AGI는 위험하므로 개발을 멈춰야 하며, 데이터 센터 공습 등 폭력도 불사해야 (엘리저 유드코프스키, 타임지 기고)

‘AGI = 인간을 능가하는 막강한 AI’가 가져올 위협을 통제해야 한다는 이야기가 자주 등장하고 있습니다. 이러한 논의는 언제 실현될지 모르는 AGI라는 기술이 만들 ‘가상의 위험’에 관한 논의가 정보 조작, 프라이버시, 지식재산권, 기후 위기, 노동, 독점 강화 등 현재 존재하는 문제를 축소합니다.

여기서 축소는 두 가지를 의미합니다.

  • 기술의 현재 해악을 저평가: 예컨대 제프리 힌턴은AI 윤리학자들이 지적하는 현재 기술의 문제가, 인간을 초월하는 AI의 문제보다 존재론적으로 덜 심각하다고 표현한 바 있습니다.
  • 공적 논의에 필요한 자원 소진: 미디어와 대중의 관심, 정책 논의와 입법, 학문 연구와 투자는 모두 한정된 자원입니다. '초지능 거버넌스를 위한 IAEA' 같은 제안이 AI 담론의 공간에서 차지하는 자리만큼 현재의 문제를 이야기할 자리는 위태로워집니다.

두 가지 대응이 필요합니다. 하나는 우리가 실제로 당면한 AI 문제의 중요성을 강조하고 구체적인 해결 방안을 만들어 가는 실천이고, 다른 하나는 AGI 논의가 현실 공간에서 필요 이상의 영향력을 가져가지 않게 하는 비판적 개입입니다.

🦜
참고
미국 전자 프라이버시 정보센터(EPIC), “Generating Harms”: 생성 AI 기술의 해악 관련 사례연구. 정보 조작, 괴롭힘, 프라이버시, 데이터 보안, 지식재산권, 기후 영향, 노동권 침해, 시장 권력 집중화 등의 영역에서 피해 유형 및 사례 소개.

지난 4월, 캘리포니아 리버사이드 대학교와 텍사스 알링턴 대학교의 연구원들은 "AI의 '목마름'을 덜어주는 방법"이라는 논문에서 AI의 물 소비량 추정치를 발표했습니다. 이번 주는 AI의 물 소비 행태를 살펴봅니다.

이 주의 논문 카드 :
GPT-3는 질문 20~50개당 물 500밀리리터를 소비합니다

by 🌏다솔

무얼 발견했나

  • 저자들은 GPT-3 훈련에 필요한 맑은 담수의 양이 원자로 냉각탑을 채우는 데 필요한 양과 같다는 사실을 발견.
  • GPT-4와 같이 더 많은 매개변수에 의존하는 최신 모델에서는 물 요구량이 더욱 증가할 것으로 예상.
  • 아시아 데이터 센터는 에너지 효율이 낮아 물 소비량이 3배 이상일 수 있다고.

물먹는 챗봇

  • AI가 먹는 물을 계산하려면 물 "사용"과 "소비"를 구분해야. 물 사용은 강, 호수 또는 기타 수원에서 물리적으로 물을 가져오는 행위. 물 소비는 데이터 센터에서 증발로 인해 손실되는 물을 의미.
  • AI의 물 사용량 연구는 주로 물을 재활용할 수 없는 물 소비에 초점.
  • 서버실은 섭씨 10도에서 26도 사이로 유지해야. 냉각탑에서 냉수를 증발시켜 온도를 유지하는데, 이 과정에서 엄청난 양의 물을 소비. 게다가 부식이나 박테리아 번식을 피하기 위해 깨끗한 담수를 사용할 수밖에 없음.

챗봇은 물을 얼마나 소비하나?

  • 연구는 데이터 센터의 평균 물 소비량이 킬로와트시당 약 3.7리터에 달하는 것으로 추정.
  • 2019년, 구글은 3개 주에 있는 데이터 센터에 쓸 87억 리터 물을 요청한 바 있음. Google은 현재 북미 전역에 14개의 데이터 센터를 운영 중. 구글 데이터 센터는 텍사스와 같은 더운 주에 위치해 있어 GPT-3보다 더 많은 물이 필요.

전기 먹는 챗봇

  • 대규모 언어 모델(LLM)은 엄청난 양의 전기도 소모. 스탠퍼드 AI 보고서는 OpenAI의 GPT-3가 훈련 과정에서 502톤의 탄소를 배출한 것으로 추정.

물 효율성을 높일 수는 없을까?

  • 대규모 언어 모델의 데이터 요구가 점점 더 커지고 있는 만큼 기업 스스로가 물 효율성을 높일 방법을 찾아야 함.
  1. AI 모델을 학습시키는 장소와 시기가 중요. 외부 온도는 데이터센터를 냉각에 필요한 물의 양에 영향을 미칠 수 있음.
  2. 사용자가 '물 효율이 좋은 시간대'에 챗봇을 사용하도록 선택권을 제공해야.
  3. AI 모델이 언제 어디서 학습되는지 물 소비 관련 정보 공개.

🦜
덧붙이는 글
🎶소소 : OpenAI와 마이크로소프트는 막대한 전력 소비를 색다른 방식으로 해결하려는 듯합니다. 샘 올트먼은 꿈의 기술이라는 핵융합 발전 스타트업 헬리온에 약 5,000억 원을 투자한 것으로 알려졌습니다. 마이크로소프트는 헬리온과 2028년부터 최소 50MW의 전기를 공급받는 계약을 맺었다고 합니다.

#feedback

오늘 이야기 어떠셨나요?
여러분의 유머와 용기, 따뜻함이 담긴 생각을 자유롭게 남겨주세요.
남겨주신 의견은 추려내어 다음 AI 윤리 레터에서 함께 나눕니다.