AI 행정명령으로 깃발 꽂은 미국
AI 정책도 속도전입니다
AI 이야기의 결말을 예측하기는 대단히 어렵다. AI 이야기는 (중략) 스스로 운명을 만드는 자유의지를 가진 사람을 말하는 이야기이기도 하기 때문이다.
—리카이푸(박세정, 조성숙 역), <AI 슈퍼파워>
AI 정책 행정명령으로 먼저 깃발 꽂는 미국
by. 🤔어쪈
한동안 우리는 AI 학계와 업계에서 벌어지는 연구개발 및 사업 속도전을 봐왔죠. 이제는 각국 정부가 AI 정책 속도전에 뛰어들고 있습니다. 그 중심에 미국이 있습니다. 미국 정부는 작년 이맘때쯤 AI 권리장전을 위한 청사진을 공개한 바 있습니다. 올해엔 AI 해킹 대회를 주최하더니, 주요 기업들로부터 자율규제안을 받아내기도 했죠. 그리고 이번엔 안전과 보안, 신뢰를 갖춘 AI를 위한 행정명령(executive order)을 발표했습니다.
행정명령이란 미국 대통령이 연방정부기관에게 업무집행을 지시하는 문서입니다. 한국의 대통령령과 비슷하죠. 원문을 살펴보면, 각 정부부처가 언제까지 무엇을 해야 하는지 자세히 적고 있습니다. 예컨대 상무부 장관은 90일 이내에 방위물자산업법에 의거해 기업들로부터 파운데이션 모델 개발 계획과 개발 결과에 대한 정보를 받아야 합니다.
백악관의 새로운 AI 정책은 요약이 힘들 정도로 광범위한 주제를 담고 있습니다. 아래 원칙별로 상세한 업무 지시가 수십 건 적혀있는데요. AI 정책 영역에서 입법 마무리 중인 유럽에 비해 뒤처졌다거나, 기업의 자율규제에만 의존한다는 비판을 받던 미국 정부가 본격적으로 움직이기 시작한 것으로 보입니다.
- AI 안전과 보안을 위한 새로운 기준 수립
- 프라이버시 보호와 평등 및 시민권 증진
- 소비자, 환자, 학생, 노동자 보호와 지원
- 혁신과 경쟁 촉진
- 미국의 글로벌 리더십 강화
- 정부의 효과적이고 책임 있는 AI 활용
자세한 내용과 평가는 다음 주에 이어서 살펴보기로 하고, 오늘은 행정명령의 맥락을 살펴보고자 합니다.
바이든 대통령이 새로운 행정명령에 서명하기 직전, 미국을 포함한 G7은 ‘히로시마 프로세스’라고 불리는 글로벌 AI 정책 협의의 일환으로 고등 AI 시스템 개발 원칙과 행위규범을 발표했습니다. 올해는 일본의 주재로 진행되었지만, 분명 미국이 이끄는 국제기구죠. 해리스 부통령은 행정명령 시행 직후 영국에서 열린 AI 안전 정상회의(AI Safety Summit)에 참석해 미국이 수립 중인 AI 정책을 소개했습니다. AI 안전 연구소 (AI Safety Institute, 영국 동명 연구소와 다른 기관) 설립을 비롯한 여러 후속 계획을 추가로 내놓았죠.
일련의 과정에서 백악관은 계속해서 미국의 글로벌 리더십을 강조했습니다. 미국 연구자들과 기업들이 AI 기술과 산업 혁신을 이끌고 있다는 점 역시 항상 언급하고 있죠. AI 정책을 만들고 실천하기 위해서는 국제 공조가 필수적인데, 이를 이끌 적임자가 바로 미국이라고 주장합니다. 지금까지는 글로벌 AI 거버넌스 선도에 필요한 근거가 없었다면, 이번 행정명령을 통해 구체적인 모델을 제시할 수 있게 되었죠.
이러한 흐름을 파악하고 나면 미국 정부가 글로벌 논의의 장에서 목소리를 키우고자 함을 알 수 있습니다. AI 기술과 산업 영역에서 혁신을 이끄는 주체가 미국 빅테크 기업이라는 점을 고려할 때, 국제 AI 정책을 선도하고자 하는 미국 정부가 이들을 제대로 견제할 수 있을지 지켜보아야겠습니다.
무단 수집 데이터에 독을 푸는 나이트셰이드
by. 🤖아침
이미지 생성 모델을 대상으로 한 “프롬프트-특정적 데이터 오염 공격” 기법인 나이트셰이드(Nightshade) 논문이 공개됐습니다. 이미지에 노이즈를 섞어 스타일 학습을 방해하는 시카고대학 글레이즈(GLAZE) 연구진의 새 작업인데요. 콘텐츠 소유자가 데이터를 무단 수집하는 기업 등으로부터 지식재산권을 지키게 돕는 것이 목적이라고 합니다.
연구진은 생성 모델 훈련 데이터가 비록 막대하지만 자료가 롱테일 형태로 분포되어, 프롬프트를 구성하는 특정 개념 하나에 연관된 이미지는 대개 희소하다는 점에 착안합니다. ‘한 놈만 패는’ 방식으로, 비교적 적은 양의 오염 데이터만 활용해 모델을 망가뜨릴 수 있다는 겁니다. 다른 백도어 공격과 달리, 학습/생성 파이프라인에 접근하지 않고 훈련 데이터만으로 공격을 성공시키는 것도 특징입니다.
기본적인 공격 방식은 ‘잘못된’ 이미지-텍스트 쌍을 훈련 데이터로 제공하는 것입니다. 텍스트는 ‘개’라고 적혀 있는데 이미지는 고양이인 데이터가 충분히 많이 섞여 들어가면 모델의 성능이 저하되겠죠. 하지만 이런 라벨링 오류는 걸러낼 수 있기에, 오염된 데이터를 ‘충분히’ 많이 섞는 것은 간단한 일이 아닙니다.
나이트셰이드는 이 공격을 성공시키기 위해 다음과 같이 오염 데이터를 최적화합니다.
- 텍스트 프롬프트는 오염시키려는 개념 C를 확실히 명시합니다. (’개’)
- 이미지는 C와 무관한 특정 개념 A를 묘사하게끔 합니다. (고양이 사진)
- 이미지가 사실 A를 묘사한다는 것을 자동 분류기나 사람이 탐지할 수 없도록 C의 이미지로 위장하는 교란 기법을 적용합니다. (개 사진처럼 보이는 이미지)
이렇게 최적화한 오염 데이터가 100건가량 훈련 데이터에 섞이면 스테이블 디퓨전 SDXL 모델의 개념 하나를 망가뜨릴 수 있습니다. 개념 하나(‘개’)를 오염시키면 연관 개념(‘강아지’, ‘허스키’, ‘늑대’)에도 영향을 줍니다. 더구나 이런 공격이 누적되면, 오염시킨 개념과 전혀 무관한 프롬프트에서도 노이즈에 가까운 이미지가 생성되는 등 사실상 모델을 무력화시키는 것도 가능하다고 해요.
영어로 ‘나이트셰이드’는 가짓과 식물을 뜻합니다. 가짓과에는 솔라닌, 일명 감자 독을 품고 있는 식물이 더러 있죠. 나이트셰이드는 거부의사를 무시하고 데이터를 수집해가는 행위에 대항하는, 이름 그대로의 극약 처방인 셈입니다. 비교적 소량의 자료로도 오염에 성공할 수 있고, 현존하는 방어 기법으로 대응이 어려우며, 방어 기법이 생기더라도 나이트셰이드를 적용한 자료는 학습 데이터에서 제외될 것이기 때문에 (거부의사를 무시하고 수집했을 경우에도 효과를 내는) 강력한 ‘학습금지’ 필터로 기능합니다.
데이터를 확보하고자 하는 AI 기업과 예술가 등 재산권을 지키고 싶은 콘텐츠 소유자 사이에서 힘의 균형추는 AI 기업 쪽으로 강하게 쏠려 있습니다. 법규제나 소송이 빠른 해결책을 제공하지 못하는 상황에서 콘텐츠 소유자가 할 수 있는 일은 ‘내 콘텐츠를 학습에 활용하지 마시오’라고 명시하는 것 정도입니다. 수집거부의사가 AI 모델에 실제로 반영되었는지 확인할 방법도 지금은 없으니 그저 AI 모델 개발자의 선의에 기댈 수밖에 없습니다.
그렇기에 콘텐츠 무단 사용에 대항하는 기술 도구를 콘텐츠 소유자의 손에 쥐여주는 글레이즈 연구진의 행보는 주목할 만합니다. 나이트셰이드는 현재 논문만 공개된 상태이며, 향후 글레이즈 툴에 포함하는 것을 검토 중이라고 합니다.
- 생성AI에 맞서 저작권 지키기 (2023-06-12)
- 누구나 할 수 있는 생성 AI 해킹 (2023-08-28)
- 이미지 생성기 산업이 예술가를 괴롭히는 법 (2023-10-11)
덧붙이는 글
🍊산디: 창작자가 저작권을 지키기 위한 기술적 조치를 도입하는 경우는 언제나 있었습니다만, 나이트셰이드는 자칫 창작자에게 불리한 상황을 초래하지 않을까 우려되기도 합니다. 창작자의 창작물을 AI 학습 데이터로 활용하는 것이 저작권 침해로 명확히 인정받지 못하는 상황에서 창작자가 별다른 공지 없이 나이트셰이드와 같은 기술적 조치를 적용했을 때, 오히려 창작자가 의도적으로 AI 모델을 망가뜨렸다며 악의를 추정하게 될 수 있을 것 같거든요. 창작자가 이런 문제들을 고민하지 않고 창작할 수 있도록 생성AI와 창작에 대한 논의가 더 많이 일어났으면 합니다.
#feedback
오늘 이야기 어떠셨나요?
여러분의 유머와 용기, 따뜻함이 담긴 생각을 자유롭게 남겨주세요.
남겨주신 의견은 추려내어 다음 AI 윤리 레터에서 함께 나눕니다.