AI 시대의 러다이트를 위하여

AI 기업의 지식 생태계 독점을 위한 전략을 전유하는 방법에 대하여

AI 시대의 러다이트를 위하여
출처: 직접 촬영
산업화의 혜택은 1840년대 이전까지는 노동자들의 주머니에서 좀처럼 체감되지 않았다. 아마도 이를 가장 효과적으로 보여주는 것은 노동자 본인들의 반응일 것이다. 산업혁명은 새 공장과 새 일자리를 창출했지만 러다이트 폭도들도 양산했다. 산업혁명을 겪고 있던 많은 노동자들에게 반란은 이유 있는 반응이었다.
—칼 베네딕트 프레이, 조미현 역, <테크놀로지의 덫>

AI 기업의 지식 생태계 독점을 위한 전략: 공정 이용과 증류 공격

by 🧙‍♂️텍스

앤트로픽은 2월 24일 자사의 X를 통해 중국 기업들이 약 24,000개의 계정을 활용해 자사의 거대언어모델 (이하 LLM) 서비스에 대규모의 증류 공격(distillation attack)을 수행하고 있다고 주장했습니다. 지식 증류는 사전 학습된 모델의 출력을 새로운 학습 데이터로 사용하는 방식이고, 이번 주장은 그 기법이 연구실 밖에서 어떤 규모와 방식으로 작동할 수 있는지를 보여주는 사례입니다. 그러나 이 논쟁은 단순한 기술 문제가 아니라, AI 기업들이 서비스 주도권을 확보하기 위해 지정학적 경쟁 구도를 전략적으로 활용하는 방식과 맞물려 있습니다. 작년 딥시크 사례에서도 오픈AI 모델의 증류를 활용해서 개발했다는 주장이 있었던 것처럼, "누가 누구를 모방했는가"라는 프레임은 기술적 사실을 넘어서 산업 경쟁과 권력 구조를 재편하는 도구로 기능하고 있으며, 이는 기업들이 수익을 극대화하려는 과정에서 나타나는 전략적 선택으로 보입니다.

지식 증류는 제프리 힌튼이 과거 2014년에 제안한 개념으로 이미 AI 분야에서 널리 알려진 기법입니다. 그럼에도 자사의 모델 출력을 기반으로 다른 기업이 LLM을 학습하는 행위를 문제 삼는 태도는, AI 기업들이 공정 이용(fair use)을 근거로 데이터를 활용해 온 흐름과 충돌하는 것처럼 보입니다. 공정 이용은 저작권자의 허락 없이도 특정 목적하에 저작물 활용을 허용하는 원칙입니다. 저작권이 없는 LLM의 출력 결과를 학습에 활용하는 것을 공격(attack)이라고 언급하는 것은 과장된 논리이며, LLM 출력의 저작권을 인정해 준다고 해도 AI회사들이 작가들의 저작물을 공정 이용으로 활용했듯이 다른 기업이 이를 공정 이용으로 활용하는 것을 막기는 어렵습니다. 결과적으로 공정 이용이라는 프레임 자체가 기업의 입맛에 따라 선택적으로 인용하는 수단으로 기능하고 있음을 보여줍니다. AI 기업들은 학습 단계에서는 공정 이용을 통해 저작권자들과의 협상을 우회하는 식으로 데이터 확보 비용을 낮추면서, 동시에 LLM이 만들어낸 출력과 성능에 대해서는 최대한 사유화하려는 방향으로 움직입니다.

LLM은 데이터셋 구축 및 학습에는 막대한 자원을 필요로 하지만, 완성된 이후의 추론은 (아직은 느리긴 하지만) 개인용 컴퓨터에서도 실행이 가능할 정도로 배포와 활용의 장벽이 낮은 구조를 가지고 있습니다. 과거에는 인터넷에서 지식을 얻기 위해서는 구글과 같은 기업이 보유한 대규모 인프라와 검색엔진을 거쳐서 원본 문서에 도달했었지만, 오픈 소스 LLM의 경우에는 인터넷 접속 없는 PC 환경에서도 인터넷 규모의 (환각의 문제는 여전히 있습니다만) 지식에 간접적으로 접근할 방안을 제시했다고 볼 수 있습니다. 이러한 LLM의 학습 비용과 추론 비용의 비대칭성은 한 번 구축된 LLM을 완벽히 통제하는 것이 현실적으로 어렵다는 점을 보여줍니다. 과거 메타의 경우 23년 라마(LLaMA)의 LLM 파일 원본이 유출되자 라마 프로젝트 자체를 오픈 소스로 전환했던 사례가 있습니다. 모델 증류또한 간접적으로 LLM을 유출하는 방향이라고 볼 수도 있습니다. 이처럼 통제가 어려운 구조는 기업으로서 자산의 독점 가능성을 낮추고, 결국 투자 대비 수익을 안정적으로 회수하기 어렵게 만드는 요인으로 작용합니다. 이러한 조건 속에서 AI 기업들은 천문학적인 자본 투입에 대한 수익을 회수해야 하는 압박을 받으며, 공정 이용이라는 법적 프레임과 지정학적 대결 구도를 상황에 맞게 활용하여 수익을 극대화하고 경쟁자를 견제하려는 전략을 강화하고 있습니다.

지금처럼 미국과 중국 중심의 AI 경쟁 구도만이 주목받는 상황에서는 기술 발전 자체에만 시선이 쏠리기 쉽지만, 오히려 중요한 것은 이러한 권력 구조 속에서 우리가 어떤 기준을 중심으로 기술을 해석하고 활용할 것인가입니다. 과거 웹이 개방성을 기반으로 더 많은 사람이 참여할 수 있는 미디어로 확장되었던 것처럼, AI를 둘러싼 기술 생태계 역시 어떤 변하지 않는 가치를 설정할 것인지, 많은 사람이 소외되지 않는 구도를 짤 수 있을지를 지금 시점에서 다시 고민해야 할 것입니다. AI 윤리는 기업과 국가 간의 경쟁 속에서 점점 주변으로 밀려나고 있지만, 변하지 않는 가치를 중심으로 현재의 기술 변화를 전유하려는 시도가 필요합니다. 만약 이 시대에 빅테크의 LLM에 반대하는 러다이트가 존재한다면, 기업의 통제를 벗어나려는 시도해 볼 수도 있을 것입니다. 라마때와 같이 빅테크의 LLM 유출을 도모하거나 전 세계 사용자들의 LLM 출력 결과를 공유하는 방안은 어떨까요? 이는 단순한 사건이 아니라 개방성이 다른 방식으로 작동하는 하나의 계기가 될 수도 있을 것입니다.


#feedback

오늘 이야기 어떠셨나요?
여러분의 유머와 용기, 따뜻함이 담긴 생각을 자유롭게 남겨주세요.
남겨주신 의견은 추려내어 다음 AI 윤리 레터에서 함께 나눕니다.