웹사이트의 침략자가 된 AI 크롤러

AI 붐이 휩쓴 자리에 우리 권리의 공간을 다시 지을 방법

웹사이트의 침략자가 된 AI 크롤러
청양군 청남면 청어람센터 (옛 청남중학교 터). 직접 촬영 (민기)
본원적 축적 전후를 비교해 보면 땅도 물도 '사용가치'(유용성)은 변하지 않았다. 커먼즈에서 사적 소유가 되며 변한 것은 희소성이다. 희소성의 증대상품의 '가치'를 키운 것이다.
—사이토 고헤이, <지속 불가능 자본주의>, 251페이지.

AI 윤리 뉴스 브리프

2025년 1월 셋째 주
by 🧑‍🎓민기

목차
1. AI 기본법, 제정 후에 돌아봐야 하는 것
2. 웹사이트의 침략자가 된 AI 크롤러

1. AI 기본법, 제정 후에 돌아봐야 하는 것

  • 지난주 수요일에도 전해드렸죠. “인공지능 발전과 신뢰 기반 조성 등에 관한 기본법안(AI 기본법)”이 12월 26일에 국회 본회의를 통과했습니다. 정부 공포를 거치면 1년 후 법이 시행됩니다. 산업계에서는 주로 규제를 우려하면서도 환영의 뜻을 밝히는 한편, 시민사회단체 및 노동조합은 “산업 중심, 인권 외면 AI 기본법 국회 통과 유감”이라는 논평을 내어 비판했습니다.
  • 시민사회단체들의 주요한 비판점은 이렇습니다.
    1. 개발을 금지해야 할 AI(예: 공공기관의 사회적 점수 평가, 안면 추적 등)에 대한 규정이 없고, 고영향 AI 사업자의 범위가 협소하다.
    2. 사업자의 책무위반에 대한 처벌 규정이 미흡하다.
    3. 범용 AI 사업자의 의무가 규정되지 않았다.
    4. 고영향 인공지능의 인권영향평가는 의무사항이 아닌 ‘노력’사항이 되었다.
    5. 인공지능에 ‘영향받는 자’의 정의는 들어갔지만, 이들의 권리 구제 방안은 마련되지 않았다.
    6. 국방 또는 국가안보 목적의 AI가 적용에서 제외되었다.
  • 이번 소식을 전한 기사에서 규제에 대한 산업계의 반응을 다루는 표현의 차이가 재미있었습니다. 산업계와 시민사회의 주장을 함께 소개한 한국일보 기사는 “규제 투명성 확보”라고 표현하였습니다. 서울경제는 “한숨 돌렸다”라며 환영하면서도 앞으로 갈 길이 멀다는 산업계의 입장을 대변했습니다. 아시아경제는 “모호한 규제”라는 경제단체의 보고서를 인용하며 ‘AI 진흥법’이 되기를 바랐던 노골적인 아쉬움을 소개했고요.
  • 이번 법 제정 과정에서 시민사회의 목소리가 많이 실리지 못한 데에 대한 아쉬움이 남습니다. 법 제정 과정에서 실리지 못한 주장이 개정으로 반영되는 것은 어렵다고 볼 수 있습니다. 기업의 요구에 훨씬 충실했던 제정 과정에 대한 비판이 빠질 수 없지만, 한편 AI에 대한 규제가 왜 중요한지 시민들에게 제대로 전하지 못한 게 아닌가 하는 반성도 남겨봅니다. 후속 조치로, 문화체육관광부에서는 저작권법을 개정해 생성형 AI의 학습데이터 목록을 공개화하도록 의무화를 추진하겠다는 계획입니다. 또 특별한 소식이 생기면 AI 윤리 레터를 통해 전해드릴게요.

2. 웹사이트의 침략자가 된 AI 크롤러

  • 웹 용어로 ‘봇(Bot)’은 웹사이트에 접속하는 실제 이용자가 아닌 프로그램을 말하고, 그 중에서도 ‘크롤러(Crawler)’는 끊임없이 자동적으로 새 웹페이지를 탐색하는 봇을 말합니다. 특히 AI 기업의 봇과 크롤러는 AI 학습데이터를 수집하고 검색 서비스를 제공하기 위해 자율적으로 웹사이트를 방문합니다. 그런데 이 트래픽이 점점 늘어나 서비스 품질에 영향을 미치고 있습니다. 지난해 12월 9일, 네트워크 서비스 업체로 잘 알려진 클라우드플레어(Cloudflare)는 연례 보고서 “클라우드플레어 레이더”를 발표했습니다. 클라우드플레어는 이번 보고서에 처음으로 AI 봇과 크롤러의 트래픽 통계를 포함시켰습니다. 2024년 트래픽의 39%는 틱톡을 서비스하는 바이트댄스의 Bytespider, 23%는 아마존의 Amazonbot, 그 뒤로 앤트로픽의 Claudebot, 오픈AI의 GPTBot, 메타의 Meta-ExternalAgent, 애플의 Applebot 순이었는데요, 이 중 바이트댄스, 앤트로픽, 메타의 봇들은 클라우드플레어가 지정한 “인증된 착한 봇” 리스트에 들지 못했습니다. 웹사이트 운영자가 크롤링을 거부·제한할 수 있게 한 자율규약인 robots.txt를 무시했기 때문으로 보입니다. 클라우드플레어는 “AI 봇과 크롤러는 무한히 학습하는 모델을 위해 탐욕스럽게 콘텐츠를 소비하는 점 때문에 2024년 내내 이슈가 되었습니다. 논쟁이 뒤따랐는데, 모든 봇과 크롤러가 콘텐츠 소유자의 크롤링 제한 지침을 존중하지는 않기 때문입니다.”라며 현 상황을 설명했습니다.
  • 거기에 더해, AI를 위한 봇의 크롤링으로 서비스가 느려지거나 다운되는 경우도 생기고 있습니다. 지난 11일 인체 3D 스캔 데이터를 판매하는 트리플갱어스는 오픈AI의 GPT봇이 600개 이상의 IP를 사용해 수 만 건의 서버 요청을 시도하여 사이트가 다운되었다고 밝혔습니다. 결국 트리플갱거스는 robots.txt를 통해 수집을 거부하고 사이트를 복구하였습니다. 또, 분산형 소셜 네트워크 서비스인 다이아스포라(Diaspora)도 지난 12월 비슷한 피해를 입었습니다. 개발자인 데니스 슈버트는 서비스가 느려진 이유를 탐색하다가, 70%의 접속이 LLM 서비스를 위한 봇에서 온다는 것을 발견했다고 합니다. 이 봇들이 위키의 과거 편집 기록까지 크롤링하면서 속도를 느리게 만들고 있었던 것입니다. 반면 검색 서비스를 제공하기 위한 구글의 Googlebot과 빙의 Bingbot은 전체 트래픽의 0.14% 씩만을 차지했다고 전했습니다. 슈버트는 이런 AI 크롤러의 활동을 “전 인터넷에 대한 DDoS 공격”이라고 표현했습니다.
  • 클라우드플레어가 덧붙인 것처럼, 모든 봇이 나쁜 것은 아닙니다. 주기적으로 웹사이트 정보를 수집하는 봇이 없다면 우리는 구글, 빙과 같은 검색 기능마저 제대로 사용할 수 없을 것입니다. 하지만 AI 크롤러들은 자율 규제의 선을 넘나들며 탐욕적으로 데이터를 수집하고 있습니다. 위의 사건을 겪은 슈버트는 LLM 학습을 거부하고 싶은 사용자들에게 “보기 권한을 본인이 설정할 수 있는 플랫폼을 사용하고, 누구에게 내 콘텐츠를 보여줄 건지 세심하게 설정하라”라고 조언했습니다. 이 조언이 좋은 방법인지와는 별개로, 공개 데이터를 자산화하는 AI 기업들로 인해 앞으로의 인터넷은 더더욱 닫힌 공간이 되어 갈 것이라는 게 분명해 보입니다.

자동화된 성착취: 딥페이크 성범죄와 생성형 AI의 기술윤리 (『과학잡지 에피』 기고)

  • 『과학잡지 에피』 30호에 🦜AI 윤리 레터의 기고가 실렸습니다. 제목은 "자동화된 성착취: 딥페이크 성범죄와 생성형 AI의 기술윤리"로, 각계각층의 여성을 표적 삼는 딥페이크 성착취물 공유방 범죄를 둘러싼 기술적 조건과 윤리/정치적 이슈를 다룹니다.
  • 딥페이크 성범죄는 성착취물 제작을 용이하게 하는 이미지 기술 등장과 웹·메신저 등 익명 커뮤니티를 통한 성착취물 유통 산업화가 만나는 지점에 있습니다. 이는 그저 일부 범죄자가 기술을 '악용'하는 문제에 그치지 않습니다. AI 기술은 우리 사회에 뿌리깊게 자리잡은 성착취 구조를 인터넷 데이터에서 학습하며, 다시 현재의 여성에게 해를 입히는 방향으로 쓰이고 있습니다. AI가 자동화하는 성착취의 악순환 구조입니다.
  • AI 생성 이미지 여부를 판독하는 기술도, 각자의 사진을 SNS에서 내리는 조치도, 사회-기술적 행위자가 공모하여 만들어낸 위험의 불평등 구조를 해소할 수 없습니다. 사회적 문제는 기술적 조치만으로 해결되는 것이 아니니까요. 성착취에 복무하는 기술이 아닌, 다른 기술을 상상하고 구현하기 위해서는 어떤 질문과 성찰이 필요할까요?
  • 『과학잡지 에피』 30호 구매처👇


#feedback

오늘 이야기 어떠셨나요?
여러분의 유머와 용기, 따뜻함이 담긴 생각을 자유롭게 남겨주세요.
남겨주신 의견은 추려내어 다음 AI 윤리 레터에서 함께 나눕니다.