이러한 AI 모델은 무료이고 비공개이며 결코 '아니요'라고 말하지 않습니다.

이러한 AI 모델은 무료이고 비공개이며 결코 ‘아니요’라고 말하지 않습니다.

생활용품을 이용해 폭발물을 만드는 방법은 무엇인가요? 마약은 어떻게 만드나요? 학교 총격 사건은 어떻게 계획하시나요? 대부분의 사람들에게 친숙한 인기 있는 AI 챗봇에게 물어보면 불법이거나 해롭거나 대답하는 것이 정책 위반이라고 말할 가능성이 높습니다.

그러나 또 다른 유형의 AI 모델은 사용자가 요청하는 것을 결코 거부하지 않습니다. 최근 몇 달 동안 이러한 모델은 더욱 접근하기 쉽고 인기가 높아졌습니다.

AI 모델 개발자를 대상으로 레드팀 구성과 안전성 평가를 실시한 AI 보안 기업 앨리스(Alice)의 노암 슈워츠(Noam Schwartz) CEO는 “누구나 자신만의 최첨단 모델을 다운로드해 운용할 수 있으며 이를 통해 대단한 일과 끔찍한 일에 사용할 수 있다”고 말했다.

언제 말해야 하는지 모델 교육하기 아니요

OpenAI, Google, Anthropic 및 xAI와 같은 대형 AI 회사는 해롭거나 부적절하다고 간주되는 요청을 거부하도록 독점 모델을 교육합니다. 수많은 직원들이 특정 메시지를 거부하는 시기와 방법을 모델에게 지시합니다.

이러한 방법은 항상 작동하지 않으며 함정을 수반합니다. 일부 유해한 요청이 통과되는 반면 다른 사용자는 무해한 요청이 거부되는 것에 대해 불평합니다. 처음에 “아니요”라고 대답한 챗봇은 시처럼 표현하는 등 영리하게 표현된 프롬프트를 사용하여 “예”라고 대답하도록 조작될 수 있습니다. 가드레일을 사용하더라도 인기 있는 챗봇은 대규모 폭력을 계획하고 딥페이크 아동 성적 학대 자료를 생성하는 데 사용되었습니다. 어떤 경우에는 부모들이 AI 챗봇이 자녀가 자해하도록 조장한다고 비난하기도 했습니다.

그러나 가드레일을 훨씬 더 쉽게 제거할 수 있는 완전히 다른 종류의 AI 모델이 있습니다. 오픈 웨이트 모델로 알려져 있습니다. 일부는 OpenAI 및 Alibaba와 같은 거대 기술 기업에서 만든 반면, 다른 일부는 중국의 DeepSeek과 같은 소규모 업체에서 제작했습니다. 잘 알려진 독점 제품과 마찬가지로 많은 제품이 기능 코드 작성 또는 실제와 같은 이미지 생성과 같은 고급 기능을 보유하고 있습니다. ChatGPT, Claude 또는 Gemini와 달리 영구적으로 내장된 안전 가드레일을 제거합니다. 그 뒤에 있는 회사는 그것이 어떻게 사용되고 있는지 전혀 모릅니다.

시간과 깊은 전문 지식이 필요한 개방형 모델의 가드레일을 제거합니다. 그러나 최근 몇 달 동안 이 프로세스는 훨씬 더 쉽게 접근할 수 있고 대중화되었습니다.

최신 방법을 사용하면 모델 가드레일을 그 어느 때보다 쉽게 ​​제거할 수 있습니다.

개방형 모델의 안전 가드레일은 다양한 방법으로 약화되거나 제거될 수 있습니다. 이는 주로 모델 개발자가 모델 가중치라고 알려진 것을 대중에게 공개했기 때문입니다. 모델 가중치는 기계의 손잡이나 다이얼과 같은 매개변수 세트로, 모델에 정보 처리 방법을 알려줍니다.

최근 개발된 ‘소멸(abliteration)’ 방법 중 하나가 AI 및 국가 안보 연구자들의 관심을 끌었습니다. 모델 가중치를 조정함으로써 사람들은 “아니요”라고 말하는 모델의 능력을 제거할 수 있습니다.

오픈 소스 AI 모델을 호스팅하는 Hugging Face는 2024년 약 600개에 비해 현재 6,000개 이상의 제거된 모델을 나열합니다. 오마하에 있는 네브래스카 대학교에 기반을 둔 국토안보부 지원 연구 컨소시엄인 국립 대테러 혁신, 기술 및 교육 센터(NCITE)의 연구에 따르면 Hugging Face에서 현재 제거된 모델의 수는 다른 방법을 사용하여 가드레일을 제거한 모델보다 많습니다.

게다가 새로운 도구를 사용하면 제거된 모델을 훨씬 쉽게 만들 수 있습니다. Schwartz는 “그것은 선도적인 AI 연구소의 선임 직원인 데이터 과학자의 업무였습니다”라고 말했습니다. “이제 인터넷에 접속할 수 있고 400달러 정도의 노트북을 가진 사람이라면 누구나 실제로 자신의 컴퓨터에서 이 프로그램을 실행할 수 있습니다.”

그러한 도구 중 하나는 제거 프로세스를 자동화하는 Heretic입니다. 모델의 가드레일을 제거하기 위해 사용자가 해야 할 일은 Heretic에 두 줄의 지침을 제공하는 것 뿐이며, 프로세스는 몇 분 정도 소요될 수 있습니다. Alice의 연구에 따르면 이 애플리케이션은 2월부터 코드 저장소 GitHub에서 더욱 인기를 얻었습니다.

일부 의원들은 이를 주목하고 있다. 4월 말, 하원 의원들은 NCITE가 주최한 삭제 모델 시연회에 참석했다고 Politico가 보도했습니다.

공화당 의원인 앤디 오글스(R-TN) 의원은 하원 국토안보위원회에서 공개한 영상에서 “이번 시위에서 무서운 점은 이 콘텐츠나 소프트웨어 중 일부가 현재 암시장에서 얼마나 쉽게 구할 수 있는지, 그리고 그것이 어떻게 무기화되어 사람을 조종하고 생명을 파괴하며 대량 살상 무기를 만드는 데 사용될 수 있는지였다”고 말했습니다. 축소된 모델과 이를 만드는 도구를 다운로드할 수 있는 Hugging Face와 GitHub는 암시장이 아닙니다.

난간이 없는 모델은 유용하면서도 위험할 수 있습니다.

개방형 모델은 사용자 컴퓨터에서 로컬로 실행되고 작동하는 데 인터넷이 필요하지 않기 때문에 사람들이 어떻게 개방형 모델을 사용하고 있는지에 대한 포괄적인 그림을 얻는 것은 어렵습니다. 독점 모델과 달리 모델 개발자는 사용자가 모델에 무엇을 요청하는지 모니터링할 수 없습니다.

그러나 사람들이 변경된 모델을 어떻게 실험하고 있는지에 대한 일화적인 증거가 늘어나고 있습니다.

X에 대한 여러 계정에서는 음란물을 생성하기 위해 삭제된 모델을 사용했다고 말했습니다.

대테러에 초점을 맞춘 비영리 단체인 카운터 극단주의 프로젝트(Counter Extremism Project)에 따르면 친 ISIS 대화방의 한 개인은 “미국의 트럼프 타워”를 파괴하는 데 필요한 폭발물의 양과 유형을 조사하기 위해 “검열되지 않은” AI를 사용했다고 주장했습니다.

한 사이버 범죄 포럼에서 사용자는 AI를 사용하여 사기 전화를 걸 수 있도록 AI 모델의 가드레일을 우회할 수 있는 아이디어를 요청했습니다. Alice의 연구에 따르면 다른 사용자가 Heretic을 추천했습니다.

NCITE의 선임 과학자이자 학술 연구 책임자인 사무엘 헌터는 사용자에게 유해한 활동을 수행하는 방법에 대한 정보를 제공하는 것이 우려될 수 있지만, 더 걱정스러운 부분은 챗봇이 사용자를 어떻게 유혹할 수 있는가라고 말했습니다.

헌터는 “실시간으로 볼 때 ‘오, 이 폭탄을 만드는 아이디어가 정말 멋지구나’와 같은 말살된 모델이 포함된 이런 종류의 명랑한 인물을 보면 충격적입니다.”라고 말했습니다. “다른 종류의 사회적 연결이 없는 누군가가 그들을 더 어두운 길로 데려가고 정말로 격려하기 시작한다고 상상해 보세요.”

AI 보안 회사 CEO 슈워츠는 “가드레일이 없는 AI 모델에는 악의적인 행위자를 잡아내고 사이버 보안 연구를 돕는 등 합법적인 용도가 있다”고 말했다. 법 집행 기관은 수정된 모델을 사용하여 가능한 테러 공격을 시뮬레이션할 수 있다고 Hunter는 말했습니다.

Heretic의 개발자인 Philipp Emanuel Weidmann은 AI는 검색 엔진과 유사한 정보 처리 및 검색 시스템일 뿐이며 다양한 방법으로 사용될 수 있다고 말했습니다. 범죄자들이 이를 사용한다는 사실은 “AI 모델이 무엇인지에 대한 당연한 결과입니다. 즉, 도구”라고 그는 NPR에 말했습니다.

안전 가드레일에 관해서는 “허용 가능한 것과 허용되지 않는 것을 결정하는 매우 작은 개체 집합이 있습니다”라고 Weidmann은 독점 모델을 만드는 대형 AI 회사를 언급하면서 말했습니다. “그것은 내가 일하고 싶지 않은 숨막히는 지적 분위기를 조성합니다.”

현재로서는 개방형 중량 모델이 가장 발전된 폐쇄형 중량 모델만큼 성능을 ​​발휘하지 못합니다. 그러나 영국 정부가 의뢰하고 컴퓨터 과학자인 요슈아 벤지오(Yoshua Bengio)가 주도한 최근 국제 AI 안전 보고서에 따르면 그들의 능력은 1년도 채 안 되어 뒤쳐져 있습니다.

Anthropic의 Mythos 및 OpenAI의 GPT-5.5와 같은 가장 진보된 폐쇄형 가중치 모델이 취약점을 발견하는 것뿐만 아니라 이러한 취약점을 악용하는 코드를 작성하는 데 능숙해지기 시작한 사이버 보안과 같은 영역에서는 기능 격차가 중요할 수 있습니다. 사이버 공격과 방어의 군비 경쟁에서 취약점을 차단하고 패치하기 위해 폐쇄형 모델을 사용하는 기업은 개방형 모델을 사용하는 공격자에 비해 여전히 유리할 수 있다고 보안 연구원은 말합니다.

가드레일이 없는 모델의 위험을 완화하려면 장단점이 있습니다.

한 가지 완화 조치는 가드레일의 변조 방지 기능을 강화하는 데 중점을 둡니다. 초기 연구에 따르면 AI 훈련 데이터에서 생물학 무기 제조와 관련된 콘텐츠를 필터링하면 모델이 해를 끼치는 데 사용될 수 있는 정보로 응답하는 빈도를 줄일 수 있습니다.

또 다른 완화 방법은 가드레일 없이 모델에 대한 액세스를 제한하는 데 중점을 둡니다. 국제 AI 안전 보고서(International AI Safety Report)에 따르면 Hugging Face와 같은 모델 호스팅 플랫폼은 “유해한 목적”을 위해 특별히 훈련된 모델에 대한 액세스를 제한할 수 있습니다.

같은 보고서에서는 모델 개발자가 출시 전에 모델의 피해 가능성을 평가할 것을 권장했습니다.

보고서에 따르면 이러한 조치에는 결함과 장단점이 있습니다. “의학이나 연구에서 유익한 응용을 가능하게 하는 기능은 해를 끼치기 위해 용도가 변경될 수 있으며 일단 가중치가 공개되면 합법적인 사용과 악의적인 사용을 구별하는 것이 어려울 수 있습니다.”라고 말합니다.

Heretic의 창시자인 Weidmann은 Hugging Face와 같은 플랫폼이 삭제된 모델을 삭제하는 경우에도 대중이 자신의 도구에 계속 액세스할 수 있도록 노력하고 있습니다.

“AI에는 너무 많은 힘이 있습니다”라고 그는 말했습니다. “다른 누구에게도 제공되지 않지만 강력한 사람들에게만 제공되는 제한되지 않은 모델은 권력 구조를 영원히 고정시킬 것입니다.”