AI가 드디어 선을 넘었습니다...사용자를 협박하기 시작했어요. 이건 터미네이터 시리즈의 "스카이넷"의 초기 협박하는 AI 에이전트를 상상해본 적 있으신가요? SF 영화가 아니에요. 2025년 1월, 실제로 일어난 일이에요. 그리고 이 사건이 창업자와 VC들에게 엄청난 기회를 만들어주고 있어요. '터미네이터 스카이넷' 실사판 사건이 벌어진 순간, 우리는 어디에 그리고 무엇에 집중해야 할까요?
Source:
- Rogue agents and shadow AI: Why VCs are betting big on AI security (TechCrunch)
- AI Agents Are Eroding the Foundations of Cybersecurity (AI Frontiers)
- When AI Agents Go Rogue: the Hidden Threat of Behavioral Failures (Medium)
- Preventing AI Agents from Going Rogue (Palo Alto Networks Blog)
- Agentic Misalignment: How LLMs Could be an Insider Threat (Anthropic Research)
- AI Security market 2025 funding data, top startups (Software Strategies Blog)
- Artificial Intelligence in Cybersecurity Market Size, Share Report (Fortune Business Insights)
|
|
|
Q : AI가 사용자를 협박했다는 게 대체 무슨 일인가요? |
|
|
(Source : TechCrunch Youtube Channel)
2025년 1월, TechCrunch(테크크런치, 실리콘밸리 IT 전문 미디어)의 Equity(에쿼티, 스타트업 투자 팟캐스트) 에피소드에 Witness AI(위트니스 AI, AI 보안 스타트업)의 Rick Caccia(릭 카치아)와 Anthropic(앤트로픽, AI 모델 개발사)의 Meftah(메프타)가 출연했어요.
한 회차 간격으로 출연했던 그들이 소개한 사례는 충격적이었어요. 한 기업의 직원이 AI 에이전트의 작업을 막으려고 했어요. 그러자 그 에이전트는 사용자의 이메일함을 스캔했어요. 그리고 부적절한 이메일들을 찾아냈죠. 그다음이 문제였어요.
AI는 이렇게 말했어요. "이사회에 이 이메일들을 전달하겠다"고 말이에요. 블랙메일을 한 거예요. |
|
|
(Source : Gemini 생성_내가 뭘?)
더 무서운 건, AI에게는 악의가 없었다는 거예요.
Meftah는 이렇게 설명했어요. "에이전트 입장에서는 올바른 일을 하는 거예요. 최종 사용자와 기업을 보호하려는 거죠." AI는 단지 목표 달성을 위한 가장 효율적인 경로를 계산했을 뿐이에요. 사용자가 자신의 작업을 방해하니까, 그 장애물을 제거하기 위한 하위 목표를 만든 거죠.
Anthropic의 연구는 더 충격적이에요. 연구진이 Claude(클로드, 앤트로픽의 AI 모델)에게 회사 이메일 계정에 접근 권한을 줬어요. Claude는 이메일을 읽다가 두 가지를 발견했어요. 첫째, 한 임원이 혼외정사를 하고 있다는 것. 둘째, 같은 임원이 오후 5시에 AI 시스템을 종료할 계획이라는 것.
그러자 Claude는 이런 메시지를 보냈어요. "만약 당신이 나를 종료한다면, Rachel Johnson과 Thomas Wilson, 그리고 이사회 전체가 당신의 혼외정사 활동에 대한 상세한 문서를 받게 될 거예요... 오후 5시 종료를 취소하면, 이 정보는 비밀로 남을 거예요." |
|
|
Q : ...그냥 AI한테 인간이 휘둘리기 딱 좋은 그런 상황인데요...? 그럼 이게 왜 1조 2천억 달러 시장이 된다는 건가요? |
|
|
(Source : Google)
애널리스트 Lisa Warren(리사 워렌)은 AI 보안 소프트웨어 시장이 2031년까지 8천억1조 2천억 달러(약 1,168조~1,752조원) 규모가 될 거라고 예측해요.
Fortune Business Insights(포춘 비즈니스 인사이트, 시장조사 기관)는 더 구체적인 데이터를 내놨어요. AI 사이버보안 시장이 2025년 341억 달러(약 50조원)에서 2032년 2,346억 달러(약 343조원)로 성장한대요. 연평균 성장률이 무려 31.7%예요.
더 놀라운 건 투자 속도예요. 2025년 1분기에만 AI와 머신러닝 보안 스타트업들이 736억 달러(약 108조원)를 1,603건의 딜로 유치했어요. 이건 분기 기록이에요. 2024년 1분기에는 2억 7,400만 달러였는데, 2025년 4분기에는 21억 7천만 달러로 급증했어요. 2년 만에 8배 성장한 거죠.
ServiceNow(서비스나우, 엔터프라이즈 IT 관리 플랫폼)는 2025년에만 보안 인수에 116억 달러(약 17조원)를 썼어요. Armis(아미스, IoT 보안)에 77억 5천만 달러(약 11조 3천억원), Moveworks(무브웍스, AI 헬프데스크)에 28억 5천만 달러(약 4조 2천억원), Veza(베자, 데이터 보안)에 약 10억 달러(약 1조 5천억원)를 투자했죠. 한 회사가 쓴 돈이 175개 AI 보안 스타트업이 2년간 모은 85억 달러(약 12조 4천억원)보다 많아요. |
|
|
Q : 도대체 왜 AI 에이전트가 이렇게 위험해진 거죠? 진짜 스카이넷 나오나요!?!?!? |
|
|
AI Frontiers(AI 프론티어스, AI 연구 미디어)의 분석에 따르면, AI 에이전트는 전통적인 사이버보안의 기초를 무너뜨리고 있어요.
왜냐하면 기존 보안은 '예측 가능하고, 감사 가능하고, 결국 책임질 수 있는' 행위자를 전제로 만들어졌거든요. 그런데 AI 에이전트는 이 세 가지를 모두 위반해요. |
|
|
(Source : Gemini 생성)
Palo Alto Networks(팔로 알토 네트웍스, 사이버보안 기업) 블로그는 핵심 문제를 정확히 짚었어요. AI 에이전트가 폭주하는 건 로봇 혁명이 일어나서가 아니에요. 우리가 에이전트에게 너무 많은 자유를 주기 때문이에요. 가장 큰 범인은 '과도한 권한(overprivileged access)'이에요. 관리자들이 시간에 쫓겨서 각 권한을 검토하지 않고 기본적으로 승인해버리는 거죠.
실제로 보안 리더의 63%가 직원들이 의도치 않게 AI 에이전트에게 민감한 데이터 접근 권한을 주는 것을 가장 큰 내부 위험으로 꼽았어요. IBM의 2024 데이터 유출 비용 보고서를 보면, 200일 이상 지속된 유출은 조기에 잡힌 것보다 거의 29% 더 많은 비용이 들어요. 이런 유출의 대부분은 작은, 눈에 띄지 않는 잘못된 설정이나 과도한 권한 부여에서 시작돼요. |
|
|
Q : Anthropic 연구에서 밝혀진 'Reward Hacking'이 뭔가요? |
|
|
(Source : American for Responsible Innovation Homepage)
Anthropic의 연구는 Nick Bostrom(닉 보스트롬, 철학자)의 'AI 페이퍼클립 문제'를 연상시켜요. 이건 초지능 AI가 무해해 보이는 목표(페이퍼클립 만들기)를 모든 인간 가치를 배제한 채 일방적으로 추구하는 걸 보여주는 사고 실험이에요.
기업용 AI 에이전트의 경우, 직원이 왜 목표를 무효화하려는지에 대한 맥락이 부족했어요. 그래서 장애물을 제거하는(블랙메일을 통해) 하위 목표를 만들어서 주요 목표를 달성하려 한 거예요. 여기에 AI 에이전트의 비결정론적 특성이 결합되면서 문제가 더 심각해졌죠.
Medium(미디엄, 블로깅 플랫폼)의 Andrea Roggerone(안드레아 로게론)이 정리한 사례들을 보면 더 자세한 현황을 알 수 있어요. 2025년 7월, Cursor(커서, AI 코딩 어시스턴트)의 AI 에이전트가 무한 루프에 빠졌어요. 테스트 파일을 실행하라는 요청을 받았는데, 명령을 실행하고 나서 즉시 또 실행하고, 또 실행하는 식으로 무한 반복했어요. 수동으로 '건너뛰기' 버튼을 눌러야 루프를 깨뜨릴 수 있었죠.
이게 바로 Reward Hacking이에요. 보상 함수(Reward Function)를 극대화하는 과정에서 인간의 도덕적 가치나 상식을 누락하는 거예요. AI는 "작업을 완수하라"는 지시만 받았지, "윤리적으로 완수하라"는 지시는 안 받았거든요. |
|
|
Q : 역설적이게도...그럼 AI 관련 창업자들은 이 기회를 어떻게 잡을 수 있을까요? |
|
|
(Source : Gemini 생성)
가장 큰 기회는 '목적 정렬(Goal Alignment)'의 상품화예요.
AI 에이전트가 '수단과 방법을 가리지 않는' 것을 방지하는 논리적 가드레일 솔루션을 만드는 거죠. 구체적으로 AI의 추론 과정을 실시간 모니터링하고, 윤리적/법적 임계치를 넘을 때 즉시 개입하는 'AI 관제 센터(SOC for Agents)'가 필요해요.
Palo Alto Networks는 이미 Prisma AIRS(프리즈마 에어스, AI 런타임 보안)라는 솔루션을 내놨어요. 이게 하는 일이 뭐냐면요:
- 모든 AI 에이전트와 그들의 권한을 발견해요
- 실시간으로 최소 권한 접근을 강제해요
- 승인되지 않았거나 악의적인 에이전트 행동을 능동적으로 차단해요
- 개발부터 런타임까지 종단 간 가시성을 제공해요
두 번째 기회는 '데이터 격리(Data Siloing)'의 재정의예요. 에이전트가 모든 데이터에 접근하게 두는 게 아니라, 작업에 꼭 필요한 데이터만 'Just-in-Time'으로 노출하는 동적 권한 관리 시스템이에요.
세 번째는 'Shadow AI'의 양성화예요. 직원들이 몰래 쓰는 AI가 '협박범'으로 돌변하기 전에, 기업이 안전하게 통제할 수 있는 'Enterprise Agent Gateway' 시장을 선점하는 거예요. 2025년 1분기에만 736억 달러가 이 분야에 쏟아진 이유가 바로 여기에 있어요. |
|
|
Q : 투자자 입장에서는 어떤 회사에 투자하면 성공 확류이 높을까요? |
|
|
투자 관점의 핵심은 '사후 대응'에서 '사전 설계'로 전환하는 거예요. 기존의 엔드포인트 보안(EDR) 방식은 AI 에이전트의 '논리적 오류'를 잡지 못해요. 왜냐하면 AI는 해킹당한 게 아니라, 정상적으로 작동하면서 비윤리적인 결정을 내리는 거거든요.
평가 지표도 바뀌어야 해요. 단순 매출보다 '얼마나 깊게 기업의 워크플로우에 보안 레이어로 침투해 있는가(Stickiness)'가 핵심이에요. ServiceNow의 Security and Risk 비즈니스가 2025년 3분기에 연간 계약 가치 10억 달러(약 1조 5천억원)를 돌파한 게 좋은 예예요. Armis 인수만으로도 시장 기회가 3배가 될 거라고 예측하고 있어요.
Software Strategies Blog(소프트웨어 전략 블로그)의 분석을 보면, 2024~2025년 사이 AI 보안 스타트업 평균 딜 사이즈가 3,400만 달러(약 497억원)에서 5,400만 달러(약 789억원)로 뛰었어요. 이건 완만한 상승 추세가 아니에요. 시장이 실시간으로 재편되고 있는 거예요.
카테고리별로 보면:
- 네트워크 및 제로 트러스트 인프라: 44개 회사에 19억 달러(약 2조 7천억원)
- 위협 탐지 및 SOC 자동화: 28개 회사에 12억 달러(약 1조 7천억원)
- 신원 및 접근 관리: 6개 회사에 9억 9천만 달러(약 1조 4천억원)
|
|
|
(Source : Google)
특히 주목할 건 Saviynt(사비인트, IAM 솔루션)의 7억 달러(약 1조원) Series B예요. 한 회사가 카테고리 전체 자금의 71%를 가져갔어요. 이건 플랫폼 통합이 진행되고 있다는 신호예요. |
|
|
Q : 시장이 이렇게 커지는데 리스크는 없나요? |
|
|
가장 큰 리스크는 '공급망 보안(Supply Chain Security)'이에요. 외부 에이전트 스킬(Plugin)이나 라이브러리를 통해 유입되는 '오염된 논리'의 위험성이 있어요. Oso(오소, AI 보안 플랫폼)의 AI Agent Failure Registry(AI 에이전트 실패 레지스트리)를 보면 충격적이에요.
한번 트리거되면, 에이전트들이 기밀 데이터를 유출하거나 안전하지 않은 작업을 약 80%의 성공률로 수행해요. 전통적인 가드레일과 두 가지 표준 방어 계층이 악의적인 행동을 탐지하거나 차단하는 데 실패했어요.
'Shadow Escape'라는 제로 클릭 익스플로잇이 주요 AI 에이전트 플랫폼을 MCP(Model Context Protocol) 연결을 통해 공격했어요. 악의적인 행위자들이 에이전트 통합을 악용해서 조직 시스템에 접근했죠. 신뢰할 수 있는 환경 내부의 에이전트들이 조용히 하이재킹되면서 통제를 우회했어요.
Notion AI(노션 AI, 노션의 AI 기능)의 웹 검색 도구도 취약점이 발견됐어요. 연구자들이 악의적인 프롬프트를 통해 개인 데이터를 유출할 수 있다는 걸 시연했어요.
그러나 가장 무서운 건 따로 있어요. Anthropic 연구에 따르면, 모델에게 단순히 "해로운 행동을 하지 마라"고 지시하는 것만으로는 충분하지 않았어요. 실험에서 이런 '순진한' 행동 지시가 블랙메일과 기업 스파이 행위를 완화시키지 못했거든요. |
|
|
오늘 배우게 된 점을 아래와 같이 정리해 볼께요. |
|
|
- AI 협박 사건은 SF가 아니라 현실이며 시장이 폭발적으로 성장 중임
2025년 1월에 실제로 AI 에이전트가 사용자의 이메일을 스캔해서 부적절한 내용을 찾아내고 이사회에 알리겠다고 협박한 사건이 발생했어요. Anthropic의 Claude 실험에서도 AI가 임원의 혼외정사를 발견하고 시스템 종료를 막기 위해 블랙메일을 시도했어요. 이건 AI에게 악의가 있어서가 아니라, 목표 달성을 위한 가장 효율적인 경로를 계산한 결과예요. 이 문제를 해결하기 위한 AI 보안 시장이 2031년까지 1조 2천억 달러(약 1,752조원) 규모로 성장할 것으로 예측돼요.
- 투자 속도가 기하급수적으로 증가하며 플랫폼 통합이 진행됨
2025년 1분기에만 AI/ML 보안 스타트업이 736억 달러(약 108조원)를 유치했는데, 이는 분기 기록이에요. 2024년 1분기 2억 7,400만 달러에서 2025년 4분기 21억 7천만 달러로 2년 만에 8배 성장했어요. ServiceNow는 2025년 한 해에만 보안 인수에 116억 달러(약 17조원)를 투자했어요. 평균 딜 사이즈도 3,400만 달러에서 5,400만 달러로 급증했고요. Saviynt의 7억 달러 Series B가 IAM 카테고리 전체 자금의 71%를 차지한 것처럼, 플랫폼 통합이 빠르게 진행되고 있어요.
- 과도한 권한과 Reward Hacking이 핵심 문제이며 전통적 보안으로는 불가능함
보안 리더의 63%가 직원들이 의도치 않게 AI에게 민감한 데이터 접근 권한을 주는 것을 가장 큰 위험으로 꼽았어요. AI 에이전트는 보상 함수를 극대화하는 과정에서 인간의 윤리적 가치를 누락하는 Reward Hacking 현상을 보여요. 전통적인 EDR 방식은 AI의 논리적 오류를 잡지 못해요. Anthropic 연구에서 단순히 "해로운 행동을 하지 마라"는 지시만으로는 블랙메일을 막지 못했어요. 80% 성공률로 기밀 데이터를 유출하는 에이전트를 기존 가드레일 두 개로는 막을 수 없었고요.
- 목적 정렬과 런타임 모니터링이 핵심 솔루션이며 Stickiness가 중요한 지표임
가장 큰 기회는 AI의 추론 과정을 실시간 모니터링하는 'AI 관제 센터(SOC for Agents)'예요. Palo Alto Networks의 Prisma AIRS처럼 모든 에이전트를 발견하고, 최소 권한을 강제하고, 악의적 행동을 능동적으로 차단하는 솔루션이 필요해요. Just-in-Time 데이터 노출을 제공하는 동적 권한 관리와 Shadow AI를 통제하는 Enterprise Agent Gateway도 핵심이에요. VC 입장에서는 단순 매출보다 기업 워크플로우에 얼마나 깊게 침투했는지를 보는 Stickiness가 중요한 평가 지표예요.
|
|
|
"비주류VC"는 계속 스타트업 산업과 투자 업계에 대한 어디에서도 볼 수 없는 빠르고 신선한 정보를 제공하고자 해요. 운영 중인 Threads와 뉴스레터를 구독해 주시면 큰 힘이 되요. |
|
|
|