AI 에이전트의 책임 공백: 위임되는 건 일이지 응답자가 아니다
한 승객이 에어캐나다 웹사이트의 챗봇에게 상중 할인 항공권을 물었다. 챗봇은 표를 산 뒤에도 소급 신청이 된다고 답했지만, 그것은 실제 규정과 달랐다. 승객은 그 말을 믿고 표를 샀다가 차액을 떼였다. 분쟁에서 에어캐나다는 놀라운 항변을 폈다. 챗봇은 "자기 행동에 책임지는 별개의 법적 실체"라는 것이었다. 2024년 2월, 브리티시컬럼비아 민사분쟁심판소는 이를 "놀라운 주장"이라 일축하고 회사에 배상을 명했다. 이 챗봇은 말만 했다. 다음 세대는 말에 그치지 않는다.
AI 에이전트는 LLM이 도구를 스스로 골라 환경의 피드백을 받아 가며 루프로 움직이는 시스템이다. 텍스트를 생성하는 데서 멈추지 않고, 메일을 보내고 물건을 사고 코드를 실행하고 시스템을 조작한다. 조언이 아니라 행동을 한다. 형제편 보드를 본 적 없는 기계가 보드를 안다 — 이해인가 흉내인가, 아니면 다른 질문인가에서 던진 물음은 "무엇이 이 모델을 교정하는가"였다. 모델이 초안을 쓰는 데 그치지 않고 직접 행동에 옮기는 순간, 물음은 한 칸 옮겨간다. 그것이 틀렸을 때, 누가 응답하는가.
에이전트는 행동한다, 그리고 자주 틀린다
먼저 분명히 할 것이 있다. 에이전트가 사람보다 빠르고 어떤 일에선 더 일관될 수 있다는 점은 사실이다. 사람은 지치고 잊고 한눈팔지만 기계는 그러지 않는다. 그러나 이 글의 쟁점은 정확성이 아니다. 정확성을 인정하고 들어가도 남는 문제, 곧 틀렸을 때의 책임이다. 다만 낮은 신뢰도는 그 책임 문제가 언제 터지느냐를 정한다. 에이전트가 자주 틀릴수록, 응답할 사람이 없는 사고는 더 자주 현실이 된다.
그리고 에이전트는 적잖이 틀린다. 신뢰도부터 불안정하다. 에이전트 벤치마크 τ-bench에서 최고 성능 에이전트조차 같은 과제를 여덟 번 반복했을 때 매번 성공하는 비율(pass^8)은 약 25%에 그쳤다. 한 번 성공률보다 60% 가까이 낮은 값으로, 같은 일을 시켜도 결과가 들쭉날쭉하다는 뜻이다. 두 도메인 평균으로는 한 번 성공률조차 50%를 넘지 못했다. 과제가 길어지면 더 나빠진다. METR 측정에 따르면 에이전트가 절반의 확률로 끝까지 해내는 과제의 '시간 지평'은 아직 짧고, 긴 작업일수록 성공률이 가파르게 떨어진다(다만 그 지평은 빠르게 늘고 있다). 카네기멜런대가 175개의 실제 사무 과제로 평가한 TheAgentCompany에서는, 가장 성적이 좋은 모델이 사람 개입 없이 완전 자율로 끝낸 과제가 약 30%에 그쳤다(2025년 9월 리더보드 기준이며, 2024년 12월 최초 논문에서는 24%였다).
이건 좁게 한정된 업무에 가드레일을 둘러친 production 에이전트의 성적이 아니라, 열린 실무 과제를 통째로 자율에 맡겼을 때의 성적이다. 그런데 지금 시장이 파는 것이 바로 그 '자율'이다. 열린 과제를 자율로 맡기면 최고 모델도 셋 중 하나꼴로만 끝낸다. 그런데도 위임은 빠르게 번지고 있다. Gartner는 2028년까지 기업용 소프트웨어의 33%가 에이전틱 AI를 품고(2024년 1% 미만에서), 일상 업무 결정의 15% 이상이 에이전틱 AI를 통해 자율적으로 내려질 것이라 전망한다. 불완전한 행위자에게 실제 결정을 맡기는 흐름은 이미 시작됐다.
| 측정 | 결과 | 출처·기준일 |
|---|---|---|
| τ-bench, 최고 에이전트 retail pass^8 (반복 일관성) | 약 25% (1회 성공 대비 ~60% 하락) | arXiv 2406.12045, 2024-06 |
| TheAgentCompany, 최고 모델 완전 자율 완료율 | 약 30% (175개 실무 과제; 원논문 24%) | CMU, 2025-09 |
| 에이전틱 AI 포함 기업 소프트웨어 (Gartner 전망) | 2028년 33% (2024년 <1%) | Gartner, 2025-06 |
표: 에이전트의 신뢰도와 확산. 출처 — τ-bench(Sierra·프린스턴)·TheAgentCompany(CMU, arXiv 2412.14161)·Gartner 전망. 기준일 2024-06~2025-09.
책임은 사라지지 않는다, 자리만 옮긴다
사고가 났다고 하자. 에이전트가 잘못된 환불을 집행하거나, 없는 규정을 지어내 고객에게 약속한다. 책임은 네 후보 사이에 있다. 그것을 쓴 사용자, 그것을 배포한 기업, 그 모델을 만든 제공자, 그리고 에이전트 자신.
마지막 후보부터 지운다. 에이전트는 법인격이 없다. 자산을 갖지도, 계약을 맺지도, 피소되지도 못한다. 법적으로 책임을 질 수 없는 존재다. 철학자 안드레아스 마티아스는 이미 2004년에 이를 '책임 공백(responsibility gap)'이라 불렀다. 스스로 학습하는 자율 기계의 행동에 대해 제조자도 운용자도 공정하게 책임지기 어려운 구조가 생긴다는 것이다. 책임을 에이전트 자신에게 떠넘기려는 시도가 한 번 법정에 올랐고, 그것이 앞의 에어캐나다 항변이었다. 배상액 약 650캐나다달러의 소액 사건이고 온라인 소액분쟁심판소의 비구속 판단이지만, 원리는 일반적이다. 회사가 고객을 상대하라고 내놓은 도구의 말과 행동은 회사가 떠안는다. 대리인을 시켜 한 일을 본인이 책임지는 오래된 법리와 다르지 않다.
그러면 남은 셋 사이에서 책임은 두 갈래로 갈라져 흐른다. 한 갈래는 고객을 직접 마주한 쪽, 곧 배포 기업으로 모인다(에어캐나다가 그 자리였다). 제공자는 이 갈래에서 약관으로 빠진다. 가령 Anthropic의 소비자 약관은 출력과 행동을 "있는 그대로(as is)" 제공하고 정확성 보증을 면책하며, 사용자가 독립 확인 없이 의존하지 말 것과 고위험 결정의 단독 근거로 삼지 말 것을 명시한다. 업계 표준 면책 문구다. 다만 대기업 간 계약은 협상되어 면책·배상 조항이 거꾸로 상류를 향하기도 한다. 그래서 소비자나 소규모 배포의 기본값에서, 책임은 계약서를 타고 하류의 배포자 쪽으로 흐른다.
다른 갈래는 반대로 거슬러 오른다. 개정된 EU 제조물책임지침은 소프트웨어와 AI를 명시적으로 '제조물'에 넣어 결함의 책임을 제조자, 곧 모델을 만든 쪽에 물리고, 피해자의 입증 부담까지 덜어 준다(증거 개시, 결함·인과의 추정). 약관으로 하류로 밀어낸 책임을 제조물책임이 상류의 제공자에게 다시 끌어올리는 구조다. 두 갈래가 정반대로 달린다.
엇갈림을 정리해 줄 규칙은 아직 서지 않았다. EU AI Act가 의무를 '제공자(provider)'와 '배포자(deployer)'로 나누지만, 이는 적합성·투명성 같은 행정 규제 의무의 분담이지 피해자에게 누가 배상하느냐의 민사책임 배분이 아니다. 그 민사 갈래를 AI에 맞춰 손보려던 시도, EU AI책임지침은 "합의 전망이 없다"는 이유로 2025년 철회됐다. 게다가 제조물책임지침의 적용 시점은 2026년 12월이다. 위임은 지금 일어나는데, 거슬러 오르는 갈래의 청구서는 늦게 도착한다.
| 후보 응답자 | 떠안는가 | 왜 |
|---|---|---|
| 에이전트 자신 | 못 떠안음 | 법인격 없음 — 피소·배상 불가 |
| 모델 제공자 | 방향이 둘 | 소비자 약관으론 면책(하류 이전) / 제조물책임은 거꾸로 상류 소환 |
| 사용자 | 부분 | 약관·판례가 독립 확인 의무 부과 |
| 배포 기업 | 고객 대면 전면 | 도구로 고객을 상대한 주체 — 대리 책임의 일반 법리 |
표: 책임의 두 갈래. 출처 — Matthias(2004)·Moffatt v. Air Canada(2024 BCCRT 149)·개정 EU 제조물책임지침(2024/2853)·제공자 약관. 기준일 2004~2026-03.
상승분은 위임되고, 하강분은 외부화된다
왜 불완전한 행위자에게 결정을 맡기는가. 여기서 경제가 답한다. 에이전트의 가치는 사람을 루프에서 빼는 데 있다. 사람이 한 단계씩 들여다보지 않아도 일이 굴러가기에 빠르고 싸다. 자율성이 곧 절감이다. 생산성이라는 상승분은 그 도구를 배포한 기업이 가져간다.
문제는 하강분이다. 에이전트가 사고를 내면 그 비용은 잘못된 거래의 상대방이나 오정보를 믿은 고객에게 먼저 떨어진다. 그리고 이 비용을 관리할 장치는 아직 얇다. 한 거버넌스 조사에 따르면 자사 AI 시스템을 정확성·오용·드리프트에 대해 모니터링하는 조직은 절반에 못 미친다(48% 미만). 이 수치는 AI 시스템 일반을 가리키지만, 스스로 행동하는 에이전트에 그대로 적용하면 함의는 더 무겁다. 무엇이 언제 틀렸는지 보지 않는 채로 도는 자율 시스템이 적지 않다는 뜻이다.
비용이 실재한다는 신호 하나는 그것을 파는 상품이 나왔다는 점이다. 2025년 4월, 로이즈(Lloyd's) 인수회원이 받친 Armilla의 AI 책임보험이 출시됐다. AI가 의도대로 작동하지 못하거나 중대한 오류·환각·부정확을 일으켜 발생한 손해와 그에 따른 법적 비용을 보상하는 상품이다. 위험이 보험료로 가격이 매겨지기 시작한 것이다. 한편 Gartner는 비용 상승과 불명확한 가치, 부적절한 위험 통제 탓에 에이전틱 AI 프로젝트의 40% 이상이 2027년 말까지 취소될 것으로 전망한다. 책임 문제와는 별개의 신호지만, 위임의 경제가 이미 마냥 매끄럽지는 않다는 정황이다.
여기서부터는 사실이 아니라 해석이다. 위임의 가치와 책임의 공백은 다른 두 사건이 아니라 같은 한 동작의 양면이다. 위임이 줄이려는 비용은 사람의 주의와 노동인데, 사고가 났을 때 이름으로 응답할 사람도 바로 그 자리에 함께 앉아 있었다. 한 사람이 두 역할을 겸했으니, 비용을 줄이려고 사람을 빼면 응답자도 같이 빠진다. 그래서 책임은 사후에 공짜로 도로 더할 수 있는 것이 아니다. 사람을 응답 가능한 자리에 도로 앉히는 데는 0으로 내릴 수 없는 바닥 비용이 든다. 완전 자율의 매력이 바로 그 비용을 0에 가깝게 미는 데 있었기 때문이다.
그래서 응답자는 어디 남나
이 분석은 추상에서 끝나지 않고 에이전트를 도입하는 전문직과 기업의 책상으로 돌아온다.
소거법의 결론은 단순하다. 제공자는 약관으로 빠지고, 에이전트는 법적으로 응답할 수 없으니, 고객을 마주한 사고의 응답자로 법이 가장 먼저 찾는 몸은 그 도구를 배포한 회사다. 위임은 부담을 떠넘기는 동작처럼 느껴지지만, 책임의 회로는 배포자 쪽으로 닫힌다. 그러니 "어디에 사람을 응답 가능하게 남길 것인가"는 엔지니어가 정밀도로 푸는 문제가 아니라 거버넌스와 법무의 결정이다. 인접편 온디바이스 AI: 칩이 아니라 비용과 사법권이 경계를 긋는다에서 무엇을 어디서 돌릴지의 경계가 엔지니어의 손을 떠나 비용·법무·제품의 결정이 됐듯, 책임의 경계도 같은 자리로 옮겨간다.
구체적으로는, 되돌릴 수 없거나 결과가 큰 행동 앞에 — 돈을 옮기고, 외부에 약속하고, 데이터를 지우는 일 앞에 — 이름이 적힌 사람의 승인 단계를 두고, 무엇을 언제 했는지 추적 가능한 기록을 남기는 일이다. 자율의 범위를 어디서 끊고 어디에 사람을 세울지를 정하는 설계다.
보드를 본 적 없는 기계가 보드를 안다 — 이해인가 흉내인가, 아니면 다른 질문인가에서 사람이 루프에 남아야 했던 이유는 교정이었다. 정답 신호가 돌아오지 않는 자리에서 출력이 맞는지 누군가 봐야 했다. 행동하는 에이전트에서 사람이 남아야 하는 이유는 한 겹 더 무겁다. 응답이다. 완벽하게 정확한 에이전트라 해도 응답자는 필요하다. 책임은 누가 옳았느냐가 아니라 잘못됐을 때 누가 그 앞에 이름으로 서느냐의 문제이기 때문이다.
그래서 서명 질문으로 닫는다. 누가, 언제 떠안는가. 책임은 사라지지 않았다. 에이전트에게서 한 번 지워졌다가, 약관을 타고 제공자를 비껴, 법이 가장 가까이서 찾는 자리, 보통 배포 기업으로 떨어진다. 그조차 닿지 못하는 곳(영세한 운용자, 국경 너머, 흩어진 피해)에서는 응답자 없이 피해자에게만 남는다. 시점도 어긋나 있다. 위임은 지금 퍼지고, 청구서는 소송과 규제가 사후에 들고 온다. 그마저 특화된 규칙이 철회된 자리에서 더 늦어진다.
누가 방아쇠를 당겼는가 — 자율무기와, 사라진 응답자에서 죽임의 마지막 판단을 기계에 넘길 때 죽음 앞에 설 이름이 사라졌다면, 일상의 업무를 에이전트에 넘기는 자리에서도 같은 모양이 돌아온다. 규모만 다를 뿐 구조는 하나다. 넘기는 동작이 응답할 사람을 지운다. 에이전트는 일을 대신한다. 그러나 그 일이 잘못됐을 때 이름으로 응답하는 자리까지 대신해 주지는 않는다. 그 자리를 누가 지킬지는, 기술이 아니라 책임의 설계 문제다.
- | # | 매체 (경유) | 원출처 (primary) | 링크 | 기준일 |
- |---|---|---|---|---|
- | 1 | Anthropic Research | Anthropic, "Building Effective Agents" (에이전트 정의) | https://www.anthropic.com/research/building-effective-agents | 2024-12 |
- | 2 | arXiv | Sierra·Princeton, τ-bench (2406.12045) | https://arxiv.org/abs/2406.12045 | 2024-06 |
- | 3 | METR | METR, "Measuring AI Ability to Complete Long Tasks" | https://metr.org/blog/2025-03-19-measuring-ai-ability-to-complete-long-tasks/ | 2025-03 |
- | 4 | arXiv | CMU 외, TheAgentCompany (2412.14161) | https://arxiv.org/abs/2412.14161 | 2025-09 |
- | 5 | MES Computing (경유) | Gartner (에이전틱 AI 전망) | https://www.gartner.com/en/newsroom/press-releases/2025-06-25-gartner-predicts-over-40-percent-of-agentic-ai-projects-will-be-canceled-by-end-of-2027 | 2025-06 |
- | 6 | CanLII / McCarthy Tétrault | BC Civil Resolution Tribunal, Moffatt v. Air Canada (2024 BCCRT 149) | https://www.canlii.org/en/bc/bccrt/doc/2024/2024bccrt149/2024bccrt149.html | 2024-02 |
- | 7 | Springer (Ethics and Information Technology) | Andreas Matthias, "The responsibility gap" | https://doi.org/10.1007/s10676-004-3422-1 | 2004 |
- | 8 | EUR-Lex | EU, AI Act (Regulation (EU) 2024/1689) | https://eur-lex.europa.eu/eli/reg/2024/1689/oj/eng | 2024-06 |
- | 9 | EUR-Lex | EU, 개정 제조물책임지침 (Directive (EU) 2024/2853) | https://eur-lex.europa.eu/eli/dir/2024/2853/oj/eng | 2024-10 |
- | 10 | EP Legislative Train / Bird & Bird (경유) | European Commission, AI책임지침(AILD) 철회 | https://www.europarl.europa.eu/legislative-train/theme-a-europe-fit-for-the-digital-age/file-ai-liability-directive | 2025-10 |
- | 11 | WCR.Legal | (법 해석) AI 법인격 부재 | https://wcr.legal/ai-liability-false-statements/ | 2026-03 |
- | 12 | Anthropic | Anthropic, Consumer Terms of Service | https://www.anthropic.com/legal/consumer-terms | 2025-10 |
- | 13 | PR Newswire / Tech Monitor (경유) | Armilla (Lloyd's·Chaucer 인수), AI 책임보험 | https://www.prnewswire.com/news-releases/armilla-launches-affirmative-ai-liability-insurance-with-lloyds-underwriter-chaucer-302442586.html | 2025-04 |
- | 14 | IoT For All (경유) | Pacific AI / Gradient Flow, 2025 AI 거버넌스 조사 | https://www.iotforall.com/news/2025-ai-governance-survey-reveals-critical-gaps-between-ai-ambition-and-operational-readiness | 2025-06 |
- ---
- 이 글은 AI와 함께 다차원으로 분석, 검증하고 집필자가 검수했습니다.
- </content>