ENRead in English
AI
팩트검증코드검증validate.py발행

토큰포칼립스는 오는가 — 토큰 단가는 급락하는데 추론비용은 어디로 가나

2026.07.04·읽기 16분

토큰은 LLM(대형 언어모델)이 텍스트를 처리하고 값을 매기는 최소 단위다. 클라우드 API는 입력 토큰과 출력 토큰을 100만 개당 달러로 따로 과금하고, 출력이 입력보다 통상 네 배에서 여섯 배 비싸다. 요즘 'AI 토큰포칼립스'라는 말이 돈다. 추론비용이 폭증해 AI 열풍을 꺾는다는 걱정이다. 그런데 정작 토큰 단가는 지금도 떨어지고 있다. 같은 성능을 기준으로 잡으면, 클라우드 추론 단가는 2021년 말 100만 토큰당 약 60달러에서 3년 만에 약 6센트로 떨어졌다.

이 어긋남이 출발점이다. 비용을 단가 한 축으로만 보면 답이 안 나온다. 질의 하나의 비용은 단가 × 질의당 소비량의 곱이고, 그렇게 나온 비용이 다시 누구에게 떨어지느냐(귀착)가 그 위에 겹쳐진다. 단가와 소비량, 그리고 귀착. 이 세 축을 하나씩 본 뒤, 단가가 어디서 멈추는지와 지도가 어떻게 갈리는지까지 본다.

단가: 통념은 절반만 맞다

동급 성능 기준의 단가 급락은 실측된 사실이다. a16z는 이 추세를 'LLMflation'(동급 성능 LLM 추론 단가가 연 약 10배씩 급락하는 흐름)이라 불렀고, Epoch AI는 과제 난도별로 연 9배에서 900배까지 갈린다고 측정했다. 단가만 보면 '포칼립스'는 없다.

그런데 이 급락에는 조건이 붙는다. 품질을 고정했을 때의 이야기라는 것이다. 최신·최고 성능 티어는 사정이 다르다.

모델입력 / 출력 ($/1M 토큰)성격
GPT-4o2.50 / 102024년 기준선
Claude Opus 4.85 / 25프런티어 플래그십
GPT-5.55 / 30프런티어 플래그십
o1 (추론 모델)15 / 60사고 토큰 과금
o3 (추론, 후속)2 / 8세대 내려오며 하락

최신·최고 성능 티어는 이 급락 곡선에 잘 올라타지 않는다. 프런티어 플래그십(Opus 4.8·GPT-5.5)은 2024년 GPT-4o($2.50/$10)보다 두세 배, 추론 모델 o1은 여섯 배 비싸다. 다만 추론 모델도 세대가 내려오면 값이 빠진다. 후속 o3의 출력가 8달러는 o1의 7분의 1이다. 그러니 안 싸지는 건 '추론'이라는 클래스 전체가 아니라, 매 시점 최고 품질에 붙는 출시 프리미엄이다. 요점은 이렇다. 동급 성능은 급락하지만, 늘 최고 성능을 좇으면 그 프리미엄 탓에 단가가 좀처럼 안 내린다. 그리고 뒤에서 보듯, 토큰을 폭식하는 성장 워크로드가 바로 이 프리미엄 티어를 쓴다.

소비량: 단가가 떨어져도 총량은 는다

두 번째 축은 질의 하나가 소비하는 토큰이다. 이것이 단가와 반대 방향으로 움직인다. 추론(reasoning) 모델은 답을 내기 전에 '사고 토큰'을 수백에서 수만 개 생성하고, 이를 출력가로 과금한다. 고정된 모델이라도 이 사고 토큰을 더 태워 추론 시간 계산을 잘 배분하면 14배 큰 모델을 능가하기도 한다. 성능을 토큰으로 사는 셈이다. 컨텍스트 창은 100만 토큰까지 커져 장문 질의 하나가 수십만 토큰을 삼키고, 에이전트의 멀티턴·툴콜도 같은 방향이다. 트랜스포머 다음은 무엇인가 — 틀린 질문에 답이 있다에서 본 시스템 레짐이 곧 토큰 소비를 키운다.

여기엔 뒤집힌 직관이 하나 있다. 사고 토큰은 성능을 사든 못 사든 나간다. 어려운 문제에서 추론 모델이 끝내 답을 틀려도, 거기까지 태운 수천·수만 개의 사고 토큰은 그대로 과금된다. 토큰은 능력의 구매가 아니라 소비의 발생이다. 확실히 느는 건 소비량이지 능력이 아니다.

소비 총량은 실측으로 확정된다. Google은 2026년 5월 한 달에 3,200조 토큰을 처리한다고 밝혔다. 전년 대비 약 7배다.

단가가 내려가면 더 많이 쓴다는 건 새 얘기가 아니다. 제번스 역설(1865, 자원을 싸게 쓰게 되면 총소비가 오히려 는다는 관찰)을 마이크로소프트 CEO가 DeepSeek 공개 직후 AI에 빗댄 바 있다. 여기까지는 통념이므로 헤드라인이 아니라 메커니즘 각주로만 둔다.

그렇다면 효율 개선이 소비량을 눌러주지 않을까. 양자화(가중치 정밀도를 낮춰 연산을 줄이는 압축)·소형모델 라우팅 같은 기법은 실재하고, 단가 급락의 상당 부분이 거기서 온다. 그러나 효율은 소비량을 막는 제동이 아니라 부추기는 엔진이다. 싸지면 더 복잡한 걸 시도하고, 새 워크로드가 열리고, 소비량이 는다. 다만 이건 어디까지나 소비 총량이 는다는 얘기다. 그 증가가 달러 총비용까지 밀어올리는지는 볼륨과 다른 문제이고, 바로 아래에서 짚는다.

확정된 것은 볼륨(토큰 처리량)이지 달러 총지출의 궤적이 아니다. 흔히 겁나는 숫자로 하이퍼스케일러(초대형 클라우드 사업자)의 2026년 자본지출을 든다. 가이던스 합계 약 7250억 달러, 전년 대비 77% 증가다. 그러나 이 돈은 훈련과 추론을 함께 떠받치는 설비 투자(capex)이지, 추론 서빙에 매달 나가는 운영비(opex)가 아니다. 같은 GPU가 훈련도 하고 추론도 하니, 이 헤드라인 숫자에서 추론 서빙 비용만 따로 떼어낼 수는 없다. 추론의 달러 궤적을 두고 지금 말할 수 있는 선은 정성 관찰까지다. 각 AI 질의가 전통 검색보다 자릿수가 바뀔 만큼 비싸 클라우드 사업자의 질의당 마진을 깎는다는 정도다.

귀착: 비용은 사라지지 않고 자리를 옮긴다

세 번째 축은 그 비용을 누가 떠안느냐다. 비용 귀착(비용을 결국 누구의 장부·실리콘이 떠안는가)의 문제다. 비용은 싸지는 게 아니라 형태를 바꿔 자리를 옮긴다. 온디바이스 AI는 제공자의 운영비(opex, 매달 나가는 비용)를 사용자가 사둔 실리콘의 자본지출(capex, 한 번 사두는 설비)로 옮긴다. Apple의 하이브리드(온디바이스+비저장 클라우드 추론)가 그런 이전 사례다. 시스템 오케스트레이션과 출력 검증(보드를 본 적 없는 기계가 보드를 안다 — 이해인가 흉내인가, 아니면 다른 질문인가), 에이전트 오류의 책임 비용(AI 에이전트의 책임 공백: 위임되는 건 일이지 응답자가 아니다)은 애플리케이션 사업자와 시스템 통합자에게로 간다.

온디바이스가 비용을 진짜로 없앤다는 반론이 있다. 기기로 내리면 제공자 opex가 사라지고 사용자는 이미 산 칩을 쓰니 질의당 비용이 0이라는 것이다. 그러나 capex는 없어진 게 아니라 사용자가 기기값에 미리 치른 이전이다. 보이지 않을 뿐 사라지지 않는다(온디바이스 AI: 칩이 아니라 비용과 사법권이 경계를 긋는다의 판정과 정합한다).

게다가 배치축(기기냐 클라우드냐)과 시스템축(단순 레짐이냐 복잡 레짐이냐)은 직교한다. 기기 안에서 강화학습·검증·에이전트 같은 복잡 레짐을 돌리면 capex는 오히려 커진다. 그래서 비용은 어디론가 옮겨가 사라진 게 아니라, 형태를 바꿀 뿐이다. 복잡한 레짐에서는 오히려 불어난다.

물리 바닥: 단가는 어디까지 내려가나

세 축을 훑었지만 첫 축인 단가에는 아직 안 본 물음이 남아 있다. 이 하락은 어디서 멈추는가. 지금까지의 단가 하락은 주로 알고리즘·아키텍처 효율에서 왔고, 이 효율은 메모리 원자재값을 우회한다. 그래서 HBM(고대역폭 메모리) 스택 가격이 세대별로 올라도(HBM3 약 200달러 → HBM4 약 500달러) 토큰 단가는 한동안 계속 빠질 수 있다. 진짜 바닥은 원자재가 아니라 공급 희소성에서 온다. 2026년 AI 하드웨어의 실질 병목은 어드밴스드 패키징 할당이고, CoWoS 캐파는 매진이다. SK하이닉스는 HBM 주문이 향후 3년 생산능력을 이미 초과했다고 밝혔다. 이 할당 병목이 GPU 시간의 값을 떠받쳐 단가 하락을 언젠가 멈춰 세울 수 있다.

여기서 앞선 걱정의 강한 버전이 나온다. 단가 하락이 이 물리 한계에 부딪혀 멈추고 소비량은 계속 늘면, 총비용이 마진과 투자를 실제로 꺾는다는 시나리오다. 이 경로는 논리적으로 가능하다. 그러나 현재 데이터는 아직 그 지점이 아니다. 단가는 여전히 급락 중이고, 여러 공급자가 가격을 경쟁적으로 내리고 있다. 그래서 이건 반증 가능한 관전 신호로 남기되, "온다"는 단언이나 "거품이다"라는 진단으로 넘어가지 않는다. 물리 바닥이 단가 곡선을 언제 꺾는지가 지켜볼 지점이다.

지도: 두 지역으로 갈린다

앞의 축들을 겹치면 지도가 나온다. 질의당 비용은 단가 × 소비량이고, 워크로드에 따라 이 곱이 갈린다. 거기에 그 비용이 누구에게 가느냐(귀착)가 위에 겹쳐진다. 그래서 '토큰포칼립스가 열풍을 꺾나'라는 질문은 잘못된 축(단가)에 프레임을 걸어 절반만 맞다. 지도는 두 지역으로 갈린다.

지역워크로드단가 급락의 효과결과
정체고정 프롬프트·정형 분류/추출소비량이 안 늘어 그대로 통과총비용도 급락 — 걱정 없음
성장추론·에이전트·장문 컨텍스트소비량 폭증 + 안 싸지는 프리미엄 티어단가 하락이 질의당 비용을 못 낮춤 · 총지출 궤적은 미확정

정체 지역에선 반론이 옳다. 고정 프롬프트와 정형 분류·추출 태스크는 질의당 토큰이 폭증하지 않으니 단가 급락이 곧 총비용 급락이다. 여기선 비용이 형태를 바꾸는 게 아니라 진짜로 싸진다. 성장 지역은 다르다. 여기서 늘어나는 토큰은 값이 잘 안 빠지는 프리미엄 티어(추론·프런티어)의 것이고, 질의당 소비량마저 폭증한다. 그래서 늘 최신·최고 성능을 좇는 한, 단가 하락이 이 질의들의 비용으로는 잘 내려오지 않는다. 다만 이걸 '소비량이 단가 하락을 앞질렀다'고 뭉뚱그리면 안 된다. 동급 성능 단가는 연 10배 빠지고 처리량은 7배 늘었으니, 같은 품질 바구니만 놓고 보면 오히려 지출이 준다. 성장 지역의 압박은 '더 많이'와 '더 비싼 티어로'가 겹친 데서 오지, 소비량이 단가를 산술적으로 이겨서가 아니다. 그러니 하나의 축으로 "다 싸진다"거나 "다 터진다"고 말하는 쪽은 둘 다 틀린다.

성장 지역의 지출 증가가 위기냐 건강한 성장이냐는 별개의 질문이다. 지출이 는다고 곧 위기는 아니다. 그만큼 쓸모가 커진 것일 수도 있다. 이걸 가르는 것은 비용이 아니라 unit-economics(질의당 창출 가치가 질의당 비용을 넘느냐)다. 이 글은 비용 메커니즘이 본진이라 가치 측을 단정하지 않는다. 흔히 이 자리에서 2026년 AI 자본지출 증가율이 매출 증가율을 앞선다는 분석을 거품의 징후로 든다. 그러나 자본집약 산업의 초기 빌드아웃에서 capex가 매출을 앞서는 건 철도도 통신도 클라우드도 다 거친 정상 국면이라, 그 자체로는 거품과 건강한 성장을 가르지 못한다. 지출 축의 지속가능성은 여전히 unit-economics에 달린 열린 문제이고, 그 답은 아직 관측되지 않았다.

정직한 지도는 이렇다. 단가표는 급락을 광고하지만, 그 급락이 총지출로 이어지는지는 워크로드·capex·전력이라는 서로 다른 축으로 흩어져 하나로 잡히지 않는다. 확실한 건 비용이 사라진 게 아니라 자리를 옮겼다는 것, 그리고 성장 워크로드에서는 단가 하락이 그 비용을 상쇄해 주지 못한다는 것이다. 그것이 전체 지출을 얼마나 밀어올리는지는 아직 열린 채다.

만드는 사람에게 이 지도는 토큰 예산을 어디에 세울지를 말해준다. 정형 태스크는 클라우드 단가 하락을 그대로 누리면 된다. 성장 태스크에서는 단가가 아니라 소비량이 지렛대다. 반복되는 프리픽스는 프롬프트 캐싱으로 다시 물지 않게 하고(캐시 읽기는 입력가의 10분의 1 수준), 쉬운 질의는 작은 모델로 라우팅하고, 출력 토큰에 상한을 두고, 사고 예산은 필요한 만큼만 연다. 단가 하락을 수동적으로 기다리기보다, 어느 티어에서 어떻게 돌리느냐가 같은 질문의 비용을 가른다.

남은 공백은 하나다. 단가 하락이 전력·HBM·패키징(패키징이 AI 가속기의 상한을 정한다: 반도체 후공정이 무게중심이 된 이유)이라는 물리 바닥에 언제 부딪히느냐. 그 지점이 오면 성장 지역의 지도는 다시 그려진다. '토큰포칼립스'가 진짜 의미를 갖는 건 단가가 무너질 때가 아니라 그 하락이 물리 바닥에서 멈출 때이고, 현재 데이터는 아직 거기에 있지 않다. 그때까지도, 비용이 어디로 자리를 옮기든 그것을 누가 떠안느냐는 물음은 단가표에서 지워진 채 남는다.

출처
  1. 토큰 단가·공식 가격표
  2. Anthropic, Claude 공식 API 가격표 — https://platform.claude.com/docs/en/pricing (2026-06-04)
  3. OpenAI, API Pricing 공식 — https://developers.openai.com/api/docs/pricing (2026-07)
  4. OpenAI, Reasoning models 가이드(사고 토큰 과금) — https://developers.openai.com/api/docs/guides/reasoning (2026)
  5. Google, Gemini API Pricing 공식 — https://ai.google.dev/gemini-api/docs/pricing (2026-06-30)
  6. pricepertoken.com (2차 집계 · 구형·추론 모델 단가 GPT-4o/o1/o3) — https://pricepertoken.com/pricing-page/provider/openai (2026)
  7. LLMflation 단가 추세
  8. a16z (Guido Appenzeller), "Welcome to LLMflation" — https://a16z.com/llmflation-llm-inference-cost/ (2024-11)
  9. Epoch AI, "LLM inference price trends" — https://epoch.ai/data-insights/llm-inference-price-trends (2025)
  10. 소비량·추론시간 계산
  11. Snell et al., "Scaling LLM Test-Time Compute Optimally" (arXiv:2408.03314) — https://arxiv.org/abs/2408.03314 (2024-08)
  12. 제번스 역설
  13. W.S. Jevons, The Coal Question (1865, Yale Energy History) — https://energyhistory.yale.edu/w-stanley-jevons-the-coal-question-1865/ (1865)
  14. NPR Planet Money, "AI, DeepSeek and Jevons paradox"(Satya Nadella 인용) — https://www.npr.org/sections/planet-money/2025/02/04/g-s1-46018/ai-deepseek-economics-jevons-paradox (2025-01)
  15. 토큰 처리량·capex·마진
  16. Google (Sundar Pichai, I/O 2026 기조 · 월 3,200조 토큰) — https://blog.google/innovation-and-ai/sundar-pichai-io-2026/ (2026-05)
  17. DataCenterDynamics, "Google processed nearly one quadrillion tokens in June"(Demis Hassabis) — https://www.datacenterdynamics.com/en/news/google-processed-nearly-one-quadrillion-tokens-in-june-deepminds-demis-hassabis-says/ (2026-05)
  18. Tom's Hardware, "Big Tech's AI spending plans reach $725 billion" — https://www.tomshardware.com/tech-industry/big-tech/big-techs-ai-spending-plans-reach-725-billion (2026)
  19. CNBC, "Google, Microsoft, Meta, Amazon AI cash/capex" — https://www.cnbc.com/2026/02/06/google-microsoft-meta-amazon-ai-cash.html (2026-02)
  20. Forbes (Jason Kirsch), "The AI capex-to-revenue gap is widening" — https://www.forbes.com/sites/jasonkirsch/2026/06/02/the-ai-capex-to-revenue-gap-is-widening---and-markets-are-starting-to-notice/ (2026-06)
  21. 추론 원가 바닥 (HBM·패키징 공급)
  22. siliconanalysts, "HBM pricing / CoWoS 병목 / SK하이닉스 HBM 주문"(2차 집계) — https://siliconanalysts.com/market-data/hbm-pricing (2026-Q2)
  23. 정성 관찰(질의당 마진·Apple 하이브리드)은 형제글 온디바이스 AI: 칩이 아니라 비용과 사법권이 경계를 긋는다 원장에서 재인용(업계 분석·보도, med, 2026-06).
  24. > 이 글은 AI와 함께 다차원으로 분석, 검증하고 집필자가 검수했습니다.