트랜스포머 다음은 무엇인가 — 틀린 질문에 답이 있다

"무엇이 트랜스포머를 대체할 것인가." AI 아키텍처의 다음 메가트렌드를 묻는 사람은 대개 후계자의 이름을 기대한다. 상태공간모델(Mamba)일까, 세계모델일까, 아니면 아직 논문으로 나오지 않은 무엇일까.

그런데 지난 2년간 실제로 벌어진 일을 보면, 이 질문 자체가 어긋나 있을지 모른다. 2024~2025년 능력이 가장 크게 뛴 사건 — OpenAI의 o1·o3, DeepSeek의 R1 같은 '추론 모델' — 은 아키텍처를 바꾸지 않고 일어났다. o1은 시스템 카드가 스스로를 "생성형 사전학습 트랜스포머(GPT)"라 부르고, 거기에 대규모 강화학습으로 사고 사슬(chain of thought)을 학습시킨 것이다. R1은 오픈소스라 더 분명하다. 그 초기판인 R1-Zero는 사람이 만든 추론 예시(SFT) 하나 없이, 기존 베이스 모델(DeepSeek-V3, 671B 파라미터 중 토큰당 37B만 쓰는 전문가 혼합(MoE) 트랜스포머) 위에 순수 강화학습(GRPO)만 얹었는데도 추론 능력이 창발했다. 제품판 R1은 여기에 소량의 초기 예시를 더한 다단계 학습이지만, 베이스 아키텍처는 어느 쪽도 건드리지 않았다.

그러니 다음 아키텍처의 이름을 찾기 전에 물어야 한다. 최근 가장 큰 도약이 아키텍처를 안 바꾸고 왔다면, '전환'은 대체 어디서 일어나고 있는가.

후보를 줄세우지 말고, 벽을 채점하자

버즈워드를 나열하는 대신 하나의 채점표를 쓰자. 트랜스포머에는 알려진 '벽'이 몇 개 있다. 시퀀스 길이에 이차로 늘어나는 어텐션 비용, 텍스트만 먹어 물리 세계에 접지되지 않는 것, 다음 토큰을 예측하는 즉답(숙고의 부재), 불투명하고 순차적인 자기회귀 생성. 후보 아키텍처마다 어떤 벽을 겨냥하는지를 보되, 각 후보에 하나의 리트머스를 들이대자.

그 능력을, 아키텍처를 새로 짓지 않고 기존 사전학습 모델 위에 훈련·추론 래퍼만 얹어서 얻을 수 있는가. 얻을 수 있다면 변화는 코어(시퀀스를 섞는 핵심 연산)가 아니라 그것을 감싸는 층에서 일어난 것이다. 반대로 근본적으로 다른 믹서를 밑바닥부터 새로 사전학습해야만 얻어진다면, 그건 코어의 변화다. 이 테스트를 쓰면 "새 아키텍처처럼 보이는 것"과 "낡은 코어에 씌운 새 레짐"이 갈린다. 도약이 컸던 순서대로, 축을 하나씩 채점해 보자.

추론의 벽: 도약은 코어 밖에서 왔다

가장 큰 도약이 난 곳이다. o1은 "답하기 전에 오래 생각하는" 첫 추론 특화 계열로 2024년 9월 나왔다. 도약의 크기는 표로 보는 게 빠르다.

벤치마크	GPT-4o (비추론)	o1	R1
AIME 2024 (수학)	13.4%	74.4%	79.8%
GPQA Diamond (박사급 과학)	56.1%	78.0%	71.5%

GPQA에서 o1의 78.0%는 인간 박사 전문가 기준선(69.7%)을 처음 넘긴 값이고, R1의 AIME 79.8%·GPQA 71.5%도 같은 추론 프런티어에 든다. 리트머스를 들이대면 판정은 분명하다. 이 능력은 새 코어를 사전학습해 나온 게 아니라, 기존 베이스 위에 강화학습을 씌워 나왔다. R1-Zero가 그 증거다.

이 도약의 지렛대는 주로 강화학습 훈련(길게 생각하는 사고 사슬을 생성하도록 학습시키는 것)이고, 여기에 추론 시점에 계산을 더 쓰는 방식이 겹친다. 후자에 관해선, 고정된 모델 위에서 추론 시간 탐색을 잘 배분하면 14배 큰 모델을 능가할 수 있다는 연구도 있다. 둘 다 코어 바깥의 레짐이라는 점은 같다.

다만 여기엔 단서가 둘 붙는다. 첫째, 이 도약은 답을 채점할 수 있는 도메인(수학·코드·과학)에 몰려 있다. o3가 추상추론 벤치 ARC-AGI-1에서 고계산 구성으로 87.5%를 찍어 화제가 됐지만, 그건 과제당 수천 달러가 드는 특수 구성이었고, 순수 계산 확장에 저항하도록 설계된 후속 ARC-AGI-2에서는 약 2.9%로 주저앉았다(인간 평균은 약 60%). "계산을 부으면 똑똑해진다"는 무조건이 아니라 채점 가능한 문제에 한정된다. 둘째, R1의 도약은 671B 규모의 MoE 베이스 위에서 일어났다. 레짐만으로 된 게 아니라, 그만한 베이스 모델이 이미 있어야 했다.

효율의 벽: 여기선 코어가 실제로 바뀐다 — 단 다른 것을 산다

이차 비용을 없애겠다는 후보가 상태공간모델(SSM)이다. Mamba는 시퀀스 길이에 선형으로 스케일하며 트랜스포머보다 여러 배 빠른 처리량을 약속했다. 순수 SSM에는 구조적 약점이 있다. 고정 크기의 상태에 과거를 담다 보니, 문맥에서 특정 토큰을 정확히 되불러오는 일(copying·in-context recall)에 약하다. 이건 경험적 관찰이 아니라 이론적 한계다. 2층 트랜스포머는 지수 길이의 문자열을 복사할 수 있지만, 고정 상태의 SSM은 원천적으로 못 한다. 한 분석은 서브쿼드러틱 계열과 어텐션의 품질 격차 중 82%가 이 recall에서 온다고 했다.

그래서 생산 현장이 택한 답은 순수 SSM도, 순수 트랜스포머도 아닌 혼합이다. 그리고 그 혼합에서 어텐션은 오히려 소수다. AI21의 Jamba는 어텐션:Mamba를 1:7로 섞고, NVIDIA의 Nemotron-H는 층의 약 8%만 어텐션으로 남겼으며, IBM은 Granite 4.0을 Mamba:트랜스포머 약 9:1로 출하했다. 시퀀스를 섞는 연산의 90% 안팎이 이미 SSM으로 갈린 것이다. 게다가 살아남은 어텐션조차 원형이 아니다 — DeepSeek-V3의 어텐션은 MLA로 재설계됐다. 코어가 "그대로"라는 말은 정확하지 않다.

이 코어 변화들은 능력의 도약이 아니라 효율을 샀다.

그렇다면 앞의 리트머스는 여기서 무엇을 말하는가. 이 코어 변화들은 능력의 도약이 아니라 효율을 샀다. Nemotron-H가 어텐션을 8%로 줄여 얻은 것은 최대 3배 빠른 속도지, 새 능력이 아니다. 순수 Mamba가 표준 벤치에서 뒤지자 어텐션을 소수 재삽입한 이유도 능력을 되찾기 위해서였다. 그렇게 만든 하이브리드가 동급 트랜스포머를 앞서기도 하지만, 그건 같은 규모의 표준 벤치 수준이지 추론 모델 같은 프런티어 도약은 아니다. 즉 믹서는 실제로 바뀌고 있지만, 그 변화가 사들이는 것은 속도·메모리·긴 문맥이지 프런티어의 능력 점프가 아니다. 능력 점프는 앞 절에서 봤듯 다른 곳(레짐)에서 왔다. 순수 SSM 모델이 없는 건 아니다. Falcon Mamba, Codestral Mamba 같은 7B급이 실제로 나왔지만 프런티어 일반 모델은 아니다. 그리고 프런티어 일반 모델이 여전히 어텐션 기반이라는 건, 오픈소스인 DeepSeek-V3·Llama에서만 확인된다. 폐쇄 모델들은 내부를 공개하지 않으니 "어텐션을 유지한다"는 것도 증거의 부재이지 확증은 아니다.

접지의 벽: 세계모델은 아직 언어에 오지 않았다

텍스트만으로는 물리 세계의 인과를 배우지 못한다는 비판(얀 르쿤이 대표적이다 — 자기회귀 LLM은 오류가 지수적으로 누적된다는 논거)에서 나온 후보가 세계모델이다. Meta의 V-JEPA 2는 텍스트를 전혀 쓰지 않는 비디오 예측 모델로, 로봇의 제로샷 계획에 쓰인다. DeepMind의 Genie는 이미지에서 조작 가능한 3D 환경을 생성하고, Wayve의 GAIA는 자율주행의 세계를 모델링한다. 공통점은 전부 로보틱스·비디오·시뮬레이션에 있다는 것이다. 언어 생성의 프런티어를 세계모델 아키텍처로 대체한 사례는 2026년 7월 현재 보이지 않는다. (OpenAI가 Sora를 "세계 시뮬레이터"라 불렀지만, 유리가 안 깨지고 액체가 통과하는 물리 위반이 남아 검증된 인과 모델과는 거리가 있다.)

이 "없음"은 조심해서 읽어야 한다. 세계모델이 언어 프런티어에 없는 것은 아직 스케일할 시간이 안 됐기 때문일 수도 있다(Mamba도 2023년 말에야 나왔다). 부재를 곧장 반증으로 삼지는 말자. 언어모델이 세계의 인과 대신 텍스트의 상관을 배운다는 문제는 보드를 본 적 없는 기계가 보드를 안다 — 이해인가 흉내인가, 아니면 다른 질문인가에서 다룬 '교정 채널'의 부재와 같은 자리를 가리킨다.

생성양식의 벽: 시스템 부품과, 진짜 반례 하나

불투명·순차 생성이라는 벽에는 두 후보가 있다. 하나는 뉴로심볼릭이다. DeepMind의 AlphaGeometry는 신경망이 보조선을 제안하고 기호 엔진이 검증하는 협업 시스템으로 올림피아드 기하 30문제 중 25개를 풀었다. 이어 AlphaProof와 AlphaGeometry 2를 결합한 시스템은 국제수학올림피아드에서 6문제 중 4문제를 풀어 은메달급에 올랐는데, 언어모델에 형식 증명기(Lean)를 붙인 구성이었다. 이건 모놀리식 모델의 교체가 아니라 LLM을 부품으로 쓰는 시스템 조립이고, 검증 가능한 도메인의 니치에 있다.

다른 하나는 이 글의 가장 강한 반례다. 확산 언어모델은 자기회귀를 버리고, 노이즈를 한꺼번에 걷어내는 병렬 디노이징으로 문장을 짓는다. LLaDA는 8B 규모로 LLaMA3 8B와 대등하게 겨루고, 특히 '역전의 저주'(A는 B다를 배우면 B는 A다를 못 하는 문제)에서는 GPT-4o를 앞선다. Mercury 같은 상용 확산 모델은 초당 1000토큰이 넘는 속도를 낸다. 다른 생성 방식이 어떤 축에서 프런티어를 이기는 것 — 이건 앞의 이야기에 대한 진짜 도전이다.

그런데 여기서 리트머스가 애매해진다. 확산 모델에서 실제로 노이즈를 걷어내는 신경망(디노이저)은 대개 트랜스포머다. 다만 자기회귀를 버렸으니 어텐션이 인과 방향에서 양방향으로 바뀐다. 그렇다면 확산은 '비-트랜스포머 코어'인가, 아니면 '비-자기회귀 레짐'인가? 생성 목적함수와 어텐션 방향성이 함께 바뀌는 이 사례는, 코어와 레짐의 경계가 깔끔하지 않은 회색지대다. 아직 확산 기반의 프런티어 플래그십은 없지만, 이 후보만큼은 코어 자체가 갈리는 신호가 될지 지켜볼 값이 있다.

그래서: 이건 발견이 아니라, 리트머스로 방어하는 렌즈다

축을 다 채점하면 하나의 그림이 나온다. 능력의 도약은 코어를 감싸는 층 — 훈련·추론 레짐, 시스템 조립 — 에서 왔고, 코어(믹서) 자체의 변화는 능력이 아니라 효율을 샀다.

앞서 두 번 미뤄둔 라벨 문제를 이제 정면으로 보자. 이 그림은 데이터가 저절로 드러낸 발견이 아니다. 똑같은 사실들을 정반대로 읽을 수도 있다. "2026년의 트랜스포머는 2017년의 트랜스포머가 아니다. 희소 라우팅(MoE)과 상태공간 층과 강화학습 추론 루프로 이미 이질화됐다. 순수한 밀집 자기회귀 모놀리스는 조용히 죽었고, 우리가 관성으로 '트랜스포머'라 부를 뿐이다." 이쪽은 "이미 교체됐다"고 말한다. 앞의 렌즈는 "코어를 감싸는 층이 바뀌었다"고 말한다. 어디까지가 코어냐 하는 경계선을, 층의 비율만 세는 방식으로는 데이터가 그어주지 않는다.

경계를 그어주는 건 비율이 아니라 리트머스다. 기존 사전학습 모델 위에 래퍼를 볼트로 얹어 능력이 붙으면 레짐, 근본적으로 다른 믹서를 밑바닥부터 사전학습해야 하면 코어. 이 기준으로 보면 추론 도약은 명백히 레짐이고(R1-Zero가 기존 베이스 위 강화학습만으로 재현된다), SSM 하이브리드는 믹서를 바꾸되 능력이 아니라 효율을 사며, 확산만이 회색지대에 남는다. 이 렌즈를 택하는 건 그게 유일한 진실이라서가 아니라, 기존 위에 얹으면 되는 것과 새로 지어야 하는 것을 가르는 작동적 기준이기 때문이다. 그래서 다음 한 문장이 실용적으로 쓸모 있다. 누군가 '새 아키텍처'를 내세우면 던질 질문은 하나다. 기존 모델 위에 볼트로 얹으면 되는가, 아니면 밑바닥부터 새로 학습해야 하는가. 전자라면 값은 코어가 아니라 래퍼에 있다.

무엇을 관전하고, 무엇이 나오면 틀리나

리트머스 덕분에 전망을 반증 가능하게 못박을 수 있다. 2027년까지, 새로운 프런티어 능력 도약은 기존 사전학습 모델에 씌운 레짐과 시스템에서 나오고, 새 믹서를 밑바닥부터 사전학습해야 얻어지지는 않을 것이다.

관전 신호는 이렇다. 새 능력 점프가 새 코어 아키텍처군이 아니라 새 레짐(추론·에이전트·툴·메모리·검증기)으로 발표되는가. 효율을 파는 믹서 교체(SSM 하이브리드·MoE)와 능력을 파는 레짐이 계속 갈라져 있는가. 확산·SSM 같은 대안이 특정 축은 이기되 일반 벤치의 능력 프런티어는 래퍼로 재현 가능한 채로 남는가.

무엇이 나오면 이 전망이 틀리는지도 정하자. 어떤 새 능력 도약이 기존 모델에 래퍼를 얹는 것으로는 재현되지 않을 때 — 즉 레짐이나 라우팅이 아니라 새로 사전학습한 믹서 자체에 귀속될 때. 여기엔 순수 확산이나 순수 SSM 코어뿐 아니라, 다수-SSM 하이브리드가 효율이 아니라 능력으로 어텐션 프런티어를 밀어내는 경우도 포함된다. 그때 이 렌즈는 굽혀야 한다. (다만 '비-트랜스포머 프런티어가 아직 없다'는 부재 자체는 반증이 아니다. 새 믹서가 프런티어까지 스케일할 시간이 짧기 때문일 수 있으니, 부재가 아니라 도약의 귀속을 봐야 한다.)

트랜스포머 다음은 다른 모델로의 교체가 아닐 가능성이 크다. 그보다는, 코어의 믹서가 무엇으로 바뀌든 능력의 도약은 그것을 감싸는 레짐과 시스템 층에서 온다. 그 층이 두꺼워지는 것이 다음 트렌드의 실체다. 이 방향이 맞다면, 능력의 원천이 모델 훈련에서 시스템 조립·검증으로 옮겨간다는 뜻이고, 그 시스템을 누가 짜고 책임지는가는 AI 에이전트의 책임 공백: 위임되는 건 일이지 응답자가 아니다에서 다룬 물음으로 이어진다. 배치의 파편화라는 또 다른 축은 온디바이스 AI: 칩이 아니라 비용과 사법권이 경계를 긋는다에 있다. 만드는 사람에게 오래갈 역량은 이길 아키텍처를 찍는 일이 아니라, 그 층을 조립하고 검증하는 일로 옮겨간다.

출처

추론 레짐 (test-time compute·RL)
OpenAI o1 — Learning to reason with LLMs · o1 시스템 카드
OpenAI o3 — ARC-AGI breakthrough (ARC Prize) · ARC-AGI-2 저항성 (Chollet et al., arXiv:2505.11831) · o3/o4-mini 출시
DeepSeek-R1 — arXiv:2501.12948 (R1-Zero 순수 RL / R1 다단계)
추론시간 계산 스케일링 — Snell et al., arXiv:2408.03314
효율 (SSM·하이브리드)
Mamba — Gu & Dao, arXiv:2312.00752
순수 SSM recall 한계 — Jelassi et al. "Repeat After Me", arXiv:2402.01032 · Zoology (recall 82%), arXiv:2312.04927
하이브리드 실증·생산 — NVIDIA Mamba-Transformer, arXiv:2406.07887 · Jamba (AI21), arXiv:2403.19887 · Nemotron-H, arXiv:2504.03624 · IBM Granite 4.0 · Falcon Mamba · Codestral Mamba
접지 (세계모델)
Meta V-JEPA 2 · DeepMind Genie 2 · Wayve GAIA-1 (arXiv:2309.17080) · OpenAI Sora as world simulators
생성양식 (뉴로심볼릭·확산)
AlphaGeometry (DeepMind) · AlphaProof IMO 은메달급
확산 LLM — LLaDA (arXiv:2502.09992) · Mercury (Inception Labs) · Gemini Diffusion
모듈화 (MoE)
Mixtral (arXiv:2401.04088) · DeepSeek-V3 (arXiv:2412.19437) · Llama 4 (Meta) · Qwen3 (arXiv:2505.09388)
> 이 글은 AI와 함께 다차원으로 분석, 검증하고 집필자가 검수했습니다.