Refract
KO/EN
ENRead in English
기술·AI·고찰(사색·분석 혼합)·2026.06.27
팩트검증코드검증validate.py발행
유의톤 override — 기술 노드 preset(정보형)은 explainer용. 본 글은 "LLM은 이해하는가 흉내내는가"라는 고찰(examination·reflection) 레지스터라 정보형으로는 깊이가 죽는다. 그래서 철학 에세이의 사색 골격(만연·우유·1인칭 절제)에 기술 칼럼의 데이터 단정(수치·논문 f#)을 얹은 혼합 톤으로 간다. 빌드업·잠언투 결론은 여전히 금지. 계승론(f12)은 닫는 명시적 전망으로만.

보드를 본 적 없는 기계가 보드를 안다 — 이해인가 흉내인가, 아니면 다른 질문인가

오델로의 규칙을 한 줄도 배우지 않은 신경망이 있다. 그저 합법적인 수의 나열, 그러니까 기보(棋譜)만 끝없이 먹고 다음 수를 맞히도록 훈련받았을 뿐이다. 보드가 8×8이라는 것도, 돌이 뒤집힌다는 것도 누구도 알려준 적이 없다. 그런데 이 모델의 내부를 열어 보면, 지금 보드 위에 어떤 말이 어디 놓여 있는지를 계산하는 표상이 자라 있다. 규칙을 모르는 채로 보드를 아는 것이다.

이 한 장면 앞에서 나는 오래 머문다. LLM을 두고 우리는 두 진영으로 갈라선다. 한쪽은 그것이 세계를 이해한다고 하고, 다른 쪽은 인간이 써 놓은 말을 흉내낼 뿐이라고 한다. 오델로의 그 기계는 어느 쪽인가. 흉내인데 어떻게 보드를 알며, 이해라면 왜 규칙을 배운 적이 없는가. 이 글은 그 갈림길에서, 답을 고르는 대신 질문 자체가 잘못 놓였을 가능성을 따라가 보려는 기록이다.

흉내가 깊어지면 지도가 생긴다

먼저 창발(emergence) 쪽의 증거다. 약한 쪽을 허수아비로 세워 무너뜨리는 건 사유가 못 된다. 그러니 이 진영의 가장 단단한 결과부터 본다.

오델로 실험의 처음 결과는 미묘했다. 보드 상태를 복원하는 비선형 프로브의 오류율이, 무작위로 초기화한 모델에선 26.2%였는데 학습을 마친 모델에선 1.7%로 떨어졌다. 모델 안 어딘가에 보드가 들어 있다는 뜻이다. 회의론자는 여기서 "프로브가 억지로 짜낸 것 아니냐"고 물을 수 있었고, 그 반론은 정당했다. 그런데 후속 연구가 한 가지를 바꾸자 그림이 선명해졌다. 보드를 '흑/백'이라는 절대 색이 아니라 '내 것/상대 것/빈칸'이라는 플레이어 상대 좌표로 다시 읽자, 단순한 선형 프로브만으로 99%를 넘는 정확도가 나왔다. 게다가 그 선형 방향을 인위적으로 비틀면 모델의 다음 수가 인과적으로 바뀌었다. 표상이 그냥 묻어 있는 정도가 아니다. 모델이 그 표상을 읽어 수를 둔다는 얘기다.

Othello-GPT 보드 복원결과
비선형 프로브 · 무작위 초기화 모델오류율 26.2%
비선형 프로브 · 학습 완료 모델오류율 1.7%
선형 프로브 · 플레이어 상대 좌표(내 것/상대 것/빈칸)99%+ 정확, 선형 방향 개입 시 행동이 인과적으로 변화

표: 창발 진영의 핵심 증거. 출처 — Li 외, Othello-GPT(ICLR 2023) · Neel Nanda, 선형 표상 분석(2023). 기준일 2026-06-27.

오델로만의 일도 아니다. Gurnee와 Tegmark는 Llama-2 계열을 열어, 도시 이름을 넣으면 모델 내부에 위도·경도에 대응하는 선형 표상이, 사건을 넣으면 연도에 대응하는 선형 표상이 자생적으로 형성돼 있음을 보였다. 큰 모델일수록 그 지도는 정확했고, 공간을 담당하는 뉴런과 시간을 담당하는 뉴런을 따로 짚어낼 수도 있었다.

여기까지만 보면 결론은 거의 정해진 듯하다. 흉내가 충분히 깊어지면 그 안에 지도가 자란다. 다음 단어를 잘 맞히려면 결국 그 단어들이 가리키는 세계의 구조를 내면화하는 편이 유리하고, 그래서 모델은 시키지 않아도 세계의 축소판을 그린다. 그렇게 읽고 싶어진다.

서튼의 칼

강화학습의 공동 창시자이자 2024년 튜링상 공동 수상자인 리처드 서튼은 그 결론을 정면으로 거부한다. 2025년 가을, 드와르케시 파텔과의 긴 대담에서 그는 LLM을 "막다른 골목"이라 못 박았다. 그의 논리는 표상의 유무를 두고 다투지 않는다. 더 아래를 친다.

서튼의 구분은 이렇다. LLM이 학습하는 것은 "사람이 다음에 무슨 말을 할지"이지 "세계에서 다음에 무슨 일이 일어날지"가 아니다. 같은 예측처럼 보여도 둘은 근본이 다르다. 앞의 것은 인간이라는 화자(話者)의 발화 과정을 모사하는 일이고, 뒤의 것은 물리적 환경이 행동에 어떻게 반응하는지를 아는 일이다. 그래서 그는 LLM을 '세계의 모델'이 아니라 '인간 언어 생성 과정의 모델'이라 부른다. 오델로의 그 기계가 보드를 안다고 할 때조차, 그 앎은 타자가 던져 준 합법적인 수의 나열이라는 외부 데이터를 통해 간접적으로 빚어진 것이지, 스스로 돌을 놓아 보고 뒤집혀 보고 얻은 것이 아니다.

그리고 결정적으로, 서튼이 보기에 LLM에는 세 가지가 없다. 목표(goal)도, 실측자료(ground truth)도, 일하면서 배우는 능력(지속학습)도 없다. 사전학습이 끝나면 가중치는 얼어붙고, 추론만 반복한다. 오늘 틀린 것을 내일 가중치에 새겨 고쳐 오는 일이 구조적으로 일어나지 않는다. 파텔조차 이 지속학습의 부재를 "진짜 근본적인 공백"이라고 인정했다. 다만 그는 요즘 모델이 수학 증명이나 코딩처럼 정답이 검증되는 과제로 강화학습을 받는다는 점에서, 모방과 경험의 경계가 그렇게 깔끔하지 않다고 반박한다.

지도냐, 휴리스틱 더미냐

창발을 의심하는 가장 정교한 목소리는 서튼이 아니라, 인지과학자 멜라니 미첼 쪽에서 나온다. 그런데 그 의심을 끝까지 밀고 가면 창발의 부정이 아니라 더 정확한 질문에 닿는다.

미첼은 오델로 실험의 선형 프로브 결과를 진지하게 받아들이되, 거기서 "세계모델이 있다"로 건너가지는 않는다. 그의 지적은 둘이었다. 하나, 비선형 프로브는 "너무 강력"하다 — 보드를 복원한 공로가 트랜스포머가 아니라 프로브 자신의 계산력에 있을 수 있다. 둘, 학생 연구자들이 뜯어보니 오델로 모델은 하나의 일관된 보드 모델이 아니라 보드 곳곳에 흩어진 국소 규칙들의 묶음, 말하자면 '휴리스틱 더미(bag of heuristics)'에 가까웠다. 사실 첫 번째 칼날은 후속의 선형 프로브 결과(계산력이 약한 프로브로도 99%, 게다가 인과개입)에 상당 부분 무뎌졌다. 그래서 지금 살아 있는 진짜 쟁점은 두 번째, '하나의 지도냐 휴리스틱 더미냐'다. 그래서 미첼은 단정 대신 판단을 보류한다. "LLM에 추상적 세계모델이 창발했다는 주장은 아직 강한 증거로 뒷받침되지 않는다".

같은 프로브 실험이 한쪽에선 "세계모델의 증거"로, 다른 쪽에선 "휴리스틱 더미의 증거"로 읽힌다. 증거가 모자라서가 아니다. 우리가 '세계모델'이라는 말에 무엇을 담을지 합의한 적이 없어서다.

잘못 놓인 질문

오래 들여다본 끝에 내가 도달한 자리는 이렇다. "LLM이 세계모델을 가졌는가"는 잘못 놓인 질문이다.

표상이 있느냐 없느냐로 따지면, 창발 연구가 이미 답을 일정 부분 내놓았다. 무언가 지도 같은 것이 모델 안에 있다. 서튼의 반론도 실은 그 지도의 존재 자체를 부정하지 않는다. 그가 치는 것은 지도의 출처와 교정 가능성이다. 어디서 왔는가(타자의 텍스트인가, 내가 행동해 얻은 결과인가), 그리고 틀렸을 때 세계가 그것을 고칠 수 있는가.

이 두 번째에서 한 가지를 갈라 둬야 한다. '고친다'에는 두 층위가 있다. 하나는 추론 도중 같은 세션 안에서 출력을 바로잡는 일이다. 모델이 컴파일 에러를 읽고 코드를 고치고, 사람이 틀린 초안을 되돌려주면 다음 출력이 달라진다. 이런 인-컨텍스트 교정은 분명히 일어난다. 파텔이 모방과 경험의 경계가 흐리다고 한 것도 이 지점을 짚은 것이다. 다만 이 교정은 휘발성이다. 세션이 끝나면 사라지고, 가중치에는 한 글자도 남지 않는다. 다른 하나는 그 교정이 가중치에 쌓여 다음에 같은 실수를 덜 하게 되는, 영속하는 지속학습이다. 오늘의 LLM에 없는 것은 앞쪽이 아니라 바로 이 뒤쪽이다.

그러면 경계선은 '교정이 일어나느냐'가 아니라 '교정이 남아 누적되느냐'로 정밀해진다. 완벽하게 오델로 보드를 표상하는 동결된 네트워크를 상상해 보자. 그것은 보드를 안다. 한 판 한 판 안에서는 사람이 고쳐 줄 수도 있다. 그러나 그 교정이 자신에게 새겨지지 않으니, 천 판을 둬도 천 판째의 그것은 첫 판의 그것과 같은 곳에서 틀린다. 표상은 있는데, 자신을 가르치는 방식으로 틀릴 능력이 없다. 여기서 한 가지는 분명히 해 둬야 한다. 동결된 네트워크가 순간순간 유능할 수는 있다는 것이다 — 계산기는 무엇에도 교정되지 않지만 틀리지 않는다. 순간의 유능함과 스스로 나아지는 능력은 다른 축이다. 그러니 내가 그으려는 선은 '지능 일반'의 정의가 아니다. 우리가 신뢰를 위임하고 점점 더 맡기려는 종류의 지능, 시간이 갈수록 나아지는 지능을 가르는 선이다. 그 선은 '이해냐 흉내냐'라는 정적인 자리가 아니라, 무엇이 이 모델을 교정하고 그 교정이 남는가라는 동적인 자리에 그어진다.

서튼은 지속학습과 실측자료의 부재를 들어 LLM을 막다른 골목이라 부른다. 그러나 그조차 여전히 'LLM이 세계모델이냐'라는 자리에서 싸운다. 내가 옮기려는 건 그 자리 자체다. '세계모델을 가졌느냐'는 정적인 물음으로는 두 진영이 같은 프로브 결과를 두고 평행선만 달린다 — 한쪽은 표상을 보고 "있다", 다른 쪽은 출처를 보고 "흉내"라 부르며 영원히 엇갈린다. 축을 '무엇이 교정하고 그 교정이 남느냐'로 옮기는 순간, 둘이 왜 같은 증거를 반대로 읽는지가 단번에 설명된다 — 표상은 실재하나 거기에 주체성이 없고, 불일치는 증거 부족이 아니라 '세계모델'이라는 말에 합의한 적이 없어서다. 서튼의 지속학습 논점은 이 축 위의 한 좌표일 뿐, 축 그 자체가 아니다. 그가 옳게 친 곳을, 더 정확한 자리로 옮겨 다시 긋는다.

이 관점에서 보면 서튼이 평생 매달린 강화학습의 그림이 왜 그렇게 다른지 분명해진다. 강화학습의 주체는 환경에 행동을 가하고, 보상이라는 실측 신호를 되받고, 그 신호로 자신을 고친다. 오델로의 동결 네트워크가 끝내 못 하는 그 한 가지, 결과가 돌아와 자신을 고치는 일이 여기선 회로의 한복판에 있다. 서튼은 동료들과 더 멀리까지 밀어붙여, 보상 극대화라는 단일 원리만으로 자연과 인공의 지능 전체를 떠받칠 수 있다는 가설("Reward is enough")까지 내놓았다. 지능이 곧 보상 극대화냐 — 거기까지는 나도 따라가지 않는다. 스칼라 하나의 보상으로는 부족하다는 정면 반박이 학계에 나와 있고, 그 물음은 열려 있다. 그러나 큰 그림의 옳고 그름과 무관하게 한 가지는 남는다. 강화학습 회로의 한복판엔 '세계가 나를 교정한다'는 고리가 있고, 오늘의 LLM에는 그 고리가 가중치 차원에서 끊겨 있다는 사실이다. 내가 그은 축이 가리키는 곳이 바로 이 끊긴 고리다.

쓰디쓴 교훈이 제 주인을 겨눈다

그런데 한 걸음 더 가면 묘한 역설이 드러난다.

서튼은 2019년 「쓰디쓴 교훈」에서 AI 70년사의 가장 큰 교훈을 한 줄로 적었다. 연산을 활용하는 일반적 방법이 결국 인간의 도메인 지식을 박아넣은 방법을 큰 차이로 이긴다는 것. 체스도 바둑도 음성인식도, 인간이 안다고 믿는 것을 손으로 넣은 시스템은 단기엔 앞섰지만 장기엔 탐색과 학습이라는, 임의로 확장되는 두 방법에 무너졌다. 그가 남긴 문장은 칼날 같다. "우리가 생각한다고 여기는 방식을 시스템에 박아넣는 것은 장기적으로 통하지 않는다." 우리는 발견의 내용이 아니라 발견하는 능력을 심어야 한다.

그런데 바로 이 칼이 LLM을 겨눈다. LLM은 인류가 써 놓은 텍스트 전체, 즉 '인간이 발견한 내용'의 거대한 압축이다. 서튼이 보기에 그것은 쓰디쓴 교훈의 빛나는 증명이 못 된다. 오히려 부정적 사례다. 모델의 인지가 인간 지식이라는 천장에 갇혀 있고, 정작 자연계의 동물은 아무도 그런 모방학습으로 배우지 않는다는 것이다.

다만 이 마지막 전제는 다툴 만하다. 인간이야말로 언어와 문화와 기보를 통해 대규모로 모방하며 배우는 동물이고, 호모 사피엔스의 누적 문화 자체가 모방학습의 산물이다. 그렇게 보면 텍스트로 추론하는 LLM도 일종의 경험적 학습이라 우길 여지가 생긴다. 서튼의 '모방은 막다른 골목'이라는 명제는 정설이라기보다 아직 다투는 쟁점에 가깝다. 그리고 이 다툼이 끝나지 않는다는 사실이야말로 내 진단을 떠받친다. '모방이냐 경험이냐'는 선 역시 '세계모델이냐'처럼 합의 불가능한 정적 물음이다. 교정 축으로 옮기면 이 다툼은 비껴간다. 인간의 모방이든 LLM의 모방이든, 그 결과가 돌아와 자신을 고쳐 누적되느냐만 물으면 되기 때문이다.

같은 증거를 세 자리에서 다르게 읽어 보면 이렇게 갈린다.

렌즈창발 쪽 읽기서튼·회의 쪽 읽기
기술기보·텍스트만으로 보드·공간·시간 표상이 자생; 선형 방향 개입이 행동을 바꿈가중치 동결·지속학습 부재·행동 없는 관찰자 → 교정이 남지 않음
인식론다음 토큰을 잘 맞히려면 세계 구조의 내면화가 유리 → 흉내가 지도로표상의 출처가 타자의 텍스트; '인간 언어 생성 과정' 모델이지 '세계' 모델이 아님
철학충분히 깊은 흉내와 이해를 가르는 선이 분명치 않음; 강한 증거 부재로 보류지능=목표·교정·주체성; 보상 극대화가 핵심이나 그 충분성은 논쟁 중

표: 같은 증거를 가르는 세 렌즈의 변증. 출처 — Othello-GPT(Li 외, ICLR 2023) · 선형 표상(Nanda 외, 2023) · 공간·시간 표상(Gurnee·Tegmark, ICLR 2024) · 서튼 인터뷰(Dwarkesh, 2025-09-26) · 미첼(2025) · Reward is enough(Silver 외, 2021)와 그 반론(Vamplew 외, 2022). 기준일 2026-06-27.

그래서, 무엇이 이 도구를 고치는가

이 사색은 추상에서 끝나지 않고 내 책상으로 돌아온다. 우리 대부분은 이제 이 모델을 매일 쓴다. 초안을 맡기고, 코드를 짜게 하고, 자료를 요약시킨다. 그렇다면 던질 질문은 "이게 세계를 이해하는가"라는 형이상학이 아니라, 훨씬 실용적인 한 문장이 된다. 무엇이 이 출력을 교정하는가, 그 피드백 채널이 존재하는가.

정답이 곧바로 검증되는 일, 그러니까 컴파일되는 코드, 답이 맞아떨어지는 계산, 테스트가 통과하는 함수에서는 세계가 그 자리에서 출력을 빠르게 되돌려준다. 그래서 위임이 비교적 안전하다. 반대로 옳고 그름의 실측 신호가 곧장 돌아오지 않는 일, 즉 판단이나 전략이나 사실관계의 진위나 책임이 걸린 결정에서는 교정 채널이 비어 있다. 그 빈자리가 정확히 사람이 루프에 남아야 하는 자리다. (이 위임을 생사의 결정에까지 밀어붙였을 때 무엇이 사라지는가는 누가 방아쇠를 당겼는가 — 자율무기와, 사라진 응답자에서 따로 다뤘다.)

여기에 한 겹을 더 얹어야 정직하다. 채널이 있다고 곧 안전한 게 아니다. 그 채널이 재는 것이 진짜 정답이냐가 또 문제다. 컴파일은 되지만 명세가 틀린 코드, 테스트는 통과하지만 테스트 자체가 잘못 짜인 함수처럼, 측정 가능한 신호를 향해 영리하게 과적합하는 일은 흔하다. 그러니 물음은 두 단으로 굴절된다. 무엇이 이 출력을 교정하는가, 그리고 그 교정이 재는 것이 정말 내가 원하는 것인가. 모델이 '이해하느냐'를 묻는 대신 '무엇이 이걸 틀렸다고 말해 주며, 그 말은 믿을 만한가'를 물으면, 어디까지 맡기고 어디서 멈춰 검수해야 하는지의 선이 또렷해진다.

서튼은 더 멀리, 인류에서 AI로의 계승이 불가피하니 두려워 말고 대비하자는 데까지 간다. 그건 검증된 사실이 아니라 한 노학자의 전망이고, 나는 거기까지 따라가지는 않는다. 다만 그가 옳게 짚은 한 가지는 남는다. 진짜 지능의 조건을 묻는 일은, 모델이 무엇을 아는지가 아니라 무엇이 모델을 고치고 그 교정이 남는지를 묻는 일이라는 것. 보드를 본 적 없이 보드를 아는 기계는 경이롭다. 그러나 그 기계가 틀린 보드를 그렸을 때 무엇이 그를 바로잡는지, 그리고 그 바로잡음이 다음 판에 남는지를 묻기 전까지, 우리는 아직 지능을 이야기한 것이 아니다.

출처
  1. | # | 매체 (경유) | 원출처 (primary) | 링크 | 기준일 |
  2. |---|---|---|---|---|
  3. | 1 | incompleteideas.net | Richard Sutton, The Bitter Lesson | http://www.incompleteideas.net/IncIdeas/BitterLesson.html | 2019-03-13 |
  4. | 2 | Dwarkesh Podcast | 리처드 서튼 인터뷰 ("막다른 골목"·지속학습 부재) | https://www.dwarkesh.com/p/richard-sutton | 2025-09-26 |
  5. | 3 | Dwarkesh Podcast | Dwarkesh Patel, "Thoughts on Sutton" (반박 후기) | https://www.dwarkesh.com/p/thoughts-on-sutton | 2025-09 |
  6. | 4 | ACM | 2024 ACM 튜링상 (바토·서튼, 강화학습) | https://awards.acm.org/about/2024-turing | 2025-03 |
  7. | 5 | arXiv | Li 외, "Emergent World Representations" (Othello-GPT, ICLR 2023) | https://arxiv.org/abs/2210.13382 | 2023 |
  8. | 6 | neelnanda.io | Neel Nanda, "Othello-GPT Has A Linear Emergent World Representation" | https://www.neelnanda.io/mechanistic-interpretability/othello | 2023 |
  9. | 7 | arXiv | Gurnee & Tegmark, "Language Models Represent Space and Time" (ICLR 2024) | https://arxiv.org/abs/2310.02207 | 2024 |
  10. | 8 | AI: A Guide for Thinking Humans | Melanie Mitchell, "LLMs and World Models, Part 2" | https://aiguide.substack.com/p/llms-and-world-models-part-2 | 2025 |
  11. | 9 | Artificial Intelligence (Elsevier) | Silver 외, "Reward is enough" (v299, 103535) | https://www.sciencedirect.com/science/article/pii/S0004370221000862 | 2021 |
  12. | 10 | arXiv | Vamplew 외, "Scalar reward is not enough" (반론) | https://arxiv.org/abs/2112.15422 | 2022 |
  13. | 11 | X (@RichardSSutton) | 리처드 서튼, AI 계승론 (WAIC 강연) | https://x.com/RichardSSutton/status/1700315838468043015 | 2023-09 |
이 글은 AI와 함께 다차원으로 분석, 검증하고 집필자가 검수했습니다.