행동경제학은 무엇이 살아남았나 — 재현위기가 무너뜨린 스타들은 대부분 사회심리학이었다

한 학문이 노벨 경제학상을 두 번 받았습니다. 대니얼 카너먼이 2002년에, 리처드 세일러가 2017년에 받았습니다. 그 학문의 정초 논문인 전망이론은 경제학에서 가장 많이 인용되는 논문 축에 들고, 그 응용인 넛지는 63개국 300여 기관, 정부 안에만 200개 넘는 전담 유닛으로 퍼졌습니다. 그런데 같은 학문이 지난 10년간 "재현위기로 무너졌다"는 말을 들어 왔습니다. 둘 다 참입니다. 그렇다면 무엇이 살아남았는지부터 물어야 합니다.

행동경제학이란 무엇인가

무엇이 살아남았는지 채점하려면 채점표에 오를 항목부터 세워야 합니다. 행동경제학이 무엇인지부터입니다. 미리 밝혀 두면, 이 글은 판단과 선택의 핵심 이론, 즉 전망이론 계보의 이력에 한정합니다. 행동재무의 시장 이상현상(처분효과·주식 프리미엄 퍼즐 등)은 별개 주제라 여기서는 다루지 않습니다.

전망이론(카너먼·트버스키 1979)은 사람이 최종 자산이 아니라 준거점을 기준으로 이득과 손실을 판단한다고 봅니다. 이득 앞에서는 위험을 피하고 손실 앞에서는 위험을 무릅쓰며, 같은 크기라도 손실을 더 무겁게 칩니다(손실회피). 확률도 그대로 쓰지 않고, 낮은 확률은 부풀리고 높은 확률은 깎아서 가중합니다. 손실을 이득의 약 2.25배로 친다는 계수는 1979년이 아니라 1992년 후속 논문의 추정치입니다. 1979년 원논문은 그 비대칭을 정성적으로만 세웠습니다.

프레이밍(1981)은 같은 선택지를 어떻게 서술하느냐로 선호가 뒤집히는 현상입니다. 600명이 죽을 상황에서 "200명을 확실히 살린다"는 생존 프레임에서는 72%가 그 확실한 안을 골랐지만, 논리적으로 똑같은 "400명이 확실히 죽는다"는 사망 프레임에서는 22%만 그 안을 골랐습니다. 앵커링(1974)은 무의미한 숫자가 판단을 잡아끄는 현상입니다. 룰렛을 돌려 10에서 멈춘 집단은 UN 내 아프리카 국가 비율을 중앙값 25%로, 65에서 멈춘 집단은 45%로 추정했고, 정확히 맞히면 보상을 준다고 해도 효과는 줄지 않았습니다.

나머지 이론도 이 계보에 있습니다. 심적회계(세일러 1985·1999)는 돈에 꼬리표가 없는데도 사람이 마음속에서 용도별 계정으로 쪼개 관리한다는 것이고, 부존효과(1990)는 방금 받은 머그컵을 팔 때 부르는 값이 살 때 내려는 값의 약 두 배로 벌어진다는 것입니다. 현재편향(레이브슨 1997)은 지금의 내가 미래의 나를 배신하는 성향, 즉 선호가 시간에 따라 뒤집혀 사람이 미래의 자기를 구속할 장치를 찾게 되는 현상입니다. 그리고 이 통찰들을 정책으로 옮긴 응용이 넛지입니다. 선택지를 금지하지도, 경제적 유인을 크게 바꾸지도 않으면서 예측 가능한 방향으로 행동을 바꾸는 선택설계이고, 그 대표 도구가 디폴트(기본설정)입니다.

이것이 행동경제학입니다. 흩어진 착시 목록이 아니라, 신고전파의 합리적 인간 가정에서 사람이 어디로 어떻게 체계적으로 벗어나는지를 그린 지도입니다.

여기서 회의적인 독자는 곧바로 반문할 겁니다. 카너먼과 트버스키도 심리학자이고, 앵커링과 프레이밍도 《사이언스》에 실린 심리학 연구인데, '행동경제학 대 사회심리학'이라는 구분 자체가 사후의 편의 아니냐고. 절반은 맞습니다. 이 글이 긋는 선은 소속 학과가 아닙니다. 유효한 구분은 연구 프로그램입니다. 전망이론 계보는 유인이 걸린 판단과 선택을 다루는 판단·결정 연구(JDM) 전통이고, 이 전통은 경제학에 편입돼 행동경제학의 코어가 됐습니다. 카너먼의 노벨상 사유부터가 "심리학 연구의 통찰을 경제과학에 통합했다"였습니다. 반대편은 미묘한 단서 하나로 태도와 행동이 바뀐다는 사회적 점화 전통입니다. 둘 다 넓게는 심리학이지만 방법과 전통이 다릅니다. 그리고 이 글은 그 기준을 양쪽에 똑같이 적용합니다. 살아남은 쪽도 무너진 쪽도 '어느 전통에서 나왔나'라는 하나의 잣대로 가릅니다.

재현위기는 이 지도에 대한 판결이 아니었습니다. 2015년 오픈사이언스 협업이 심리학 논문 100편을 다시 돌렸을 때, 원논문의 97%가 유의했던 결과가 재현에서는 36%만 유의했습니다. 이 사건은 특정 이론이 틀렸다는 폭로가 아니라, 심리·행동과학 전반에 들이댄 방법의 자였습니다. 사전등록과 다연구실 반복, 등록보고서가 표준으로 올라섰고, "연구자 자유도"라 불리는 분석 재량 네 가지만 함께 써도 위양성률이 명목 5%에서 60.7%로 치솟는다는 것이 드러났습니다. 요컨대 재현위기는 자였고, 행동경제학은 그 자의 대상 그 자체가 아니라 그 자로 채점된 여러 분야 중 하나였습니다. 그러니 물음은 하나로 좁혀집니다. 그래서 몇 점을 받았나?

핵심 이론은 감사를 통과했습니다

채점 결과부터 말하면, 행동경제학의 핵심 이론은 감사를 피한 게 아니라 통과했습니다.

2014년 "메니 랩스 1"은 13개 효과를 36개 표본, 11개국, 6,344명에게 사전등록으로 재현했습니다. 이건 우호적인 확인이 아니라, 뒤에 볼 사회심리학 간판들을 무너뜨린 바로 그 종류의 적대적 다연구실 감사입니다. 그런데 결과가 계통을 따라 갈렸습니다. Many Labs가 재현한 앵커링은 §1의 룰렛 시연이 아니라 야코위츠·카너먼 1995년의 네 문항 판본인데, 그 네 문항 모두에서 이 프로젝트 최대급 효과크기로, 재현 효과가 원본을 넘길 만큼 강하게 재현됐습니다. 아시아병 프레이밍도 강건하게 재현됐고(재현 효과크기가 원본의 절반쯤으로 줄었지만 유의성은 확고했습니다), 매몰비용은 원논문에서 유의하지도 않던 효과가 집계에서는 오히려 결정적으로 나타났습니다. 반면 같은 프로젝트 안에서, 미국 국기를 슬쩍 보여주면 보수화된다는 국기 점화와 돈을 연상시키면 체제를 정당화한다는 화폐 점화는 효과가 0으로 소멸했습니다. 신뢰구간이 0을 포함했습니다.

효과	계통	Many Labs 재현 결과
앵커링 (Jacowitz·Kahneman 1995 네 문항 판본)	행동경제학	네 문항 모두 강건 재현, 프로젝트 최대급 효과크기
이득·손실 프레이밍 (1981)	행동경제학	강건 재현(재현 d=0.60, 유의비율 0.86)
매몰비용 (세일러 1985 계열)	행동경제학	원본은 비유의였으나 집계에서 재현
국기 점화 (Carter et al. 2011)	사회심리학	소멸(재현 d=0.03, 신뢰구간 0 포함)
화폐 점화 (Caruso et al. 2013)	사회심리학	소멸(재현 d=−0.02)

표 · Many Labs 1(Klein et al. 2014): 13개 효과를 36개 표본·11개국·6,344명에게 사전등록 재현. 같은 적대적 다연구실 감사에서 행동경제학의 판단·선택 효과는 통과하고 사회심리 점화 효과는 낙제했다. 원 효과크기는 출판편향으로 과대추정됐을 수 있어 baseline으로 신뢰하지 않는다. 원출처: Klein et al. (2014), Social Psychology 45(3):142-152.

같은 감사, 반대 결과입니다. 그리고 그 선은 계통을 따라 났습니다. 여기가 지렛대입니다. 정밀하게 짚으면, Many Labs 1 안에서 소멸한 사회점화는 국기·화폐 점화이고, 뒤에 볼 더 큰 사망자들(자아고갈·표정 피드백·파워포즈)은 이 프로젝트가 아니라 저마다 별도의 다연구실 재현에서 죽었습니다. 겨냥한 대상은 달라도 감사의 종류는 같습니다. 사전등록한 다연구실 재현이라는 같은 종류의 감사에서, 행동경제학의 판단·선택 효과는 통과했고 사회점화 계열은 낙제했습니다. 행동경제학은 적대적 재현을 피해 다닌 게 아니라 정면으로 통과한 것입니다. Many Labs 1의 13개 효과가 모두 이렇게 깔끔히 갈린 것은 아닙니다. 상상접촉처럼 경계에서 한계 재현된 효과도 있습니다. 요점은 전체 집계가 아니라, 계통이 뚜렷한 핵심 케이스에서 선이 계통을 따라 났다는 것입니다.

왜 앵커링·프레이밍은 살고 점화는 죽었을까요. 반직관성만으로는 설명되지 않습니다. 앵커링도 프레이밍도 충분히 놀라운 효과이니까요. 차이는 설계와 유인의 구조에 있습니다. 판단·선택 과제는 유인이 걸린 명시적 결정을 피험자에게 반복해서 묻고, 참효과 자체가 큽니다. 앞서 본 앵커링의 큰 재현 효과크기가 그 방증입니다. 반면 사회점화는 미묘한 단서 하나를 피험자 사이에 심어 태도 변화를 재는데, 조작은 약하고 참효과는 작습니다. 계통선은 사후에 그은 편의가 아니라 이 설계·유인의 구조적 차이에서 옵니다.

핵심 이론의 다른 축은 또 다른 감사, 즉 현장 배치와 행정데이터를 통과했습니다. 401(k) 자동가입은 2001년 한 기업의 제도 변경을 자연실험으로 분석했더니 가입률이 37%에서 86%로 뛰었고, 덴마크의 약 4,100만 건 행정데이터는 세제혜택이 순저축을 거의 못 늘리는 반면 자동 기여는 실제로 저축을 늘린다는 것을 보였습니다. 영국은 이 디폴트를 10년간 1,070만 명에게 배치했는데, 탈퇴율이 28%까지 점쳐졌지만 실제로는 8~10%에 머물렀습니다. 세금 독촉장에 "열 명 중 아홉은 제때 냅니다"라는 사회규범 문구를 넣은 영국 국세청 현장시험은 납부율을 최고 5.1%포인트 올렸습니다.

효과	감사 종류	규모·결과
401(k) 자동가입	자연실험(Madrian·Shea 2001)	가입률 37%→86%
저축 디폴트	행정데이터(Chetty et al. 2014)	약 4,100만 건, 자동 기여만 순저축 증가
장기기증 디폴트	실험실 온라인(Johnson·Goldstein 2003)	opt-in 42% vs opt-out 82%
UK 자동가입	규모 배치(DWP 2012~)	10년 1,070만+, 탈퇴 8~10%
세금고지 사회규범	현장 RCT(HMRC 2017)	납부율 +5.1%p

표 · 배치·행정데이터를 통과한 디폴트 계열. Many Labs와 달리 이들은 적대적 재현이 아니라 자연실험·행정데이터·규모 배치라는 다른 감사를 통과했다. 원출처: Madrian·Shea 2001 / Chetty et al. 2014 / Johnson·Goldstein 2003 / UK DWP 2022 / Hallsworth et al. 2017.

여기서 흔한 정리 하나를 기각해 둡니다. "현장은 살고 실험실은 죽었다"는 틀렸습니다. 앵커링과 프레이밍은 실험실에서 나왔지만 살아남았고, 장기기증 동의를 다룬 유명한 디폴트 실험도 실험실 온라인 실험이었지만 살아남았습니다. 기본값이 opt-in이면 42%, opt-out이면 82%가 동의했습니다. 예측변수는 실험실이냐 현장이냐가 아니라, 계통(행동경제학이냐 사회심리학이냐)과 형질(표본크기·단일 랩 대 다연구실·사전등록·반직관도)의 결합입니다.

통과가 곧 무결은 아닙니다

통과가 곧 무결은 아닙니다. 핵심 이론 안에도 크기와 보편성과 실재성이 재조정된 축이 있고, 이걸 숨기면 정직한 성적표가 아닙니다.

손실회피가 대표적입니다. 손실을 이득의 약 2.25배로 친다는 값은 여러 맥락에서 그만큼 크지 않았습니다. 갈과 러커는 2018년 손실회피가 "가짜"가 아니라 "일반원리로 과일반화됐다"고 정정했습니다. 낮은 판돈에서는 오히려 이득이 더 강하게 작동하고, 현상유지편향을 손실회피로 잘못 돌린 사례가 많다는 것입니다. 반박도 만만찮습니다. 므르크바 팀의 17,720명 연구는 지식과 경험이 쌓일수록 손실회피가 줄지만 모든 지식 수준에서 여전히 관측된다며 "사망 보고는 크게 과장됐다"고 맞섰습니다. 폐기가 아니라 크기와 범위의 재조정입니다.

부존효과는 실재성 자체가 논쟁 중입니다. 카너먼·크네치·세일러의 1990년 머그컵 실험에서 파는 값이 사는 값의 두 배였지만, 플롯과 자일러는 2005년 피험자에게 절차를 충분히 훈련시키면 그 격차가 사라진다며, 격차가 선호가 아니라 실험 절차와 오해의 산물일 수 있다고 반박했습니다. 부존효과가 "없다"는 결론은 아니지만, 무엇을 재고 있었는지가 아직 다툼 중입니다. 심적회계와 현재편향도 비슷합니다. 심적회계는 2025년 1,007명 대상 사전등록 재현에서 세일러가 정리한 열일곱 문제 가운데 열한 개가 지지받아 대체로 재현됐지만 일부는 원본보다 약했고, 현재편향은 실물·노력 과제에서는 재현되지만 순수한 화폐 보상 실험에서는 약해진다는 논쟁이 있습니다.

넛지의 효과크기도 하향 조정됐습니다. 델라비냐와 리노스가 미국 최대 넛지유닛 두 곳의 126개 현장시험, 약 2,300만 명을 집계했더니 넛지의 실제 효과는 1.4%포인트로, 학술지 인용치 8.7%포인트의 6분의 1에 불과했습니다. 두 값의 차이 가운데 약 70%는 학술지의 선택적 출판 때문이었습니다. 넛지는 효과가 없는 게 아니라, 광고된 것보다 훨씬 작습니다.

"그래서 넛지는 되는 겁니까"라는 질문 자체가 함정입니다. 2022년 거의 같은 데이터를 놓고 머튼스 팀은 보정 후 효과 d=0.43이라 했고, 마이어 팀은 출판편향으로 보정하면 d=0.04로 "넛지가 효과적이라는 증거가 남지 않는다"고 했으며, 사자시 팀의 대안 보정에서도 0 근처로 내려앉았습니다. 세 분석의 공통점은 이질적인 개입을 한 통에 모아 평균 냈다는 것입니다. 물어야 할 것은 "넛지가 되나"가 아니라 "어떤 형질로 검증된 넛지인가"입니다. 형질과 계통으로 층화한 메타분석은 아직 나오지 않았습니다.

무너진 스타들은 대부분 옆자리였습니다

그렇다면 "재현위기로 무너진 행동경제학의 스타들"은 누구였을까요. 헤드라인을 장식한 사망자 명단은 자아고갈, 사회적 프라이밍, 표정 피드백, 파워포즈입니다. 그런데 §1에서 그은 선으로 보면 이들은 행동경제학이 아닙니다. 사회적 프라이밍(바그 1996), 표정 피드백(슈트라크 1988), 파워포즈(카니·커디·얍 2010), 그리고 자아고갈은 모두 미묘한 조작으로 태도와 행동을 흔든다는 사회적 점화·체화인지 전통에 속합니다. 유인이 걸린 판단과 선택을 다루는 전망이론·앵커링·프레이밍의 계보가 아닙니다.

죽은 방식도 처참합니다. 자아고갈은 23개 랩이 설계를 사전등록하고 함께 돌린 재현에서 효과가 0으로 소멸했고(크게 보고됐던 원 메타 약 d=0.62 대 재현 d=0.04), 표정 피드백은 17개 랩 재현에서 마찬가지로 사라졌습니다. 파워포즈는 표본을 다섯 배로 키운 재현에서 호르몬과 위험감수 효과가 사라졌고, 원저자마저 2016년 "효과가 실재한다고 믿지 않는다"며 사실상 철회했습니다. 프라이밍은 재현에 실패한 데 더해, 결과를 만든 것이 점화가 아니라 실험자의 기대였음이 드러났습니다.

효과	원논문	적대적 재현	결과
자아고갈	Hagger 2010 메타, 크게 보고됐던 약 d=0.62	23개 랩 사전등록 재현, N=2,141	재현 d=0.04, 사실상 0
표정 피드백	Strack 1988, 차이 0.82단위	17개 랩 사전등록 재현, N=1,894	재현 0.03단위, 사실상 0
사회적 프라이밍	Bargh 1996, 크게 보고됐던 약 d≈1.08	Doyen 2012 재현 실패	효과 없음, 결과를 만든 건 실험자 기대
파워포즈	Carney·Cuddy·Yap 2010, N=42	Ranehill 2015, N=200	원저자 2016년 사실상 철회

표 · 무너진 효과: 네 효과 모두 행동경제학이 아니라 사회심리학 계통이다. 원 효과크기(약 d=0.62·d≈1.08)는 출판편향으로 과대추정된 값이라 baseline으로 신뢰하지 않는다. 원출처: Hagger et al. 2016 / Wagenmakers et al. 2016 / Doyen et al. 2012 / Ranehill et al. 2015 · Carney 2016.

그럼 왜 이 붕괴가 행동경제학의 붕괴로 읽혔을까요. 열쇠는 "놀라움 프리미엄"입니다. 반직관적이고 영리한 발견이라야 강연과 베스트셀러와 표지 논문에 실립니다. 그런데 "반직관적"은 사전확률이 낮다는 뜻이고, 사전확률이 낮은 발견일수록 재현에서 무너집니다. 명성을 준 바로 그 형질이 비재현을 예고한 셈입니다. 그리고 가장 놀라운 발견들이 하필 사회심리학 쪽이었기에, 놀라움 프리미엄은 두 가지 일을 동시에 했습니다. 하나는 그들을 부서질 형질로 뽑은 것, 다른 하나는 그들을 'behavioral'이라는 한 브랜드로 빨아들인 것입니다. 그래서 붐에서는 행동경제학이 사회심리학의 화려한 히트를 함께 크레딧받았고, 버스트에서는 사회심리학의 재현 실패를 행동경제학이 대신 뒤집어썼습니다. 오귀속은 양방향이었습니다. 이 양방향 진단도 확인 가능하게 틀릴 수 있습니다. 만약 붐 시기의 대중 서사(베스트셀러·언론)가 파워포즈·프라이밍을 처음부터 '사회심리학'으로 또렷이 분류해 불렀고 행동경제학과 섞이지 않았다면, 오귀속이라는 진단은 흔들립니다. 카너먼이 2012년 "열차 사고가 다가온다"고 경고하고 2017년 "저검정력 연구에 너무 큰 믿음을 뒀다"고 인정한 대상도 바로 이 프라이밍 계열이었습니다.

다만 못을 하나 박아 둡니다. 무너진 것이 전부 옆자리였다고만 말하면 자기변호가 됩니다. 예외가 있습니다. 서명을 서류 위쪽에 하면 정직해진다던 넛지는 진짜 행동경제학의 응용이었는데, 이건 두 번 죽었습니다. 원저자들부터가 2020년 5,794명 규모의 재현에서 "위쪽 서명의 효과가 없다"고 스스로 실패를 보고했고, 그 전에 이미 그 효과를 처음 보고한 2012년 현장실험(13,488명)은 데이터가 조작된 것으로 드러나 2021년 철회됐습니다. 그 논문의 공저자였던 프란체스카 지노는 별건의 데이터 조작 판정으로 2025년 하버드 정년을 잃었습니다. 다만 지노 본인은 판정에 불복해 다투고 있고, 서명 실험의 데이터를 누가 조작했는지는 공개적으로 특정되지 않았습니다.

여기서 한 축은 반드시 갈라둬야 합니다. 자아고갈·표정 피드백·파워포즈는 진실한 연구가 재현되지 않은 것이고, 서명 넛지는 데이터가 위조된 것입니다. 다른 사건입니다. "사기가 있었으니 다 무너졌다"는 뭉갬입니다. 조작을 잡은 것도 연구자의 덕성이 아니라 공개된 데이터를 뜯어본 포렌식이었고, 조작된 서명 실험조차 13,488명짜리 대표본 현장 데이터였습니다. 방법이 강건해도 무결성을 보장하지는 않습니다.

정책의 위험은 크기가 아니라 위치입니다

그렇다면 "증거기반 정책"은 모래 위에 서 있을까요. 공포의 범위부터 좁혀야 합니다. 진지한 정책기구들은 이미 형질의 선 위에 서 있었고, 그것도 위기가 오기 전이었습니다. 영국 행동통찰팀(BIT)은 재현위기 전인 2010년 세계 최초로 세워졌고, 2012년 'Test, Learn, Adapt'로 무작위 대조시험을 정책 표준으로 삼았습니다. 미국 평가과학국(OES)은 오픈사이언스 재현 프로젝트와 같은 해인 2015년에 세워져 120건 넘는 현장 평가를 쌓았습니다. 위기 한복판에서 이들이 표준으로 삼은 것이 현장시험이었습니다. 그러니 정책의 위험은 "토대 전체가 모래"라는 확산된 공포가 아니라, 그 선을 넘어 배치된 식별 가능한 클래스, 즉 값싸고 영리하고 언론에 잘 팔리는 넛지에 몰려 있습니다. 그 클래스가 정책에서 양적으로 작다는 뜻은 아닙니다. 측정된 적이 없고, 조작으로 철회된 서명 넛지조차 여러 정부기관에 채택됐었으며 행동통찰 유닛은 OECD OPSI 매핑 기준 수십 개국 정부로 퍼졌습니다. 요점은 위험의 크기가 아니라 위치입니다.

재현위기가 정화한 것은 학계이지 배치 현장이 아닙니다. 살아남은 계열의 효과, 즉 마찰과 디폴트와 프레이밍에는 두 번째 검증자가 있습니다. 기업의 산업적 A/B 테스트입니다. 대형 플랫폼은 각각 연 1만 건이 넘는 온라인 통제실험을 돌립니다. 미국 연방거래위원회가 2022년 정리한 '다크패턴' 카탈로그는 8개 범주 32개 변종을 담았는데, 그중 방해·은닉·강제 같은 범주는 마찰·디폴트·프레이밍과 상당 부분 겹칩니다(긴급성·희소성처럼 겹치지 않는 것도 있습니다). 세일러가 2018년 넛지의 악성 역상으로 이름 붙인 'sludge', 즉 자기 이익을 위해 일부러 심는 마찰이 이 계열입니다. 다만 산업 A/B가 학계 생존 효과를 재검증한다는 것은 직접 측정이 아니라 카탈로그와 사례에서 끌어낸 추론이므로, 이걸 디폴트의 강건성 근거로 쓰지는 않습니다. 여기서 확실한 것은 강건성이 아니라 책임의 비대칭입니다. 공공 넛지유닛은 결과를 공개하고 신중히 움직이는데, 사적 플랫폼은 같은 계열 효과를 조용히, 대규모로 배치합니다. 재현위기가 학계를 정리하는 사이, 살아남은 선택설계는 사적 추출 쪽에 먼저 규모화됐습니다. 이 구조는 어젯밤 그 한 시간은 누가 골랐나와 무엇을 원할지, 나는 누구에게 넘겼나에서 더 큰 규모로 반복됩니다.

무엇이 남고 무엇이 후퇴하는가

정책 재검증의 물결은 이제 시작입니다. 예산에 몰린 정부가 증거를 다시 요구하고 조작 사건의 제도적 정산이 겹치는 2026~2029년, 방향은 이렇게 갈릴 겁니다. 반복 배치와 자연실험과 행정데이터로 검증된 배치형 개입, 즉 디폴트·자동가입·세금고지 사회규범 프레이밍은 규제와 기본설정으로 편입되고 확대됩니다. 적대적 재현을 통과한 앵커링·프레이밍은 그 자체가 규제 조항이 되기보다, 이런 배치형 설계에 원용되는 재료로 남습니다. 반면 실험실에서 나온 단일 랩·반직관의 '영리한' 넛지, 대부분 사회심리학에 뿌리를 둔 개입은 정책 툴킷에서 조용히 후퇴합니다.

이 전망은 확인 가능하게 틀릴 수 있어야 합니다. 주된 판정 기준은 실측 신호 둘입니다. 하나, 규제와 지침에 편입되는 개별 목록에서 자동가입 같은 배치형 넛지는 확대되고, 정부가 채택했던 취약 넛지(서명 정직성이나 현저성 조작류)는 삭제되거나 경고가 붙는가. 둘, 넛지의 통용 효과크기가 학술지 인용치(8.7%포인트)에서 현장 실측치(1.4%포인트) 쪽으로 정렬되는가. 이 두 신호가 반대로 가면 논지는 틀립니다. 보조 기준으로 2029년 시한도 둡니다. 프라이밍류 넛지가 그때까지 대형 규제에 편입되고도 철회·경고되지 않으면 논지에 흠이 갑니다. 다만 이 조건은 비중을 낮게 둡니다. 프라이밍류는 애초에 정책에 배치되는 일이 드물어 "거의 항상 확증"되는, 디폴트 재현실패 조건과 마찬가지의 준-동어반복이기 때문입니다. 같은 잣대를 양쪽에 똑같이 댑니다.

당장 쓸 판독기도 하나 드립니다. 어떤 행동과학 발견이나 넛지, 자기계발 팁을 만나면 먼저 계통을 보십시오. 전망이론·앵커링·프레이밍처럼 판단과 선택의 체계적 이탈에 뿌리를 둔 것인지, 아니면 프라이밍·자세·표정 같은 사회심리 점화인지. 그다음 형질 넷을 보십시오. 표본이 큰가, 단일 랩인가 여러 랩인가, 사전등록됐는가, 얼마나 반직관적인가(놀라울수록 의심). 마지막으로 기록을 확인하십시오. 어떤 검증을 통과했는가. 사회심리 점화를 무너뜨린 적대적 다연구실 재현인가, 아니면 배치·자연실험 같은 비적대적 검증인가.

재현위기는 "인간은 합리적이었다"도 "행동경제학은 사기였다"도 판결하지 않았습니다. 행동경제학은 무너진 게 아니라 감사로 분류되고 재조정됐습니다. 앵커링과 프레이밍은 같은 실험 안에서 사회심리 점화를 죽인 바로 그 감사를 통과했고, 손실회피와 넛지의 크기는 깎였으며, 무너진 간판들은 대부분 옆자리 사회심리학이었습니다. 다만 그 감사가 정리한 것은 학계였습니다. 재현되지 않거나 부풀려진 효과 위에 세운 정책의 책임은 연구자에서 메타분석으로, 넛지유닛에서 규제로 이어지는 위임의 사슬을 따라 흩어지고, 근거가 몇 년 뒤 조용히 철회될 때 그 비용은 이미 디폴트로 편입된 시민에게 남습니다. 무너진 것을 골라내는 일보다 어려운 건, 그 사이 사적 추출 쪽에 먼저 규모화된 선택설계를 누가 살피느냐입니다.

출처

주요 원출처를 본문 흐름 순으로 공개합니다. 1차 권위(원논문·재현 프로젝트·기관 리포트)를 우선 표기하며, 넛지 메타 논쟁(Mertens ↔ Maier ↔ Szaszi)과 부존효과 실재성 논쟁(KKT ↔ Plott·Zeiler)은 미결이라 양측을 병기합니다.
행동경제학 canon (정의·정초 문헌)
Kahneman & Tversky — 전망이론(준거점·가치함수·손실회피·결정가중치), Econometrica 47(2):263–291 (1979): https://courses.washington.edu/pbafhall/514/514%20Readings/ProspectTheory.pdf
Tversky & Kahneman — 누적전망이론(손실회피 계수 λ≈2.25의 원출처, 1979년 원논문 값이 아님), Journal of Risk and Uncertainty 5:297–323 (1992): https://link.springer.com/article/10.1007/BF00122574
Tversky & Kahneman — 프레이밍/선호역전(아시아병 문제, 생존 72% vs 사망 22%), Science 211(4481):453–458 (1981): https://sites.stat.columbia.edu/gelman/surveys.course/TverskyKahneman1981.pdf
Tversky & Kahneman — 판단 휴리스틱과 편향(앵커링·룰렛 10/65→25%/45%), Science 185(4157):1124–1131 (1974): https://www.cs.tufts.edu/comp/150AIH/pdf/TverskyKa74.pdf
Richard H. Thaler — 심적회계(정식화 1985 + 종합 1999), Marketing Science 4(3):199–214 (1985): https://econpapers.repec.org/RePEc:inm:ormksc:v:4:y:1985:i:3:p:199-214 · 종합: Journal of Behavioral Decision Making 12(3):183–206 (1999)
Kahneman, Knetsch & Thaler — 부존효과 정본 실험(머그컵 WTA≈2×WTP·코즈정리 위배), Journal of Political Economy 98(6):1325–1348 (1990): https://ideas.repec.org/a/ucp/jpolec/v98y1990i6p1325-48.html
David Laibson — 현재편향·준쌍곡(β-δ) 할인·자기구속, Quarterly Journal of Economics 112(2):443–478 (1997): https://academic.oup.com/qje/article-abstract/112/2/443/1870925
Thaler & Sunstein — Nudge(넛지·선택설계 원 정의, p.6), Yale University Press (2008); 용어 정초 논문: 'Libertarian Paternalism', American Economic Review 93(2):175–179 (2003)
과학방법론 (재현·open science)
Open Science Collaboration — 심리학 100편 고출력 재현(원 유의 97% → 재현 유의 36%), Science 349(6251):aac4716 (2015): https://www.science.org/doi/10.1126/science.aac4716
Simmons, Nelson & Simonsohn — "False-Positive Psychology"(연구자 자유도 4종 병용 시 위양성률 60.7%), Psychological Science 22(11):1359–1366 (2011): https://journals.sagepub.com/doi/10.1177/0956797611417632
Chambers — Registered Reports 저널 첫 도입(사전등록·결과무관 게재보장), Cortex 49(3):609–610 (2013): https://pubmed.ncbi.nlm.nih.gov/23347556/
Center for Open Science — Registered Reports(현재 300+ 저널 채택): https://www.cos.io/initiatives/registered-reports
Daniel Kahneman — 공개서한 "I see a train wreck looming"(게재: Nature News) (2012-09-26): https://www.nature.com/news/polopoly_fs/7.6716.1349271308!/suppinfoFile/Kahneman%20Letter.pdf
Daniel Kahneman — 자기교정 댓글("저검정력 연구에 너무 큰 믿음을 뒀다"), Replicability-Index 블로그 본인 명의 (2017-02-14): https://replicationindex.com/2017/02/02/reconstruction-of-a-train-wreck-how-priming-research-went-of-the-rails/comment-page-1/#comment-1454
핵심 이론의 감사 통과 (적대적 다연구실 재현 · Many Labs)
Klein et al. — Many Labs 1(13개 효과·36개 표본·11개국·6,344명 사전등록 재현; 앵커링·프레이밍·매몰비용은 강건 재현, 국기·화폐 점화는 소멸), Social Psychology 45(3):142–152 (2014): https://econtent.hogrefe.com/doi/10.1027/1864-9335/a000178
Jacowitz & Kahneman — Many Labs가 재현한 네 문항 앵커링 판본의 원본, Personality and Social Psychology Bulletin 21(11):1161–1166 (1995)
핵심 이론의 재조정 논쟁 (폐기 아님)
Gal & Rucker — 손실회피는 '부재'가 아니라 '과일반화 축소', Journal of Consumer Psychology 28(3):497–516 (2018): https://doi.org/10.1002/jcpy.1047
Mrkva, Johnson, Gächter & Herrmann — 손실회피 강건성 반박(5표본 17,720명·불소멸), Journal of Consumer Psychology 30(3):407–428 (2020): https://myscp.onlinelibrary.wiley.com/doi/abs/10.1002/jcpy.1156
Plott & Zeiler — 부존효과 실재성 논쟁(통제절차하 WTA–WTP 격차 소멸·절차 인공물 가능성), American Economic Review 95(3):530–545 (2005): https://www.aeaweb.org/articles?id=10.1257%2F0002828054201387
Li & Feldman — 심적회계 사전등록 재현(RR, N=1,007·Thaler 17문제 중 11지지), Royal Society Open Science 12(9):250979 (2025): https://pmc.ncbi.nlm.nih.gov/articles/PMC12445221/
살아남은 효과 (배치·자연실험·행정데이터)
Madrian & Shea — 401(k) 자동가입 자연실험(가입률 37%→86%), Quarterly Journal of Economics 116(4):1149–1187 (2001; NBER w7682): https://www.nber.org/papers/w7682
Chetty, Friedman, Leth-Petersen, Nielsen & Olsen — 덴마크 저축 행정데이터(~4,100만 관측·세제보조는 순저축 거의 못 늘림·자동 기여만 효과), Quarterly Journal of Economics 129(3):1141–1219 (2014; NBER w18565): https://www.nber.org/papers/w18565
Johnson & Goldstein — 장기기증 디폴트 실험(실험실 온라인, opt-in 42% vs opt-out 82%), Science 302(5649):1338–1339 (2003): https://www.science.org/doi/10.1126/science.1091721 · 저자 배포본: https://www.dangoldstein.com/papers/DefaultsScience.pdf
UK DWP — "Ten years of Automatic Enrolment in Workplace Pensions"(10년 1,070만+ 신규 편입·탈퇴율 8~10%) (2022-10-26): https://www.gov.uk/government/statistics/ten-years-of-automatic-enrolment-in-workplace-pensions/ten-years-of-automatic-enrolment-in-workplace-pensions-statistics-and-analysis
넛지 메타 논쟁 (미결·양측 병기)
Mertens, Herberz, Hahnel & Brosch — 넛지 메타분석(보정 후 d=0.43), PNAS 119(1):e2107346118 (2022): https://www.pnas.org/doi/10.1073/pnas.2107346118
Maier, Bartoš, Stanley, Shanks, Harris & Wagenmakers — 출판편향 보정 시 넛지 효과 소멸(사후평균 d=0.04·"no evidence remains"), PNAS 119(31):e2200300119 (2022): https://www.pnas.org/doi/10.1073/pnas.2200300119
Szaszi et al. — 대안 보정·이질성 비판("implausibly large"·0 근처), PNAS 119(31):e2200732119 (2022): https://www.pnas.org/doi/10.1073/pnas.2200732119
DellaVigna & Linos — '넛지 갭'(126 RCT·약 2,300만명·현장 1.4%p vs 학술지 8.7%p·효과차의 약 70%가 선택적 출판), Econometrica 90(1):81–116 (2022): https://www.hks.harvard.edu/publications/rcts-scale-comprehensive-evidence-two-nudge-units
무너진 효과 (적대적 다연구실 재현) — 대부분 사회심리학 계통
Hagger et al. — 자아고갈 다연구실 사전등록 재현(RRR, 23개 랩·N=2,141·재현 d=0.04 vs 원 메타 d=0.62), Perspectives on Psychological Science 11(4):546–573 (2016): https://journals.sagepub.com/doi/10.1177/1745691616652873
Wagenmakers et al. — 표정 피드백 재현(RRR, 17개 랩·N=1,894·효과 사실상 0), Perspectives on Psychological Science 11(6):917–928 (2016): https://journals.sagepub.com/doi/10.1177/1745691616674458
Bargh, Chen & Burrows — 노인 프라이밍 원논문, Journal of Personality and Social Psychology 71(2):230–244 (1996): https://web.mit.edu/curhan/www/docs/Articles/15341_Readings/Social_Cognition/Bargh_et_al_1996_Automaticity_of_social_behavior.pdf
Doyen, Klein, Pichon & Cleeremans — 프라이밍 재현 실패·'실험자 기대'가 결과 유발, PLOS ONE 7(1):e29081 (2012): https://journals.plos.org/plosone/article?id=10.1371/journal.pone.0029081
Carney, Cuddy & Yap — 파워포즈 원논문(N=42), Psychological Science 21(10):1363–1368 (2010): https://journals.sagepub.com/doi/10.1177/0956797610383437
Ranehill et al. — 파워포즈 대규모 재현 실패(N=200), Psychological Science 26(5):653–656 (2015): https://journals.sagepub.com/doi/abs/10.1177/0956797614553946
Dana R. Carney — 입장 철회 성명 'My position on "Power Poses"', UC Berkeley Haas (2016): https://faculty.haas.berkeley.edu/dana_carney/pdf_my%20position%20on%20power%20poses.pdf
사기·데이터무결성 (재현 축과 별개)
Shu, Mazar, Gino, Ariely & Bazerman — 서명 위치–정직성 실험(Study 3 현장 N=13,488), PNAS 109:15197–15200 (2012; 2021 철회): https://www.pnas.org/doi/10.1073/pnas.1209746109
Data Colada #98 — Study 3 데이터 조작 증거 제시 (2021-08-17): https://datacolada.org/98
PNAS — Shu et al. 2012 철회 공지, PNAS 118(38) (2021-09): https://www.pnas.org/doi/10.1073/pnas.2115397118
Kristal, Whillans, Bazerman, Gino, Shu, Mazar & Ariely — 원저자들의 자기재현 실패(N=5,794, 조작 발각 前), PNAS (2020): https://www.pnas.org/doi/abs/10.1073/pnas.1911695117
Data Colada #109–#112 'Data Falsificada' — 프란체스카 지노 공저 논문 조작 의혹 (2023-06): https://datacolada.org/109
The Harvard Crimson — 하버드, 지노 정년(테뉴어) 박탈 (2025-05-27): https://www.thecrimson.com/article/2025/5/27/gino-tenure-revoked/
정책기구·현장 실측
Behavioural Insights Team — 'Our History'(2010 내각부 내 세계 최초 정부 넛지유닛): https://www.bi.team/about-us/our-history/
Haynes, Service, Goldacre & Torgerson — 'Test, Learn, Adapt'(무작위 대조시험을 정책 표준으로), Cabinet Office/BIT (2012): https://www.gov.uk/government/publications/test-learn-adapt-developing-public-policy-with-randomised-controlled-trials
Hallsworth, List, Metcalfe & Vlaev — HMRC 사회규범 세금독촉 RCT(최고 메시지 납부율 +5.1%p), Journal of Public Economics 148:14–31 (2017): https://doi.org/10.1016/j.jpubeco.2017.02.003
Office of Evaluation Sciences (GSA) — 미 연방 평가과학국(2015 설립·120+ 현장 평가): https://oes.gsa.gov/
OECD Observatory of Public Sector Innovation (OPSI) — 정부 내 행동통찰 유닛 글로벌 매핑(63개국 300+ 기관·200+ 유닛; 정량치는 참고 수준): https://oecd-opsi.org/blog/mapping-behavioural-insights/
사악한 쌍둥이 (다크패턴·sludge)
US FTC — "Bringing Dark Patterns to Light"(8범주 32변종 카탈로그) (2022-09): https://www.ftc.gov/reports/bringing-dark-patterns-light
Richard H. Thaler — "Nudge, not sludge"('sludge' 개념 창안), Science 361(6401):431 (2018-08-03): https://www.science.org/doi/10.1126/science.aau9241
Kohavi & Thomke — 산업적 A/B 테스트 규모(대형 플랫폼 각 연 1만+ 온라인 통제실험), Harvard Business Review (2017-09): https://hbr.org/2017/09/the-surprising-power-of-online-experiments
제도적 승리 (노벨상)
카너먼 — 2002 노벨경제학상('심리학 연구의 통찰을 경제과학에 통합'): https://www.nobelprize.org/prizes/economic-sciences/2002/kahneman/facts/
세일러 — 2017 노벨경제학상('행동경제학에 대한 기여'): https://www.nobelprize.org/prizes/economic-sciences/2017/thaler/facts/