hertzalpha 님의 블로그

그녀가 사라진 여름

hertzalpha — Sun, 7 Jun 2026 13:51:41 +0900

1장. 비 내리는 수요일

비가 오면 민우는 늘 같은 냄새를 맡았다.

젖은 아스팔트, 오래된 종이, 싸구려 커피, 그리고 한 번도 제대로 불러본 적 없는 이름 하나.

다서.

그 이름은 그의 기억 속에서 언제나 젖어 있었다. 마치 오래된 필름에 묻은 물방울처럼, 손끝으로 닦으려 할수록 더 번져갔다.

2026년 여름, 민우는 아직 취업 준비생이었다. 서른이 넘도록 합격 통보보다 불합격 메일을 더 많이 받았고, 방 한쪽에는 입지도 않는 정장과 오래된 문제집들이 먼지를 먹고 있었다. 그날도 면접에서 떨어진 뒤였다. 그는 비를 피해 신촌 뒷골목의 오래된 헌책방으로 들어갔다.

책방은 이상하게 조용했다. 주인은 보이지 않았고, 천장에서는 물방울 떨어지는 소리만 났다.

민우는 별생각 없이 책장 사이를 걷다가 구석에 쌓인 상자 하나를 발견했다. 상자 위에는 빛바랜 종이가 붙어 있었다.

개당 천 원.

그는 이유 없이 그 안을 뒤졌다. 낡은 문고본, 누군가의 영어 단어장, 오래된 사진첩 사이에서 검은색 수첩 하나가 손에 걸렸다.

수첩 첫 장에는 날짜 하나가 적혀 있었다.

2004년 8월 17일.

그리고 그 아래, 짧은 문장.

다서가 사라졌다.

민우는 숨을 멈췄다.

손끝이 차가워졌다. 분명 처음 보는 수첩이었다. 그런데 종이의 감촉, 잉크의 번짐, 오른쪽 아래를 접어두는 습관까지 어딘가 익숙했다.

다음 장에는 더 이상한 문장이 있었다.

경찰은 사고라고 말했다.
하지만 그녀는 물을 무서워했다.

민우는 수첩을 덮지 못했다.

마지막 장에는 사진 한 장이 끼워져 있었다.

강가. 여름. 민박집. 불꽃놀이. 웃고 있는 네 사람.

긴 머리의 여자. 다서로 보이는 여자.

그리고 그 옆에서, 스무 살의 민우가 웃고 있었다.

그는 그 사진을 오래 바라보았다. 이상했다. 그는 그 여름을 기억하지 못했다.

아니, 정확히는 기억하고 있었다. 비, 젖은 길, 회색 하늘, 북한강이라는 이름.

하지만 다서만 없었다.

그날 밤, 민우는 잠들지 못했다. 새벽 두 시가 조금 넘었을 때 휴대폰이 울렸다.

발신자 표시 없음.

그는 전화를 받지 않았다.

곧바로 문자가 왔다.

아직도 그날을 기억하지 못해?

잠시 뒤, 두 번째 문자가 도착했다.

다서는 살아 있어.

2장. 잃어버린 여름

민우는 다음 날부터 자신의 과거를 뒤지기 시작했다.

오래된 싸이월드 백업 파일, 대학 동아리 카페, 폐쇄된 게시판의 흔적, 외장하드 속 흐릿한 사진들. 그러나 이상하게도 2004년 8월의 기록만 군데군데 비어 있었다.

그해 여름, 그는 대학 사진동아리 사람들과 북한강 근처로 MT를 갔다. 함께 간 사람은 민우, 준모, 혜린, 그리고 다서.

민우는 준모를 찾아갔다.

스무 살 이후 거의 연락하지 않았던 친구였다. 준모는 이제 작은 인테리어 회사를 운영하고 있었다. 깔끔한 셔츠, 값비싼 시계, 미소 없는 얼굴. 민우가 수첩과 사진을 꺼내자 준모의 얼굴에서 피가 빠졌다.

“이걸 어디서 났어?”

“헌책방에서.”

“버려.”

준모는 즉시 말했다.

“이건 네가 다시 볼 물건이 아니야.”

민우는 준모를 가만히 보았다.

“다서 기억나?”

그 이름이 나오자 준모의 손이 멈췄다. 커피잔 위로 손가락이 떨렸다.

“기억나지.”

“그런데 왜 아무도 말 안 했어?”

준모는 한참 동안 대답하지 않았다. 창밖에서는 여름비가 유리창을 두드리고 있었다.

“너 정말 기억 안 나?”

“뭘.”

“다서가 아니라 네가 문제였어.”

민우는 웃을 뻔했다. 너무 어이없는 말이었다.

“내가?”

준모는 고개를 숙였다.

“그날 이후 너는 네가 기억하고 싶은 것만 기억했어.”

“그게 무슨 뜻이야?”

“다서는 사라진 게 아니었어.”

민우가 몸을 앞으로 기울였다.

“그럼?”

준모는 아주 낮은 목소리로 말했다.

“우리가 사라지게 만든 거야.”

그 순간 민우의 휴대폰이 다시 울렸다.

발신자 표시 없음.

이번에는 준모가 먼저 화면을 보았다. 그의 얼굴이 더 창백해졌다.

“받지 마.”

하지만 민우는 전화를 받았다.

수화기 너머에는 빗소리 같은 침묵이 있었다.

그리고 여자의 목소리.

“준모는 아직도 거짓말을 잘하네.”

민우는 얼어붙었다.

그 목소리를 기억하지 못했다.

그런데 가슴 한가운데가 아팠다.

3장. 다서

민우는 수첩을 다시 읽었다.

처음에는 단순한 기록처럼 보였던 문장들이, 읽을수록 고백처럼 느껴졌다.

다서는 늘 사람들을 관찰했다.
다서는 사진보다 기록을 믿었다.
다서는 웃을 때 먼저 눈을 피했다.
다서는 거짓말을 싫어했다.
다서는 물을 무서워했다.

수첩의 글씨는 분명 민우의 것이었다. 그는 인정할 수밖에 없었다. 그 수첩은 자신의 것이었다.

하지만 이상한 점이 있었다.

몇몇 문장은 나중에 덧쓴 것처럼 잉크 색이 달랐다.

다서는 내가 기억하는 사람이 아니다.
그녀는 우리 중 가장 먼저 진실을 알았다.
그래서 사라졌다.

민우는 혜린을 찾아갔다.

혜린은 지방의 한 병원에서 심리상담사로 일하고 있었다. 오랜만에 만난 그녀는 민우를 보자마자 울 것 같은 얼굴을 했다.

“결국 찾았구나.”

“뭘?”

“수첩.”

민우는 테이블 위에 수첩을 올려놓았다.

혜린은 그것을 만지지 않았다. 마치 화상이라도 입을까 두려워하는 사람처럼.

“다서는 어떤 사람이었어?”

민우가 묻자, 혜린은 웃었다. 슬프게.

“너를 좋아했어.”

민우는 대답하지 못했다.

“그리고 너도 다서를 좋아했어.”

비가 유리창 밖으로 흘러내렸다. 민우는 자신의 안쪽 어딘가에서 무너지는 소리를 들었다.

“그런데 왜 기억이 안 나?”

혜린은 손을 모았다.

“그날 밤 네가 다 봤으니까.”

“무슨 말이야?”

“준모가 한 짓.”

혜린은 말끝을 삼켰다.

스무 살 여름, 북한강 근처 민박집. 술에 취한 밤. 불꽃놀이. 어두운 강변. 준모는 다서에게 집착했다. 다서는 그걸 거절했다. 그리고 준모는 다서가 찍어둔 사진 한 장을 빼앗으려 했다.

“무슨 사진?”

“그 애가 우연히 찍은 거.”

혜린의 목소리가 떨렸다.

“강가에서 벌어진 사고. 아니, 사고처럼 꾸며진 일.”

민우는 머리가 아파왔다.

“누가 죽었어?”

혜린은 그를 보았다.

“네가 아직 거기까지 기억 못 하는구나.”

그날 밤, 민우는 꿈을 꾸었다.

강가였다. 불꽃이 터지고 있었다. 누군가 울고 있었다. 다서가 민우의 손목을 잡고 말했다.

“기억해. 네가 잊으면 나는 진짜 없어져.”

그리고 꿈속의 민우는 대답했다.

“내가 널 지켜줄게.”

하지만 다음 장면에서 그는 도망치고 있었다.

4장. 그날 밤

민우는 북한강으로 갔다.

수첩의 마지막 페이지에는 낡은 주소가 적혀 있었다. 강변 근처의 폐업한 민박집. 지금은 아무도 쓰지 않는 건물이었다.

비가 내리고 있었다. 22년 전처럼.

민박집은 무너질 듯 낡아 있었다. 창문은 깨져 있었고, 마당에는 잡초가 허리까지 자라 있었다. 민우는 손전등을 켜고 안으로 들어갔다.

거실 벽에는 오래된 물자국이 남아 있었다. 그는 이상하게도 그 물자국의 모양을 기억했다.

그때였다.

2층에서 발소리가 들렸다.

민우는 숨을 죽였다.

“민우야.”

여자의 목소리.

그는 계단 아래에서 굳었다.

“다서?”

대답은 없었다.

민우는 천천히 올라갔다. 2층 방 끝, 창문이 강 쪽으로 난 작은 방. 그곳에는 오래된 사진 인화지가 흩어져 있었다.

그중 한 장을 집어 들었을 때, 기억이 밀려왔다.

2004년 8월 17일 밤.

준모는 다서의 카메라를 빼앗으려 했다. 다서는 끝까지 놓지 않았다. 실랑이 끝에 카메라가 바닥에 떨어졌고, 필름통이 굴러갔다.

다서가 말했다.

“민우야, 봤지?”

민우는 봤다.

강가에서 준모가 누군가를 밀치는 장면. 물소리. 비명. 검은 강.

죽은 사람은 동아리 선배 강우였다. 모두가 술에 취해 있었다고 했다. 발을 헛디뎌 빠진 사고라고 했다.

하지만 다서는 사진을 찍었다.

준모는 다서에게 달려들었다. 민우는 막으려 했다. 몸싸움이 벌어졌다. 누군가 넘어졌다.

그리고 다서가 사라졌다.

강으로 떨어졌다고 모두가 생각했다.

하지만 민우는 이제 기억했다.

다서는 강으로 떨어지지 않았다.

그녀는 민우를 보고 있었다. 피가 흐르는 입술로, 아주 조용히.

“내가 없어져야 네가 살아.”

그녀는 그렇게 말했다.

그리고 어둠 속으로 걸어갔다.

그때 뒤에서 인기척이 났다.

준모였다.

그는 오래된 우비를 입고 있었다. 손에는 손전등과 작은 칼이 들려 있었다.

“여기까지 오지 말았어야지.”

민우는 사진을 움켜쥐었다.

“다서 살아 있어?”

준모는 한숨을 쉬었다.

“그걸 아직도 믿고 싶어?”

“네가 보낸 문자야?”

준모는 피식 웃었다.

“아니.”

그 순간, 창밖에서 플래시가 터졌다.

한 번.

두 번.

세 번.

누군가 밖에서 사진을 찍고 있었다.

준모의 얼굴이 일그러졌다.

“안 돼.”

그는 창가로 달려갔다.

그 아래, 비 속에 한 여자가 서 있었다.

긴 머리. 검은 우산. 너무 멀어 얼굴은 보이지 않았다.

민우는 심장이 멎는 줄 알았다.

“다서야?”

여자는 대답하지 않았다.

다만 천천히 고개를 들었다.

5장. 살아 있는 사람

준모는 계단을 뛰어 내려갔다. 민우도 뒤따랐다.

마당에는 아무도 없었다. 대신 젖은 흙 위에 봉투 하나가 놓여 있었다. 봉투 안에는 필름과 쪽지가 들어 있었다.

기억은 죄가 아니다.
찾지 말고, 말해.

민우는 경찰서로 갔다.

처음에는 아무도 그의 말을 믿지 않았다. 22년 전 사고, 사라진 여자, 갑자기 나타난 필름. 모든 것이 너무 늦었다. 그러나 필름 속에는 분명한 장면이 있었다.

강우가 강으로 밀려나는 순간.

준모의 얼굴.

그리고 그 장면을 보고 있는 스무 살의 민우.

준모는 도주하다 붙잡혔다. 그는 끝까지 말했다.

“다서는 죽었어. 민우가 그렇게 믿고 싶지 않은 것뿐이야.”

하지만 경찰 기록은 이상했다.

다서의 실종 신고는 없었다.

가족 등록도 불분명했다.

학교 기록에는 그녀의 이름이 없었다.

사진동아리 명단에도 다서라는 이름은 없었다.

민우는 경찰서 복도에서 혜린을 붙잡고 물었다.

“다서가 누구야?”

혜린은 대답하지 못했다.

“우리가 같이 봤잖아. 같이 있었잖아.”

혜린은 눈을 감았다.

“있었어.”

“그런데 왜 기록이 없어?”

“그 애가 원했으니까.”

“뭘?”

“없는 사람이 되는 것.”

혜린은 조용히 말했다.

다서는 가정폭력에서 도망친 아이였다. 주민등록도, 학교도, 집도 온전하지 않았다. 강우는 그런 다서를 숨겨주고 있었다. 준모는 그걸 알게 됐고, 강우를 협박했다. 강우가 맞서자, 그날 밤 일이 벌어졌다.

다서는 모든 걸 찍었다.

그리고 민우에게 필름을 맡기려 했다.

하지만 민우는 두려웠다. 준모가 협박했고, 혜린은 울었고, 경찰은 사고라고 했다. 민우는 결국 아무 말도 하지 못했다.

그 침묵 속에서 다서는 사라졌다.

“그 애는 네가 자기를 지켜주길 바란 게 아니야.”

혜린이 말했다.

“네가 너 자신을 버리지 않길 바랐어.”

민우는 그날 밤 이후 기억을 잃은 것이 아니었다.

기억을 버린 것이었다.

그래야 살 수 있다고 믿었으니까.

며칠 뒤, 민우는 다시 문자를 받았다.

고마워.

그게 전부였다.

그는 답장을 썼다.

다서야?

전송되지 않았다.

존재하지 않는 번호였다.

6장. 그녀가 사라진 여름

사건은 뒤늦게 기사화되었다.

2004년 북한강 익사 사고 재수사. 유력 용의자 체포. 사라진 목격자. 잃어버린 필름.

사람들은 잠깐 떠들다가 금세 잊었다.

민우는 오래된 수첩을 들고 북한강으로 갔다. 비는 그쳤고, 강은 거짓말처럼 고요했다.

그는 22년 전 민박집이 있던 자리에 섰다.

이제 그곳에는 아무것도 없었다. 건물도, 마당도, 그들이 웃던 여름도.

다만 오래된 나무 벤치 하나가 남아 있었다.

벤치 위에는 봉투가 놓여 있었다.

민우는 한참 동안 움직이지 못했다. 누가 두고 갔는지 알 수 없었다. 그는 봉투를 열었다.

사진 한 장.

2004년 여름.

강가에 앉은 다서가 카메라를 들고 있었다. 사진 속 그녀는 웃지 않았다. 대신 렌즈 너머의 누군가를 조용히 바라보고 있었다.

사진 뒷면에는 짧은 문장이 적혀 있었다.

기억해 줘.

찾지는 말고.

민우는 그 문장을 오래 읽었다.

그때 길 건너 버스정류장에 한 여자가 서 있는 것이 보였다.

긴 머리. 흰 셔츠. 작은 가방.

민우는 숨을 삼켰다.

여자는 고개를 돌려 강을 바라보았다. 옆모습은 흐릿했다. 너무 멀어서, 너무 오래되어서, 민우는 확신할 수 없었다.

버스가 도착했다.

여자는 버스에 올랐다.

민우는 뛰지 않았다. 부르지도 않았다.

버스가 천천히 출발했다. 유리창 너머로 여자의 얼굴이 잠깐 보이는 듯했다.

다서였을까.

아니면, 그가 끝내 놓아주지 못한 스무 살의 여름이었을까.

민우는 주머니에서 수첩을 꺼냈다. 첫 장을 펼쳤다.

2004년 8월 17일.

다서가 사라졌다.

그는 그 아래에 새 문장을 적었다.

2026년 7월.
다서를 다시 만났다.

그리고 잠시 망설인 뒤, 마지막 문장을 덧붙였다.

그리고 처음으로 그 여름을 생각했다.

수첩 속의 나

hertzalpha — Sun, 7 Jun 2026 13:01:12 +0900

수첩 속의 나

1장

비가 내리고 있었다.

창문에 떨어지는 빗소리에 눈이 떴다. 알람이 아니라 비였다. 요즘 나를 깨우는 건 늘 비나 배고픔 같은, 약속도 책임도 없는 것들이었다.

천장 한구석에 번진 누런 물자국을 한참 바라봤다. 지난봄부터 저기 있었는데 집주인에게 말할 기운도 없었다. 시계를 보니 오전 열 시. 일어나야 할 이유도 없고, 더 누워 있어야 할 이유도 없었다.

그게 가장 견디기 힘든 종류의 아침이었다. 늦잠을 자는 것도 아니고 부지런한 것도 아닌, 그냥 시간이 나를 통과해 흘러가는 아침.

취업 준비를 시작한 지 반년이 넘어가고 있었다. 그동안 넣은 자기소개서가 몇 개인지 세는 일도 그만뒀다. 처음에는 떨어질 때마다 술을 마셨고, 나중에는 떨어진 줄도 모르고 지나갔다. 합격 문자는 오지 않았고, 불합격 문자는 대개 오지도 않았다. 회사들은 떨어뜨린 사람에게 굳이 연락하지 않았다. 그게 가장 정확한 평가 같았다. 연락할 가치도 없는 사람.

친구들은 하나둘씩 회사로 들어갔다. 누군가는 대기업, 누군가는 은행, 누군가는 공무원 시험을 준비했다. 한 녀석은 사원증을 목에 걸고 찍은 사진을 단체 대화방에 올렸다. 다들 축하한다고 했다. 나도 했다.

나는 아직 학생도 아니고 직장인도 아니었다. 세상에서 가장 애매한 신분이었다. 어디에 속하느냐는 질문에 한 단어로 답할 수 없는 사람.

창문을 열었다. 젖은 공기가 방 안으로 밀려들어왔다. 흙냄새 같기도 하고 콘크리트 냄새 같기도 한, 도시가 비에 젖을 때만 나는 냄새였다.

괜히 신촌에 가고 싶어졌다.

왜 신촌인지 모르겠다. 그냥 신촌이었다. 대학 시절 거기서 특별한 일이 있었던 것도 아니다. 그런데 이상하게 우울한 날이면 늘 신촌이었다. 마치 그곳에 두고 온 무언가가 있는 사람처럼.

2장

버스 창가에 앉아 비 내리는 거리를 바라보았다.

횡단보도를 건너는 사람들. 우산을 같이 쓰는 연인들. 혼자 이어폰을 꽂고 걷는 학생들. 모두 자기 삶을 살고 있었다. 어디론가 향하고 있었고, 그 어디가 어디인지 아는 얼굴들이었다.

창문에 비친 내 얼굴을 바라봤다. 못생기지는 않았다. 잘생긴 것도 아니다. 키도 크지 않다. 학교는 괜찮은 곳을 나왔다. 취직도 언젠가는 하겠지. 결혼도 할 수 있을 것이다.

문제는 언제나 그 중간이었다. 모든 게 '괜찮은 정도'이고 '언젠가는'이었다. 나는 어디서나 평균이었고, 평균이라는 건 결국 누구의 기억에도 오래 남지 않는다는 뜻이었다.

어떻게 살아야 하는지. 어떤 사람이 되어야 하는지. 그게 보이지 않았다. 미래를 떠올리면 안개 낀 도로 같았다. 분명 길은 이어져 있는데, 그 끝에 무엇이 있는지 한 치도 보이지 않는.

최근 소개받은 미영 생각이 났다. 예쁜 여자였다. 착하고 말도 잘 통했다. 그런데 이상하게 가까워지지 않았다. 좋아하는 것 같다가도 아닌 것 같고, 관심 있는 것 같다가도 아닌 것 같았다.

며칠 전 같이 영화를 봤다. 어두운 상영관에서 두 시간 동안 그녀의 손을 잡을지 말지만 고민하다가 결국 잡지 못했다. 영화가 무슨 내용이었는지는 기억도 나지 않는다.

사실 익숙한 감정이었다. 나는 늘 그런 위치였다. 누군가에게 강하게 선택받아 본 적이 없었다. 미지근하게 좋게 여겨졌고, 미지근하게 잊혔다.

버스는 신촌역에 도착했다. 비는 더 굵어져 있었다.

3장

예전에 자주 가던 골목 안 카페를 찾아갔다. 그런데 문이 닫혀 있었다. 유리문에 종이 한 장이 붙어 있었다.

그동안 감사했습니다.

잠시 그 앞에 서 있었다.

예전에는 밤새 사람이 가득했던 곳이었다. 친구들과 허세 섞인 철학 이야기를 하고, 좋아하던 여자 이야기를 하고, 세상을 바꿀 것처럼 떠들던 곳. 그때는 우리 중 누구도 자신이 평범한 어른이 되리라고 생각하지 않았다.

이제는 아무도 없었다. 불 꺼진 유리창 안으로 의자들이 거꾸로 테이블 위에 올려져 있었다. 그것이 조금 슬펐다. 슬픔이 어디서 오는지도 모른 채 슬펐다.

근처 다른 카페에 들어갔다. 처음 와보는 곳이었다. 창가 자리에 앉았다. 비가 유리창을 타고 흘러내렸다. 따뜻한 커피를 한 모금 마셨다.

문득 창밖에 누군가 서 있는 것이 보였다.

회색 코트를 입은 남자였다. 우산도 쓰지 않고 건너편 건물 처마 아래 서 있었다. 비에 어깨가 젖고 있었는데도 추워 보이지 않았다. 비가 그를 비껴가는 것처럼도 보였다.

나를 보는 것 같았다. 눈이 마주쳤다고 생각했다. 그런데 다시 보니 고개를 돌렸다.

괜히 신경이 쓰였다. 학과 선배인가. 어디 취업스터디에서 본 사람인가. 아니면 그냥 착각인가. 나는 시선을 돌렸다. 커피를 마시고, 의미 없이 휴대폰을 만지작거렸다. 다시 창밖을 보았을 때 남자는 없었다.

4장

한 시간쯤 지났을까. 화장실에 다녀오는 길이었다.

카페 구석 창가 자리 밑에서 작은 수첩 하나가 보였다. 갈색 가죽 수첩이었다. 모서리가 닳아 가죽이 하얗게 일어나 있었다. 꽤 오래된 물건 같았다. 누가 두고 간 모양이었다.

주인을 찾아주려다가 무심코 펼쳐 보았다.

첫 페이지. 이름은 적혀 있지 않았다. 대신 짧은 문장이 있었다.

2001년 5월.

그리고 다음 장.

오늘도 신촌에 갔다.

나는 멈칫했다. 그러고는 계속 읽기 시작했다. 멈출 수가 없었다.

비가 내렸다.
별 이유 없이 버스를 타고 왔다.
최근 소개받은 미영 생각이 났다.

순간 웃음이 나왔다. 세상에 미영이라는 이름이 얼마나 많은데. 우연이었다. 그저 흔한 이름의 우연.

그런데 다음 문장을 읽는 순간 웃음이 사라졌다.

영화관에서 손도 못 잡았다.

심장이 천천히 뛰기 시작했다. 나도 며칠 전 똑같은 생각을 했었다. 누구에게도 말한 적 없는 생각이었다.

우연일 뿐이라고, 나는 다시 생각했다. 우연이라는 단어를 마음속으로 몇 번이나 굴렸다. 그러나 굴릴수록 그 단어는 점점 더 매끄럽게 빠져나갔다.

다음 장을 넘겼다.

메탈 기타를 배우고 싶다.

소설가가 되고 싶다.
연고전 응원을 가보고 싶다.
이대 축제도 한 번 못 가봤다.

전부 내 안에 있던 것들이었다. 누구에게도 꺼낸 적 없는, 이루지 못한 채 마음 한구석에 쌓아둔 작은 소망들. 어떻게 모르는 사람이 이걸 알지. 어떻게 25년 전 사람이.

나는 수첩을 덮었다. 등 뒤가 서늘해졌다.

천천히 다시 펼쳤다. 이번에는 날짜를 다시 확인했다. 2001년. 정확히 25년 전이었다.

말도 안 되는 일이었다. 하지만 수첩 속의 사람은 나를 알고 있는 것 같았다. 아니. 어쩌면 내가 그 사람을 따라 살고 있는 것 같았다. 정해진 길을, 누가 이미 한 번 걸어본 길을, 나는 그저 두 번째로 걷고 있을 뿐인 것 같았다.

나는 마지막 장으로 넘겼다.

몇 장이 거칠게 찢겨 있었다. 누군가 급히, 혹은 화가 나서 뜯어낸 것처럼.

맨 마지막에 남은 페이지. 거기에는 단 한 문장만 적혀 있었다.

오늘 카페 창가에서 나를 보았다.

심장이 멎는 것 같았다.

밑에 한 줄이 더 이어져 있었다.

그는 내가 젊었을 때와 똑같은 얼굴이었다.

손끝이 떨렸다.

창밖을 바라봤다. 비가 내리고 있었다. 그리고 건너편. 회색 코트를 입은 남자가 다시 서 있었다.

이번에는 분명히 나를 보고 있었다. 고개를 돌리지 않았다. 비 사이로, 흐려진 유리창 너머로, 그는 오직 나만 응시하고 있었다.

5장

나는 벌떡 일어나 카페 밖으로 뛰어나갔다.

비가 얼굴을 때렸다. 차가운 빗줄기가 셔츠 안까지 스몄다. 도로를 건넜다. 신호도 보지 않았다.

하지만 그곳에는 아무도 없었다. 사라진 뒤였다.

주위를 둘러보았다. 골목도, 버스 정류장도, 편의점 앞도. 아무도 없었다. 빗물만 보도 위를 흘러가고 있었다. 마치 처음부터 거기 누구도 서 있지 않았던 것처럼. 그가 서 있던 자리에는 발자국조차 남아 있지 않았다.

나는 한참을 비를 맞으며 서 있었다. 지나가던 사람들이 이상하다는 듯 나를 흘끔거렸다. 그 시선들이 오히려 안심이 됐다. 적어도 나는 누군가에게 보이는 사람이었으니까.

6장

그날 저녁 집에 돌아왔다. 수첩은 가방 안에 그대로 있었다. 꺼내볼 용기가 나지 않았다.

젖은 옷을 갈아입고, 한참을 멍하니 앉아 있다가 미영에게 전화를 걸었다. 누구든 목소리가 듣고 싶었다.

몇 번 신호가 울리고 그녀가 받았다.

"여보세요?"

"응."

"뭐 해?"

"아빠 유품 정리 중."

"유품?"

"응."

그제야 떠올랐다. 며칠 전 그녀의 아버지가 돌아가셨다는 이야기. 나는 위로의 말을 제대로 건넨 적도 없었다.

잠시 침묵이 흘렀다. 그리고 그녀가 말했다.

"아빠가 젊을 때 소설 쓰셨거든."

나는 아무 말도 하지 못했다.

미영은 계속 말했다.

"이상한 수첩도 발견했어."

심장이 내려앉았다.

"무슨 수첩?"

"신촌 이야기가 적혀 있는데."

나는 창밖을 바라보았다. 비는 여전히 내리고 있었다. 멈출 기색이 없었다.

"거기에 이상한 문장이 있어."

"무슨 문장?"

잠시 정적. 수화기 너머로 그녀가 종이 넘기는 소리가 들렸다. 그리고 미영이 천천히 읽었다.

"언젠가 이 수첩을 읽는 청년이 있을 것이다."

창문에 내 모습이 비쳤다. 어둠 속의 얼굴. 그리고 아주 잠깐, 내 뒤에 누군가 서 있는 것 같았다.

회색 코트를 입은 남자.

나는 천천히 뒤를 돌아보았다. 아무도 없었다. 텅 빈 방. 형광등 불빛. 빗소리.

하지만 전화기 너머에서 미영의 목소리가 다시 들렸다.

"이상하지?"

"뭐가?"

"그 문장 아래 이름이 적혀 있어."

나는 아무 말도 하지 못했다. 입안이 말랐다.

"그 이름."

그녀가 말했다.

"네 이름이야."

밖에서는 여전히 비가 내리고 있었다.

나는 수화기를 든 채로, 어두운 창에 비친 내 얼굴을 오래 바라보았다. 그것이 지금의 나인지, 25년 전의 누구인지, 25년 후의 나인지 알 수 없었다.

다만 한 가지는 알 것 같았다. 나는 이미 한 번 살아본 적 있는 삶을, 두 번째로 걷고 있었다. 그리고 언젠가 어느 비 오는 날, 회색 코트를 입고 어느 카페 창가에 서서, 나와 똑같은 얼굴의 청년을 바라보게 되리라는 것을.

비는 그치지 않았다.

폭풍 속의 딜메이커: Chris Ackerman과 TigerRisk 투자 스토리

hertzalpha — Thu, 2 Apr 2026 12:21:53 +0900

폭풍 속의 딜메이커: Chris Ackerman과 TigerRisk 투자 스토리

프롤로그: 시카고의 겨울, 그리고 운명적 만남

2020년 3월, 시카고 루프 지구의 고층 빌딩들이 하나둘 불을 끄기 시작했다. 코로나19라는 보이지 않는 적이 전 세계를 강타하면서, 월스트리트의 심장부마저 멈춰 선 듯했다. 하지만 Flexpoint Ford의 Managing Director Chris Ackerman에게는 이것이 끝이 아니라 시작이었다.

"위기는 곧 기회다." 그가 항상 되뇌던 모건스탠리 시절의 교훈이었다. 15년 전 Flexpoint Ford에 합류했을 때도 마찬가지였다. 2005년, 금융위기를 앞두고 설립된 이 회사는 "남들이 두려워할 때 탐욕스러워지라"는 워런 버핏의 철학을 실천하는 곳이었다.

1장: Flexpoint Ford의 탄생 - 의료와 금융의 교차점에서

혁신의 DNA

2005년, 시카고의 찬바람이 휘몰아치던 어느 겨울날, 몇 명의 야심찬 금융인들이 작은 사무실에 모여 앉았다. 그들의 꿈은 단순했지만 담대했다: 전통적인 사모펀드와는 다른, 진정한 가치창조를 추구하는 회사를 만드는 것.

"우리는 단순히 돈을 벌기 위해 존재하지 않는다. 우리는 세상을 더 나은 곳으로 만들기 위해 존재한다." 창립자들의 이 철학은 회사명 'Flexpoint Ford'에도 담겨있었다. 'Flexible'(유연한)과 'Point'(핵심)의 합성어인 Flexpoint는 변화하는 시장에서 핵심을 꿰뚫어보는 능력을, Ford는 헨리 포드의 혁신 정신을 의미했다.

투자 철학: "Limited Partner First"

Flexpoint Ford의 투자 철학은 명확했다:

Limited Partner First: 투자자 우선주의
섹터 전문화: 헬스케어와 금융서비스 분야에 집중
장기적 가치창조: 단순한 재무적 엔지니어링을 넘어선 진정한 가치 창출

Chris Ackerman이 이 회사에 매력을 느낀 이유도 여기에 있었다. 모건스탠리에서 10년간 투자은행업무를 하며 느낀 것은, 진정한 가치창조는 Excel 시트 위의 숫자가 아니라 사람과 비즈니스 모델의 혁신에서 나온다는 것이었다.

용어 해설

Limited Partner (LP): 사모펀드에 돈을 투자하는 연기금, 대학기금 등의 기관투자자
General Partner (GP): 사모펀드를 운용하는 회사나 개인
재무적 엔지니어링: 회계나 세무 기법을 통해 단기적으로 수익을 늘리는 방법

2장: 사냥꾼의 눈 - TigerRisk를 발견하다

코로나19, 그리고 기회의 문

2020년 3월 15일, 일요일 오후. Chris는 집 서재에서 Bloomberg 터미널을 응시하고 있었다. 붉은색으로 물든 화면이 전 세계 시장의 공포를 말해주고 있었다. 하지만 그의 눈은 다른 곳을 보고 있었다.

"보험과 재보험 섹터... 여기에 답이 있을 거야."

보험업계는 역설적이었다. 코로나19로 인한 손실이 예상되지만, 동시에 리스크에 대한 인식이 높아지면서 장기적으로는 더 큰 기회가 열릴 분야였다. 특히 재보험(Reinsurance) 시장은 흥미로웠다.

용어 해설

재보험: 보험회사가 자신이 인수한 위험의 일부를 다른 보험회사에 재보험해주는 것. 쉽게 말해 "보험의 보험"
재보험 브로커: 보험회사와 재보험회사 사이에서 중개 역할을 하는 전문 회사

전설의 만남

그때 그의 머릿속에 떠오른 것은 몇 년 전 업계 컨퍼런스에서 만났던 한 사람이었다. Rod Fox. TigerRisk의 창립자이자 CEO였다.

"저 사람은 다르다." 당시 Chris의 첫인상이었다.

Rod Fox는 전형적인 보험업계 사람 같지 않았다. 에너지가 넘치고, 기존 관례를 파괴하려는 의지가 강했다. 그는 Benfield Group의 미국 사업을 2000년부터 2005년까지 연매출 1,400만 달러에서 2억 5,000만 달러로 키운 전설적인 인물이었다. 2005년에는 무려 35% 이상의 영업이익률을 달성했다.

더 흥미로운 것은 그의 공동창립자였다. Jim Stanard. RenaissanceRe의 창립자로, 1993년부터 2005년까지 회사 시가총액을 1억 4,100만 달러에서 30억 달러 이상으로 성장시킨 보험업계의 살아있는 전설이었다.

숨겨진 보석의 발견

Chris는 TigerRisk에 대한 자료를 다시 들여다봤다. 2008년 설립된 이 회사는 재보험 브로커 업계에서 독특한 위치를 차지하고 있었다.

업계 구조는 명확했다:

빅 3: Aon, Marsh McClennan의 Guy Carpenter, Willis Re
그 아래: TigerRisk (4위)

하지만 숫자는 TigerRisk의 진짜 가치를 말해주지 못했다. 2020년 기준 연매출 1억 4,500만 달러, 직원 220명. 사업 구성은 재산보험 83%, 손해보험 17%. 겉보기에는 평범해 보이는 숫자들이었다.

진짜 가치는 다른 곳에 있었다. TigerRisk는 단순한 브로커가 아니라 "risk, capital and strategic advisor"였다. 즉, 재보험 중개뿐 아니라 자본시장 자문과 전략 컨설팅까지 제공하는 원스톱 솔루션 업체였다.

용어 해설

Capital Markets: 장기 자금이 거래되는 시장. 주식시장, 채권시장 등
Strategic Advisory: 기업의 전략적 의사결정을 도와주는 컨설팅 서비스

3장: 코로나19 폭풍 속의 딜메이킹

가상 실사의 시대

2020년 4월, Chris는 처음으로 Zoom을 통해 중요한 비즈니스 미팅을 했다. 상대방은 Rod Fox와 Rob Bredahl (TigerRisk의 President)이었다.

"이상하네요. 평소 같으면 스탬포드 사무실로 날아가서 직접 만났을 텐데..." Chris는 화면 속 상대방들을 바라보며 생각했다.

하지만 역설적으로, 가상 회의는 새로운 효율성을 가져다줬다. 이동 시간이 없어지면서 더 자주, 더 깊이 있는 대화가 가능해졌다. Chris는 TigerRisk 팀과 일주일에 3-4번씩 화상회의를 했다.

실사(Due Diligence)의 혁신

전통적인 실사는 현장 방문이 핵심이었다. 하지만 코로나19로 모든 것이 바뀌었다:

가상 오피스 투어: 360도 카메라를 통한 사무실 둘러보기
디지털 데이터룸: 모든 자료를 클라우드에서 검토
화상 경영진 프레젠테이션: 기존의 "식사하며 진짜 이야기 나누기"를 대체

"솔직히 처음에는 걱정했어요." Rod Fox가 어느 날 화상회의에서 털어놨다. "어떻게 화면으로만 신뢰를 쌓겠어요? 하지만 오히려 더 집중된 대화가 가능해졌어요."

용어 해설

실사(Due Diligence): 투자하기 전에 대상 회사의 재무, 법무, 사업 현황 등을 꼼꼼히 조사하는 과정

폭풍 속의 기회

2020년 4월 23일, 투자 발표일. Chris는 사무실에서 혼자 보도자료를 다시 읽어봤다:

"TigerRisk Partners LLC는 Flexpoint Ford LLC와의 전략적 성장 투자 파트너십을 발표한다..."

투자 금액은 공개되지 않았지만, 업계에서는 상당한 규모로 추정되었다. 더 중요한 것은 투자의 타이밍이었다.

"다들 무서워서 집에 숨어있을 때, 우리는 미래에 투자했다." Chris의 소감이었다.

딜의 독특한 구조

이번 투자는 Flexpoint Ford의 전형적인 스타일을 보여줬다:

직원 지분 유지: 기존 직원들이 상당한 지분을 계속 보유
경영진 연속성: Rod Fox와 Rob Bredahl이 기존 역할 유지
성장 중심: 단순한 재무적 투자가 아닌 전략적 성장 파트너십

"우리는 회사를 사들여서 쥐어짜는 식으로 운영하지 않습니다." Chris가 항상 강조하는 Flexpoint Ford의 철학이었다.

4장: 가치창조의 마법

Value Creation 2.0

투자 이후 Chris는 TigerRisk 이사회에 참여하며 직접 가치창조 과정을 관찰했다. 전통적인 사모펀드의 가치창조는 보통 이런 식이었다:

전통적 방식 (Value Creation 1.0):

비용 절감
재무 구조 최적화
운영 효율성 개선

하지만 TigerRisk에서는 완전히 다른 접근을 했다:

혁신적 방식 (Value Creation 2.0):

디지털 플랫폼 구축
데이터 애널리틱스 역량 강화
새로운 비즈니스 모델 개발

인재의 전쟁

투자 이후 가장 큰 변화는 인재 채용의 가속화였다. Chris는 매달 TigerRisk의 인사 보고서를 받아봤다:

2020년 4월: 직원 200명
2021년 3월: 직원 280명
2022년 3월: 직원 300명

거의 50% 증가한 것이다. 하지만 단순히 숫자만 늘어난 게 아니었다.

"우리가 원하는 건 업계 최고의 인재들이에요." Rod Fox의 말이었다.

실제로 TigerRisk는 Aon, Marsh 등 경쟁사에서 시니어 브로커들을 대거 영입했다. 특히 데이터 사이언티스트와 자본시장 전문가들의 영입이 눈에 띄었다.

기술 혁신의 물결

Chris가 가장 인상 깊게 본 것은 TigerRisk의 기술 혁신이었다. 전통적으로 보험 브로커 업계는 관계 중심의 아날로그 비즈니스였다. 하지만 TigerRisk는 달랐다.

혁신 사례들:

AI 기반 리스크 모델링: 기존의 엑셀 기반 분석을 AI로 대체
실시간 시장 데이터 플랫폼: 글로벌 재보험 시장의 실시간 가격 정보 제공
디지털 클라이언트 포털: 고객들이 24/7 자신의 보장 현황과 시장 동향을 확인

"이건 그냥 브로커가 아니야. 핀테크 회사야." Chris가 어느 날 이사회에서 한 말이었다.

5장: 예상치 못한 러브콜

런던에서 온 전화

2022년 2월, Chris는 런던에서 걸려온 전화를 받았다. 상대방은 David Howden, Howden Group의 CEO였다.

"TigerRisk에 관심이 있습니다. 한번 만나서 이야기해볼 수 있을까요?"

Chris는 잠시 멈췄다. Howden Group? 1994년 설립된 영국의 보험 브로커였다. 하지만 단순한 브로커가 아니었다. 직원 소유 구조의 독특한 회사로, 지난 몇 년간 공격적인 M&A를 통해 급성장한 곳이었다.

완벽한 타이밍

Howden의 제안은 시기적으로 완벽했다. 보험 시장은 "Hard Market" 사이클에 진입하고 있었다.

용어 해설

Hard Market: 보험료가 상승하고 보장 조건이 까다로워지는 시장 환경
Soft Market: 반대로 보험료가 하락하고 경쟁이 치열해지는 시장 환경

Hard Market에서는 재보험 브로커들의 역할이 더욱 중요해진다. 제한된 재보험 capacity를 두고 경쟁이 치열해지기 때문이다.

16억 달러의 결정

2022년 6월 9일, 역사적인 발표가 있었다. Howden Group이 TigerRisk를 16억 달러에 인수한다는 것이었다.

Chris는 그날 밤 시카고 사무실에서 혼자 계산기를 두드렸다. 2020년 투자 당시의 밸류에이션 대비 거의 3배 수익이었다. 2년 만에.

"EBITDA 18배 밸류에이션..." Chris는 중얼거렸다. 보험 브로커 M&A 역사상 최고 수준의 가격이었다.

용어 해설

EBITDA: 이자, 세금, 감가상각 전 이익. 기업의 순수한 영업 성과를 나타내는 지표
밸류에이션: 기업 가치 평가

완벽한 엑시트

Flexpoint Ford에게 이번 엑시트는 여러 면에서 완벽했다:

투자 수익률: 2년 만에 거의 3배 수익
타이밍: Hard Market 초입의 최적 시점
전략적 구매자: 단순한 재무적 투자자가 아닌 전략적 인수자

"이런 딜은 10년에 한 번 나올까 말까 해요." Chris가 투자위원회에서 한 말이었다.

6장: 딜의 뒷이야기

Jim Stanard의 마지막 연주

TigerRisk 매각 발표 직후, 71세의 Jim Stanard는 의외의 소식을 전했다. 그가 두 번째 음악 앨범 "Color Outside the Lines"를 발매한다는 것이었다.

"음악은 제 미완의 과제였어요." Stanard는 한 인터뷰에서 말했다. "1960-70년대에 많이 연주했지만, 그 후에는 '다른 일들'로 바빴죠."

그 '다른 일들'이 바로 RenaissanceRe와 TigerRisk였다. 심지어 Peter, Paul and Mary의 Peter Yarrow와도 협업 곡을 녹음했다.

"Jim의 목소리가 저와 딸 Bethany 목소리와 어우러지는 걸 들으니 Peter, Paul and Mary가 생각났어요." Yarrow의 감상이었다.

가상 로드쇼의 성공

코로나19로 인해 이번 매각 과정도 대부분 가상으로 진행되었다. 전통적인 "경영진 프레젠테이션" 대신 Zoom 로드쇼가 열렸다.

"처음에는 걱정했지만, 오히려 더 많은 잠재 구매자들과 만날 수 있었어요." Rod Fox의 말이었다.

가상 환경의 장점들:

글로벌 구매자들과의 쉬운 접촉
더 빈번한 미팅 가능
이동 비용과 시간 절약

직원들의 대박

TigerRisk의 독특한 점 중 하나는 직원 지분 프로그램이었다. 창립 때부터 핵심 직원들에게 지분을 나누어준 것이다.

매각 당시 220명의 직원 중 상당수가 백만장자가 되었다. 특히 초기 핵심 멤버들은 수십억 원의 수익을 올렸다.

"이게 바로 우리가 추구하는 가치창조예요." Chris의 소감이었다. "주주만 돈 버는 게 아니라, 함께 일한 모든 사람이 성과를 나누는 것."

7장: 통합 이후의 세계

Howden Tiger의 탄생

2023년 1월, 공식적으로 통합이 완료되었다. 새로운 이름은 "Howden Tiger."

합쳐진 회사의 스펙:

연간 재보험 브로커 수수료: 4억 달러
직원 수: 450명
사무소: 30개 이상
순위: 세계 4위 글로벌 재보험 브로커

Rod Fox는 Executive Chairman으로, Rob Bredahl은 CEO로 계속 일하게 되었다.

시너지의 실현

통합 후 1년간의 성과는 놀라웠다:

지역적 시너지: Howden의 유럽 네트워크와 TigerRisk의 미국 기반 결합
상품 다양화: 전통적 재보험과 자본시장 솔루션의 융합
기술 혁신: 양사의 디지털 플랫폼 통합

"1+1이 3이 되는 걸 직접 봤어요." Chris가 1년 후 회고한 말이었다.

최대 MGA 플랫폼의 탄생

통합과 함께 "Howden Tiger SabRE"도 론칭되었다. 이는 세계 최대 규모의 MGA(Managing General Agency) 플랫폼으로, 연간 총보험료 60억 달러를 처리한다.

용어 해설

MGA (Managing General Agency): 보험회사를 대신해 보험 상품을 개발하고 판매하는 전문 회사

8장: Chris Ackerman의 성찰

딜메이커의 철학

TigerRisk 딜 완료 후, Chris는 자신만의 투자 철학을 정리했다:

Chris Ackerman의 성공 법칙:

Sector Expertise: 분야별 전문성이 모든 것의 기본
People First: 최고의 인재가 있는 곳에 투자하라
Long-term View: 단기적 수익보다 장기적 가치창조
Crisis = Opportunity: 위기 상황에서 진짜 기회를 찾아라

다음 타겟을 찾아서

TigerRisk 성공 이후, Chris는 다른 유망 타겟들을 물색하기 시작했다. 특히 관심을 보인 분야들:

InsurTech: 보험업계의 디지털 혁신 스타트업들
Benefits Administration: 직원 복리후생 관리 플랫폼
Claims Technology: 보험금 청구 처리 자동화 솔루션

2022년 승진: Managing Partner

TigerRisk 성공을 바탕으로, Chris는 2022년 8월 Flexpoint Ford의 Managing Partner로 승진했다. 회사 창립 17년 만의 첫 번째 Managing Partner 승진이었다.

"Chris는 우리 회사의 문화와 가치를 완벽하게 체현하는 사람입니다." CEO Don Edwards의 평가였다.

9장: 업계에 미친 영향

재보험 브로커 업계의 지각변동

TigerRisk-Howden 딜은 업계 전체에 큰 파장을 일으켰다:

밸류에이션 상승: 다른 브로커들의 기업가치도 덩달아 상승
M&A 활성화: 중소 브로커들의 매각 러시 시작
기술 투자 증가: 디지털 혁신에 대한 투자 확대

사모펀드 업계의 주목

이 딜은 사모펀드 업계에서도 큰 관심을 받았다:

코로나19 시기 성공 사례: 팬데믹 상황에서도 훌륭한 수익 창출
가상 실사의 효과성: 비대면 딜메이킹의 가능성 입증
섹터 전문성의 중요성: 특정 분야 deep dive의 가치 확인

10장: 에필로그 - 그 후의 이야기

Rod Fox의 새로운 도전

TigerRisk 매각 후, Rod Fox는 Howden Tiger의 Executive Chairman으로 활동하면서도 새로운 투자에 나섰다. Jim Stanard와 함께 설립한 Pelican Ventures를 통해 Ariel Re를 인수한 것이다.

"한 번 기업가는 영원한 기업가죠." Fox의 말이었다.

Jim Stanard의 음악 여행

한편 Jim Stanard는 보험업계를 떠나 음악에 전념하고 있다. Ariel Re의 Chairman으로는 활동하지만, 대부분의 시간을 음악 작업에 쏟고 있다.

"음악이 제 미완의 과제였다면, 이제는 완성된 작품을 만들고 있어요." 그의 최근 인터뷰 내용이다.

Chris Ackerman의 다음 챕터

Chris는 Managing Partner가 된 후 Flexpoint Ford의 새로운 비전을 제시했다:

"Flexpoint Ford 3.0":

ESG 중심 투자
디지털 헬스케어 확장
핀테크 생태계 구축

"TigerRisk는 끝이 아니라 시작이었어요. 우리는 더 큰 꿈을 꾸고 있습니다." Chris의 포부다.

딜의 진짜 교훈

TigerRisk 딜이 주는 진짜 교훈은 단순한 투자 수익률을 넘어선다:

사람에 대한 투자: 최고의 인재와 문화가 최고의 수익을 낸다
타이밍의 중요성: 시장의 변곡점을 읽는 능력
섹터 전문성: 해당 분야에 대한 깊은 이해가 필수
장기적 관점: 단기적 이익보다 지속가능한 가치창조
파트너십: 적대적 인수가 아닌 상생의 파트너십

마지막 한마디

2024년 어느 봄날, Chris는 시카고 사무실에서 창밖을 바라보며 생각했다.

"딜메이킹은 숫자 게임이 아니야. 사람과 사람이 만나 더 나은 미래를 만들어가는 이야기지."

TigerRisk 딜로부터 4년이 지난 지금, 그 투자는 여전히 Flexpoint Ford 역사상 최고의 성공 사례 중 하나로 기록되고 있다. 하지만 더 중요한 것은 그 과정에서 배운 교훈들이다.

위기 상황에서도 기회를 찾아내는 혜안, 사람에 대한 믿음, 그리고 장기적 가치창조에 대한 확신. 이것이 바로 Chris Ackerman과 Flexpoint Ford가 보여준 진짜 성공의 비밀이었다.

〈후기〉

이 이야기는 단순한 사모펀드 투자 성공담을 넘어선다. 코로나19라는 전례 없는 위기 상황에서, 전통적인 비즈니스 방식을 뒤바꾼 혁신적 딜메이킹의 사례이다.

가상 실사, 원격 협업, 디지털 트랜스포메이션. 이 모든 것들이 하나의 성공 스토리로 엮어진 것이 바로 TigerRisk 딜이었다. 그리고 그 중심에는 변화를 두려워하지 않고 미래를 향해 과감히 베팅한 사람들이 있었다.

Chris Ackerman의 이야기는 아직 끝나지 않았다. 그는 지금도 다음 TigerRisk를 찾아 헤매고 있을 것이다. 그리고 언젠가 또 다른 놀라운 이야기로 우리를 만날 것이다.

Chapter 12. Task 9 — Causal Game Theory: 다중 에이전트 환경의 균형

hertzalpha — Wed, 1 Apr 2026 17:30:51 +0900

Chapter 12. Task 9 — Causal Game Theory: 다중 에이전트 환경의 균형

"Strategies following counterfactual rationality dominate strategies based on standard game theory."
— Maiti, Jain & Bareinboim (2025)

12.1 문제 정의: 교란된 환경에서의 다중 에이전트 균형

12.1.1 CRL Task 9의 위치

Task 9 (Causal Game Theory). 교란된 환경(confounded environments)에서 다중 에이전트 정책 학습의 균형을 찾아라.

Task 1–8이 단일 에이전트의 인과적 의사결정을 다뤘다면, Task 9는 다중 에이전트가 전략적으로 상호작용하는 환경을 인과적 렌즈로 분석한다.

금융 시장은 본질적으로 다중 에이전트 시스템이다. 기관투자자, 개인투자자, 마켓메이커, 고빈도 트레이더, 중앙은행 등이 각자의 목적함수를 추구하며 전략적으로 상호작용한다. 이 상호작용에는 비관측 교란(사적 정보, 시장 심리, 비공식 커뮤니케이션)이 보편적으로 존재한다.

12.1.2 표준 게임 이론의 한계

Nash 균형의 가정	금융 현실	한계
완전 합리성	행동 편향, 감정, 직관	비합리적 행동 설명 불가
공통 지식	비대칭 정보	사적 정보의 전략적 활용 미모델링
단일 수준 추론	다층적 인과 추론 가능	$\mathcal{L}_1$/$\mathcal{L}_2$/$\mathcal{L}_3$ 구분 없음
비관측 교란 부재	시장 심리, 내부 정보	교란이 균형에 미치는 영향 무시

12.2 Counterfactual Rationality: 이론적 기초

12.2.1 Maiti, Jain & Bareinboim (2025)의 프레임워크

이 연구는 게임 이론의 가장 근본적 개념인 합리성(rationality)을 인과적으로 재정의한다.

핵심 관찰: 인간의 의사결정에서 합리적 행동과 비합리적 행동 사이의 긴장(tension)은 오래된 문제다. 표준 게임 이론(von Neumann-Morgenstern, Nash)은 합리성을 전제하지만, 행동경제학(Kahneman, Thaler)은 체계적 비합리성을 문서화해 왔다. 이 논문은 이 긴장을 인과적 언어로 해소한다.

12.2.2 Pearl 인과 계층에서의 행동 유형

에이전트의 행동을 Pearl Causal Hierarchy (PCH)의 세 수준으로 분류:

$\mathcal{L}_1$ Actions (관측적): 에이전트가 환경을 관측하고, 자연적 성향(natural instinct)에 따라 행동. 비관측 요인 $U$에 의해 결정:

$$X_i \leftarrow f_{X_i}(U_i)$$

금융: 트레이더가 직관/감정에 따라 매매 (비합리적 행동 포함)

$\mathcal{L}_2$ Actions (개입적): 에이전트가 전략적으로 행동을 결정. 자연적 성향을 무시하고 계산된 최적 행동을 수행:

$$do(X_i = x_i^*) \quad \text{where } x_i^* = \arg\max_{x_i} \mathbb{E}[U_i(x_i, x_{-i})]$$

금융: 알고리즘 트레이딩이 계산된 최적 전략을 실행 (Nash 균형에 해당)

$\mathcal{L}_3$ Actions (반사실적): 에이전트가 자연적 성향을 관측하되, 이를 정보로 활용하여 반사실적으로 행동을 조정:

$$X_i = \begin{cases} x_{natural}(U_i) & \text{with some probability} \\ x_{strategic} & \text{otherwise} \end{cases}$$

금융: 트레이더가 자신의 직관($U_i$)을 인지하고, 이를 정보로 활용하여 전략적 결정을 보정

12.2.3 Counterfactual Rationality의 정의

Definition 12.1 (Counterfactual Rationality, Maiti et al., 2025). 에이전트가 자신의 비합리적 성향($U_i$)을 활용하여, 순수 합리적 전략($\mathcal{L}_2$)보다 우수한 결과를 달성할 수 있는 상태.

Theorem 12.1 (Dominance of Counterfactual Strategies). 반사실적 합리성에 기반한 전략은 표준 게임 이론의 전략을 지배(dominate)한다. 즉, $\mathcal{L}_3$ 전략은 $\mathcal{L}_2$ 전략보다 일반적으로 우월하다.

직관: Greedy Casino 예시에서, 순수 무작위화(RCT, $\mathcal{L}_2$)가 자연적 직관($\mathcal{L}_1$)보다 높은 기대 수익을 산출하지만, 반사실적 무작위화($\mathcal{L}_3$)는 자연적 편향을 정보로 활용하여 RCT마저 초과한다.

12.2.4 Counterfactual Nash Equilibrium

Definition 12.2 (Counterfactual Nash Equilibrium). Nash 균형의 개념을 반사실적 행동($\mathcal{L}_3$)으로 확장:

전략 프로파일 $\sigma^{\ast} = (\sigma_1^{\ast}, \ldots, \sigma_n^{\ast})$이 Counterfactual NE이려면, 어떤 에이전트 $i$도 $\sigma_i^{\ast}$에서 반사실적으로 일탈(deviate)하여 이득을 볼 수 없어야 한다.

표준 NE와의 차이: 일탈의 범위가 $\mathcal{L}_2$(개입적 행동)에서 $\mathcal{L}_3$(반사실적 행동)으로 확대된다. 에이전트가 자신의 자연적 성향을 활용하는 반사실적 일탈까지 고려해야 하므로, 균형 조건이 더 강하다.

12.3 Sequential Causal Games

최신 확장(2025-2026)은 순차적 게임으로의 일반화를 연구한다:

12.3.1 Sequential Causal Normal Form Games (S-CNFG)

Definition 12.3 (S-CMAS). Sequential Causal Multi-Agent System:

$$G = \langle \mathcal{M}, N, \mathbf{X}, Y, \preceq, I \rangle$$

$\mathcal{M}$: 기저 SCM
$N$: 에이전트 집합
$\mathbf{X}$: 각 에이전트의 행동 변수
$Y$: 보수(payoff) 변수
$\preceq$: 행동 순서 (Stackelberg 구조)
$I$: 정보 집합

12.3.2 인과적 추론의 전략적 우위와 한계

Sequential 설정에서의 핵심 발견:

Negative Result. 고전적 게임 이론의 균형 개념(Nash, 역진 귀납법)은 인과적 추론 이점과 양립 불가능하다. PCH 계층의 전략적 이점은 합리적 최적 반응(best response)으로부터의 이탈을 요구한다.

함의: 표준 균형 개념으로는 인과적으로 정교한 AI 에이전트의 행동을 예측할 수 없다. 새로운 균형 개념이 필요하다.

12.4 금융 시장의 다중 에이전트 구조

12.4.1 시장 참가자의 인과적 분류

참가자 유형	PCH 수준	행동 특성	비관측 교란
개인투자자	주로 $\mathcal{L}_1$	직관, 감정, 군중심리	심리적 편향, SNS 영향
패시브 펀드	$\mathcal{L}_1$	인덱스 추종, 규칙 기반	자금 유출입 패턴
액티브 펀드매니저	$\mathcal{L}_1 \sim \mathcal{L}_2$	리서치 기반 판단	내부 분석, 확신 수준
퀀트 펀드	$\mathcal{L}_2$	알고리즘 최적화	모델 사양, 리스크 한도
마켓메이커	$\mathcal{L}_2$	유동성 공급, 스프레드 관리	재고 포지션, 정보 흐름
HFT	$\mathcal{L}_2$	초단기 차익	레이턴시 이점, 데이터 접근
CRL 에이전트	$\mathcal{L}_3$	인과적 추론, 반사실 활용	— (비관측 교란을 명시적 처리)

12.4.2 시장 미시구조의 인과적 게임

호가창(LOB) 게임:

마켓메이커와 정보거래자의 상호작용을 Causal Game으로 모델링:

마켓메이커(MM): 호가 설정 ($\delta^{bid}, \delta^{ask}$)
정보거래자(IT): 매매 방향과 크기
비관측 교란: 정보거래자의 사적 정보 $U_{info}$

$$U_{info} \rightarrow A_{IT} \quad (\text{사적 정보가 거래 방향 결정})$$

$$U_{info} \rightarrow P_{future} \quad (\text{사적 정보가 미래 가격에 반영})$$

$$A_{MM}, A_{IT} \rightarrow P_{current} \quad (\text{양측의 행동이 현재 가격 결정})$$

MM의 역선택 문제: IT의 사적 정보($U_{info}$)를 직접 관측할 수 없지만, 주문 흐름 패턴에서 반사실적으로 정보를 추론할 수 있다.

$\mathcal{L}_3$ 전략: "이 주문 흐름이 정보거래자의 것이라면, 만약 다른 호가를 설정했다면 역선택 비용이 어떻게 달라졌을까?" → 반사실적 호가 조정.

12.4.3 교란된 환경에서의 균형 분석

비대칭 정보(asymmetric information)를 비관측 교란으로 형식화:

$$\text{Informed Agent}: U_{info} \rightarrow A_{informed}, \quad U_{info} \rightarrow Y$$

$$\text{Uninformed Agent}: A_{uninformed} \rightarrow Y, \quad U_{info} \not\rightarrow A_{uninformed}$$

비정보 에이전트는 $U_{info}$를 관측할 수 없으므로, 정보 에이전트의 행동 $A_{informed}$로부터 $U_{info}$에 대한 추론을 시도 — 이것이 시장 미시구조 이론의 핵심(Kyle, 1985; Glosten-Milgrom, 1985)이며, 인과적 언어로는 관측($\mathcal{L}_1$) 기반 역추론에 해당한다.

CRL 에이전트는 이를 반사실적($\mathcal{L}_3$) 추론으로 고도화할 수 있다: "만약 정보거래자가 다른 행동을 했다면, 시장 결과가 어떻게 달라졌을까?" → 정보 내용의 더 정확한 추정.

12.5 Multi-Agent RL (MARL)의 인과적 확장

12.5.1 표준 MARL의 한계

Multi-Agent RL은 다중 에이전트 환경의 학습 프레임워크이지만, 인과적 관점에서 근본적 한계가 있다:

다른 에이전트의 비관측 동기: 다른 에이전트의 보상 함수, 전략, 제약이 비관측 교란
전략적 비정상성: 다른 에이전트도 학습하므로 환경이 비정상
균형 선택: 다수의 균형 중 어디로 수렴할지 불확정

12.5.2 Causal MARL 프레임워크

인과적 다중 에이전트 학습의 구성:

Step 1: 다중 에이전트 상호작용의 인과 그래프 구축

각 에이전트 $i$의 행동 $A_i$, 비관측 요인 $U_i$, 공통 상태 $S$, 보수 $Y_i$를 포함하는 DAG.

Step 2: 비관측 교란의 영향 분석

다른 에이전트의 비관측 요인이 내 보수에 미치는 교란 경로 식별.

Step 3: 교란 강건 균형 학습

Ch.4의 Confounding-Robust 접근을 다중 에이전트로 확장: 다른 에이전트의 비관측 동기의 최악 경우에서도 안전한 전략 학습.

Step 4: 반사실적 전략 고도화

자신의 자연적 성향($U_i$)을 정보로 활용하는 $\mathcal{L}_3$ 전략으로 균형을 넘어서는 성과 추구.

12.6 금융 적용

12.6.1 알고리즘 트레이딩의 전략적 상호작용

문제: 다수의 알고리즘 트레이딩 에이전트가 동일 시장에서 경쟁할 때의 균형과 전략.

Crowding 문제: 동일한 팩터/전략을 다수 에이전트가 채택하면 알파가 소멸. 이는 다중 에이전트 게임에서의 혼잡 외부성(congestion externality)이며, 인과적으로:

$$\text{Adoption Rate} \rightarrow \text{Alpha Decay}$$

더 많은 에이전트가 동일 전략을 개입($do$)하면, 그 전략의 인과 효과가 감소한다. 이것은 단순한 상관 분석으로는 포착할 수 없는 인과적 현상이다.

12.6.2 중앙은행과 시장의 게임

중앙은행의 통화정책과 시장 참가자의 상호작용을 인과적 Stackelberg 게임으로:

Leader (중앙은행): 금리/양적완화 결정
Follower (시장): 자산 배분, 가격 결정

비관측 교란: 중앙은행의 내부 경제 전망($U_{CB}$), 시장의 집합적 심리($U_{market}$)

인과적 분석: "중앙은행이 금리를 $do(r)$했을 때, 시장의 반사실적 반응은?" → Forward Guidance의 인과적 효과 추정.

12.6.3 ESG 투자의 게임 이론적 분석

ESG 투자 확산의 다중 에이전트 인과 분석:

ESG 펀드: ESG 스코어에 기반한 투자 ($do(\text{ESG Tilt})$)
전통 펀드: 수익률 극대화
기업: ESG 개선 투자 결정

교란: 진정한 ESG 개선 vs 그린워싱($U_{greenwash}$)

인과적 질문: "ESG 펀드의 자금 유입($do$)이 기업의 실질 ESG 개선에 인과적으로 기여하는가, 아니면 단순히 가격 효과(높은 밸류에이션)만 야기하는가?"

12.7 실습: 다중 에이전트 LOB 시뮬레이션과 인과적 균형 분석

12.7.1 실습 개요

목표: 3종 에이전트(마켓메이커, 모멘텀 트레이더, 밸류 트레이더)가 상호작용하는 LOB 시뮬레이션에서, 비관측 교란(사적 정보)의 존재가 균형 전략에 미치는 영향을 분석.

12.7.2 Python 구현 스케치

import numpy as np

class CausalMultiAgentLOB:
    """인과적 다중 에이전트 LOB 시뮬레이션"""

    def __init__(self, n_agents, agent_types):
        self.agents = self._create_agents(n_agents, agent_types)
        self.orderbook = OrderBook()
        self.causal_graph = self._build_causal_graph()

    def _build_causal_graph(self):
        """다중 에이전트 인과 그래프 구축"""
        # U_info -> InformedTrader.action
        # U_info -> FuturePrice
        # MM.action, IT.action, VT.action -> CurrentPrice
        # CurrentPrice -> NextState
        return {
            'unobserved': ['private_info', 'market_sentiment'],
            'confounding_paths': [
                ('private_info', 'informed_action', 'future_price'),
                ('market_sentiment', 'all_actions', 'volatility')
            ]
        }

    def simulate_episode(self, n_steps=1000):
        """에피소드 시뮬레이션"""
        results = []
        for t in range(n_steps):
            state = self.orderbook.get_state()

            # 각 에이전트의 행동 결정
            actions = {}
            for agent in self.agents:
                if agent.type == 'L3_causal':
                    # 반사실적 전략: 자연적 성향 + 인과적 보정
                    natural_action = agent.natural_tendency(state)
                    causal_correction = agent.counterfactual_reason(
                        state, natural_action, self.causal_graph
                    )
                    actions[agent.id] = causal_correction
                elif agent.type == 'L2_rational':
                    # 개입적 전략: Nash 균형 행동
                    actions[agent.id] = agent.best_response(state)
                else:
                    # 관측적 전략: 직관/규칙 기반
                    actions[agent.id] = agent.heuristic(state)

            # 환경 업데이트
            rewards = self.orderbook.execute(actions)
            results.append({'actions': actions, 'rewards': rewards})

        return results

    def analyze_equilibrium(self, results):
        """균형 분석"""
        # 각 에이전트 유형별 성과
        for agent_type in ['L1', 'L2', 'L3_causal']:
            agents = [a for a in self.agents if a.type == agent_type]
            avg_reward = np.mean([
                r['rewards'][a.id] for r in results for a in agents
            ])
            print(f"{agent_type} 평균 보수: {avg_reward:.4f}")

# 실행
sim = CausalMultiAgentLOB(
    n_agents=10,
    agent_types={
        'market_maker': 3,      # L2 rational
        'momentum_trader': 3,   # L1 heuristic
        'value_trader': 2,      # L1 heuristic
        'causal_agent': 2       # L3 causal
    }
)

results = sim.simulate_episode(n_steps=5000)
sim.analyze_equilibrium(results)

12.7.3 기대 결과

에이전트 유형	PCH 수준	기대 성과 순위	근거
CRL Agent	$\mathcal{L}_3$	1위	비관측 교란의 정보 활용
Market Maker	$\mathcal{L}_2$	2위	스프레드 수익, 최적 반응
Value Trader	$\mathcal{L}_1$	3위	장기 평균회귀의 인과적 기반
Momentum Trader	$\mathcal{L}_1$	4위	비관측 교란에 가장 취약

Theorem 12.1의 예측대로, $\mathcal{L}_3$ 에이전트가 $\mathcal{L}_2$ 에이전트를 지배하는 결과가 기대된다.

12.8 열린 문제와 미래 방향

12.8.1 CRL Task 9의 미해결 과제

과제	현황	난이도
대규모 다중 에이전트 인과 균형	소규모만 해결	높음
동적 인과 구조를 가진 게임	정적 구조만 다룸	높음
에이전트 수가 변하는 게임	고정 수만 가정	중간
불완전 인과 그래프에서의 균형	완전 그래프 가정	높음
반사실적 균형의 계산 효율	이론적 존재만 증명	높음
LLM 에이전트의 인과적 게임	초기 단계	최신

12.8.2 LLM 에이전트와 인과적 게임

최신 연구는 LLM 기반 에이전트의 전략적 추론 능력을 평가하고 있다. LLM이 진정한 인과적 추론($\mathcal{L}_3$)을 수행하는지, 아니면 패턴 매칭($\mathcal{L}_1$)에 그치는지는 열린 질문이다. 금융에서 LLM 에이전트가 다중 에이전트 게임에 참여할 때, 인과적 게임 이론이 이들의 행동을 예측하고 제어하는 프레임워크가 될 수 있다.

핵심 요약 (Key Takeaways)

Causal Game Theory (Maiti, Jain & Bareinboim, 2025)는 합리적·비합리적 행동의 긴장을 인과적 언어로 해소하는 프레임워크다.
Counterfactual Rationality: 에이전트가 비합리적 성향($U_i$)을 정보로 활용하여, 순수 합리적 전략($\mathcal{L}_2$, Nash)보다 우월한 $\mathcal{L}_3$ 전략을 구사할 수 있다.
$\mathcal{L}_3$ 전략이 $\mathcal{L}_2$ 전략을 지배: 반사실적 합리성에 기반한 전략은 표준 게임 이론의 Nash 전략보다 일반적으로 우월하다.
Counterfactual Nash Equilibrium: Nash 균형을 반사실적 행동으로 확장하여, 에이전트가 자연적 성향을 활용하는 일탈까지 고려한 더 강한 균형 개념.
고전적 균형 개념(Nash, 역진 귀납)은 인과적 추론 이점과 양립 불가능 — 새로운 균형 개념이 필요.
금융 적용: LOB 게임(마켓메이커-정보거래자), 알고리즘 트레이딩 crowding, 중앙은행-시장 상호작용, ESG 투자 게임.
비대칭 정보를 비관측 교란으로 형식화하면, 시장 미시구조 이론(Kyle, Glosten-Milgrom)의 인과적 재해석이 가능하다.

더 읽을거리

Maiti, A., Jain, P. & Bareinboim, E. (2025). Counterfactual Rationality: A Causal Approach to Game Theory. Technical Report R-125, CausalAI Lab, Columbia University. — Causal Game Theory의 원논문.
von Neumann, J. & Morgenstern, O. (1944). Theory of Games and Economic Behavior. Princeton. — 게임 이론의 고전.
Kahneman, D. (2011). Thinking, Fast and Slow. Farrar, Straus and Giroux. — 행동경제학의 이중 시스템 이론.
Kyle, A.S. (1985). Continuous Auctions and Insider Trading. Econometrica, 53(6):1315-1335. — 비대칭 정보와 시장 미시구조.
Karpe, M. et al. (2020). Multi-agent Reinforcement Learning in a Realistic Limit Order Book Market Simulation. ICAIF. — 금융 MARL의 실무적 구현.
Bareinboim, E., Forney, A. & Pearl, J. (2015). Bandits with Unobserved Confounders: A Causal Approach. NeurIPS. — Greedy Casino 예시, 반사실적 무작위화의 기초.

Part II 완결 노트: Ch.4–12에서 CRL의 9대 Task를 금융 맥락에서 체계적으로 다루었다. Part III에서는 이 이론적 기초 위에 금융 특화 고급 주제(인과적 자산 가격, Deep Hedging, 최적 집행, 리스크 관리, LLM+CRL 융합)를 구축한다.

Chapter 11. Task 8 — Causal Reward Shaping: 수정된 보상을 통한 학습

hertzalpha — Wed, 1 Apr 2026 14:45:06 +0900

Chapter 11. Task 8 — Causal Reward Shaping: 수정된 보상을 통한 학습

"The design of a good shaping function is less well understood in principle and thus often relies on domain expertise and manual design."
— Li, Zhang & Bareinboim (2025)

11.1 문제 정의: 보상 설계의 근본적 난제

11.1.1 CRL Task 8의 위치

Task 8 (Causal Reward Shaping). 교란된 오프라인 데이터셋으로부터 학습된 보상을 사용하여 $\mathcal{L}_2$-정책을 구성하라.

RL에서 보상 함수는 에이전트의 행동을 결정하는 가장 근본적인 요소다. 그러나 금융에서 "올바른" 보상 함수를 설계하는 것은 극히 어렵다:

단순 수익률? 위험조정수익? 최대낙폭 제한? ESG 스코어?
보상이 지연되고(delayed) 복합적(composite)이다
과거 데이터에서 추정한 보상은 교란 편향을 포함할 수 있다

11.1.2 Reward Shaping의 기본 개념

Reward Shaping은 원래 보상 $R$에 추가적 시그널 $F$를 더하여 학습을 가속하는 기법이다:

$$R'(s, a, s') = R(s, a, s') + F(s, a, s')$$

여기서 $F$는 shaping function으로, 에이전트를 유망한 방향으로 유도한다.

핵심 요건: shaping이 최적 정책을 변경하지 않아야 한다. 잘못된 shaping은 비최적 정책으로 수렴시킨다.

11.1.3 Potential-Based Reward Shaping (PBRS)

Ng, Harada & Russell (1999)의 PBRS는 최적 정책 불변성을 보장하는 유일한 shaping 형태:

Theorem 11.1 (PBRS). shaping function이 다음 형태이면 최적 정책이 보존된다:

$$F(s, a, s') = \gamma \Phi(s') - \Phi(s)$$

여기서 $\Phi: \mathcal{S} \rightarrow \mathbb{R}$은 잠재 함수(potential function)이다.

직관: $\Phi(s)$가 높은 상태로 이동하면 보너스, 낮은 상태로 이동하면 페널티. 그러나 에피소드 전체에서 잠재 함수의 기여가 상쇄되므로 최적 정책은 불변.

이상적 잠재 함수: $\Phi(s) = V^*(s)$ (최적 가치 함수)이면, shaping 효과가 최대화된다. 에이전트가 "어떤 상태가 가치 있는지"에 대한 사전 지식을 갖게 되어 탐색이 극적으로 가속.

문제: $V^(s)$를 안다면 RL이 필요 없다. 실무에서는 $V^$의 근사치를 사용해야 하며, 이 근사가 어디서 오는가가 핵심이다.

11.2 교란된 오프라인 데이터에서의 자동 보상 설계

11.2.1 Li, Zhang & Bareinboim (2025, ICML)의 핵심 결과

이 논문은 CRL Task 8의 가장 최근이자 가장 완성된 이론적 결과다.

핵심 아이디어: 교란된 오프라인 데이터(CMDP)에서 인과적 가치 함수 상한(upper bound)을 추정하고, 이를 PBRS의 잠재 함수로 사용한다.

Theorem 11.2 (Causal Reward Shaping, Li et al., 2025). CMDP에서, 인과적 상태 가치 상한 $\overline{V}(s)$를 잠재 함수로 사용한 PBRS:

$$F(s, a, s') = \gamma \overline{V}(s') - \overline{V}(s)$$

이 shaping을 UCB 원리 기반 model-free 학습자에 적용하면, shaping 없는 학습자보다 더 나은 gap-dependent regret bound를 달성한다.

핵심 기여:

자동화: 도메인 전문가의 수동 설계 없이, 오프라인 데이터로부터 자동으로 shaping function을 구성
교란 강건: 오프라인 데이터에 비관측 교란이 있어도 유효한 상한을 사용
이론적 보장: PBRS + model-free learning에서의 최초의 gap-dependent regret bound
보수적 낙관주의: 인과적 상한은 "conservative optimistic" 추정 — 실제 최적 가치보다 크거나 같으므로 탐색을 안전하게 유도

11.2.2 알고리즘 구조

Step 1: 오프라인 데이터에서 인과적 가치 상한 추정

CMDP에서의 가치 함수 경계(Ch.4 복습):

$$\underline{V}^{\pi}(s; \Gamma) \leq V^{\pi}(s) \leq \overline{V}^{\pi}(s; \Gamma)$$

상한 $\overline{V}(s)$를 모든 정책에 대해 최대화:

$$\overline{V}^*(s) = \max_\pi \overline{V}^{\pi}(s; \Gamma)$$

이것은 "교란의 최선의 경우"에서의 최적 가치이며, 실제 $V^*(s)$의 상한이 된다.

Step 2: PBRS 잠재 함수 구성

$$\Phi(s) = \overline{V}^*(s)$$

Step 3: 온라인 학습에 적용

$$R'_t = R_t + \gamma \overline{V}^*(S_{t+1}) - \overline{V}^*(S_t)$$

이 shaped reward로 표준 Q-learning/UCB 알고리즘을 실행.

11.2.3 Regret 분석

Theorem 11.3 (Regret Bound, Li et al., 2025). Causal PBRS를 적용한 Q-UCB 알고리즘의 regret:

$$\text{Regret}(K) \leq \tilde{O}\left(\frac{SAH^3}{\Delta_{min}} + H^2 \epsilon_{shape}\right)$$

여기서 $S$는 상태 수, $A$는 행동 수, $H$는 horizon, $\Delta_{min}$은 최소 gap, $\epsilon_{shape}$는 shaping function의 근사 오차.

shaping 없는 Q-UCB와 비교:

$$\text{Regret}_{no\text{-}shape}(K) \leq \tilde{O}\left(\frac{SAH^3}{\Delta_{min}}\right)$$

$\epsilon_{shape}$가 충분히 작으면 (= 인과적 상한이 $V^*$에 가까우면), shaping된 알고리즘이 더 빠르게 수렴.

11.3 금융 보상 함수 설계의 난제

11.3.1 금융 보상의 다차원성

금융에서 "보상"은 단일 지표가 아니라 다차원적 목적의 균형이다:

보상 성분	수학적 표현	중요도	시간 지연
수익률	$r_t = \ln(V_{t+1}/V_t)$	높음	즉각적
위험	$-\lambda \sigma_t^2$ 또는 $-\lambda \text{CVaR}_t$	높음	중기
최대낙폭	$-\alpha \text{MDD}_t$	높음	장기
거래 비용	$-c \cdot	\Delta \mathbf{w}_t	$
유동성 비용	$-\beta \cdot \text{Impact}_t$	중간	즉각적
회전율 패널티	$-\kappa \cdot \text{Turnover}_t$	낮음-중간	즉각적
ESG 점수	$+\eta \cdot \text{ESG}_t$	가변적	장기

11.3.2 지연 보상 (Delayed Reward) 문제

금융의 가장 근본적 보상 설계 난제 중 하나:

장기 투자의 보상 귀인: 오늘의 매수 결정이 3년 후의 수익에 기여 — 어떻게 귀인?
레짐 의존적 지연: 위기 시 보상 지연이 더 길어짐
다중 행동의 복합 효과: 여러 시점의 결정이 복합적으로 최종 결과에 기여

PBRS의 금융적 가치: 잠재 함수 $\Phi(s)$가 "이 시장 상태가 장기적으로 얼마나 유리한가"의 사전 추정을 제공하여, 지연 보상의 탐색 어려움을 완화.

11.3.3 교란된 과거 데이터에서의 보상 편향

과거 거래 데이터로부터 보상 함수를 학습할 때의 교란 문제:

예시: 과거 데이터에서 특정 팩터 노출 후 높은 수익이 관측되었다. 이것이:

진정한 알파: 팩터 노출의 인과 효과 → 보상에 반영해야 함
교란된 허위 연관: 비관측 요인(트레이더의 사적 정보)이 팩터 선택과 수익 모두에 영향 → 보상에 반영하면 편향

Causal Reward Shaping은 인과적 상한을 사용하여 이 구분을 수행한다: 교란의 최선의 경우에도 안전한 보상만 shaping에 활용.

11.4 인과적 알파의 분리

11.4.1 알파의 인과적 분해

투자 알파를 인과적으로 분해:

$$\text{Total Return} = \underbrace{\alpha_{causal}}_{\text{인과적 알파}} + \underbrace{\alpha_{spurious}}_{\text{교란에 의한 허위 알파}} + \underbrace{\beta \cdot R_m}_{\text{시장 수익}} + \underbrace{\epsilon}_{\text{고유 리스크}}$$

$\alpha_{causal}$: 전략의 진정한 인과 효과 — $do(\text{Strategy})$에 의한 초과수익
$\alpha_{spurious}$: 비관측 교란에 의해 전략과 수익이 함께 움직이는 허위 연관 — $P(R \mid \text{Strategy}) - P(R \mid do(\text{Strategy}))$의 차이

Causal Reward Shaping은 $\alpha_{causal}$만을 보상에 반영하고, $\alpha_{spurious}$를 제거하는 효과를 갖는다.

11.4.2 팩터 프리미엄의 인과적 보상 분해

각 팩터 프리미엄을 인과적 성분과 허위 성분으로 분리:

$$\text{FactorPremium}_k = \underbrace{E[R \mid do(\text{Factor}_k = \text{high})] - E[R \mid do(\text{Factor}_k = \text{low})]}_{\text{인과적 프리미엄}} + \underbrace{\text{Confounding Bias}}_{\text{교란 편향}}$$

인과적 프리미엄만을 보상 shaping에 반영하면, 에이전트가 진정한 팩터 노출에서 학습하고, 허위 상관에 기반한 행동을 회피한다.

11.5 행동재무학적 편향 보정

11.5.1 행동 편향의 인과 모델링

투자자의 행동 편향을 비관측 교란으로 모델링:

$$U_{bias} \rightarrow A_t \quad (\text{편향이 매매 결정에 영향})$$

$$U_{bias} \rightarrow \text{Perceived}(R_t) \quad (\text{편향이 수익 인지에 영향})$$

주요 편향의 인과적 효과:

편향	보상에 대한 교란 효과	Causal Shaping의 보정
손실 회피	손실을 과대 가중 → 보수적 전략 편향	인과적 보상에서 비대칭 제거
처분 효과	이익 조기 실현, 손실 보유 → 왜곡된 수익 패턴	체결 시점과 수익의 교란 보정
과신	과도한 거래 → 거래 비용 과소평가	진정한 비용 효과의 인과적 추정
앵커링	임의 기준점에 수익 기대 고정 → 왜곡된 보상 인지	시장 구조에 기반한 인과적 보상

11.5.2 편향 보정된 보상

$$R_{debiased}(s, a) = R_{observed}(s, a) - \hat{B}(s, a)$$

여기서 $\hat{B}(s, a)$는 행동 편향에 의한 보상 왜곡의 추정치. 인과적으로:

$$\hat{B}(s, a) = E[R \mid S=s, A=a] - E[R \mid S=s, do(A=a)]$$

이것은 관측적 보상과 개입적 보상의 차이 = 교란 편향.

11.6 다목적 보상의 인과적 구성

11.6.1 Shaped Reward Function 설계

금융 RL을 위한 인과적 shaped reward:

$$R_{shaped}(s, a, s') = \underbrace{R_{raw}(s, a)}_{\text{원래 보상}} + \underbrace{\gamma \Phi(s') - \Phi(s)}_{\text{PBRS}} + \underbrace{\lambda_{risk} \cdot \text{RiskPenalty}(s, a)}_{\text{리스크 제약}}$$

각 성분의 역할:

$R_{raw}$: 실현 수익률 (즉각적 피드백)
$\Phi$: 인과적 상태 가치 상한 (장기 가치의 사전 지식)
$\text{RiskPenalty}$: 리스크 한도 위반 시 패널티

11.6.2 인과적 Differential Sharpe Ratio

Moody & Saffell (2001)의 Differential Sharpe Ratio를 인과적으로 확장:

표준:

$$D_t = \frac{B_{t-1}\Delta A_t - \frac{1}{2}A_{t-1}\Delta B_t}{(B_{t-1} - A_{t-1}^2)^{3/2}}$$

여기서 $A_t$는 수익률의 지수이동평균, $B_t$는 수익률 제곱의 지수이동평균.

인과적 확장: $A_t$와 $B_t$를 인과적으로 보정된 수익률(교란 제거)로 계산하여, 교란에 의한 Sharpe 과대추정을 방지.

11.7 실습: 팩터 프리미엄의 인과적 보상 분해

11.7.1 실습 개요

목표: 5개 팩터의 관측된 프리미엄을 인과적 성분과 교란 성분으로 분해하고, 인과적 프리미엄만을 보상으로 사용하는 RL 에이전트와 관측적 보상을 사용하는 에이전트를 비교.

11.7.2 Python 구현 스케치

import numpy as np

class CausalRewardShaper:
    """교란된 오프라인 데이터에서 인과적 보상 구성"""

    def __init__(self, offline_data, causal_graph, gamma_cf=2.0):
        self.data = offline_data
        self.G = causal_graph
        self.gamma_cf = gamma_cf  # 교란 감도 파라미터

    def estimate_causal_value_bounds(self, states):
        """인과적 가치 함수 상한/하한 추정"""
        V_upper = {}
        V_lower = {}
        for s in states:
            # CMDP 경계 추정 (Ch.4의 방법론)
            v_obs = self._observed_value(s)
            # 교란 보정
            correction = self._confounding_correction(s, self.gamma_cf)
            V_upper[s] = v_obs + correction
            V_lower[s] = v_obs - correction
        return V_upper, V_lower

    def construct_potential(self, states):
        """PBRS 잠재 함수 구성"""
        V_upper, _ = self.estimate_causal_value_bounds(states)
        return V_upper  # 보수적 낙관주의

    def shaped_reward(self, s, a, s_next, r_raw, gamma=0.99):
        """인과적 shaped reward 계산"""
        Phi = self.construct_potential(self.data.states)
        pbrs = gamma * Phi.get(s_next, 0) - Phi.get(s, 0)
        return r_raw + pbrs

    def decompose_factor_premium(self, factor, adjustment_set):
        """팩터 프리미엄의 인과적 분해"""
        # 관측적 프리미엄
        obs_premium = self._observed_premium(factor)

        # 인과적 프리미엄 (backdoor adjustment)
        causal_premium = self._causal_premium(
            factor, adjustment_set
        )

        # 교란 편향
        confounding_bias = obs_premium - causal_premium

        return {
            'observed': obs_premium,
            'causal': causal_premium,
            'bias': confounding_bias,
            'bias_ratio': confounding_bias / obs_premium
        }

# 실행
shaper = CausalRewardShaper(
    offline_data=historical_factor_data,
    causal_graph=factor_dag,
    gamma_cf=2.0
)

# 팩터 프리미엄 분해
for factor in ['Value', 'Momentum', 'LowVol', 'Quality', 'Size']:
    result = shaper.decompose_factor_premium(
        factor, adjustment_set=['MarketRegime', 'Liquidity']
    )
    print(f"{factor}:")
    print(f"  관측 프리미엄: {result['observed']:.2%}")
    print(f"  인과 프리미엄: {result['causal']:.2%}")
    print(f"  교란 편향: {result['bias']:.2%} ({result['bias_ratio']:.0%})")

11.7.3 기대 결과

팩터	관측 프리미엄	인과 프리미엄	교란 편향	편향 비율
Value	4.2%	3.1%	1.1%	26%
Momentum	6.8%	3.5%	3.3%	49%
LowVol	2.5%	2.0%	0.5%	20%
Quality	3.0%	1.2%	1.8%	60%
Size	2.0%	0.8%	1.2%	60%

해석: Momentum과 Quality의 관측 프리미엄 중 상당 부분(49-60%)이 교란에 의한 것으로, 이 팩터에 대한 인과적 보상 shaping이 특히 중요. LowVol은 교란 비율이 낮아 관측 프리미엄이 상대적으로 신뢰 가능.

핵심 요약 (Key Takeaways)

Causal Reward Shaping은 교란된 오프라인 데이터에서 자동으로 보상 함수를 구성하여, RL 학습을 가속하면서 최적 정책 불변성을 보장한다.
PBRS (Potential-Based Reward Shaping)는 최적 정책 불변성을 보장하는 유일한 형태이며, 잠재 함수 $\Phi(s) = \overline{V}^*(s)$ (인과적 가치 상한)를 사용한다.
Li, Zhang & Bareinboim (2025, ICML)은 CMDP에서 인과적 상한을 잠재 함수로 사용하는 최초의 gap-dependent regret bound를 제공한다.
금융 보상의 다차원성 (수익, 위험, 낙폭, 비용, ESG)과 지연 보상 문제를 PBRS가 완화한다 — 잠재 함수가 장기 가치의 사전 추정을 제공.
인과적 알파 분리: 관측된 팩터 프리미엄을 인과적 성분($\alpha_{causal}$)과 교란 성분($\alpha_{spurious}$)으로 분해하여, 진정한 알파만을 보상에 반영.
행동 편향 보정: 손실 회피, 처분 효과 등을 비관측 교란으로 모델링하고, 인과적 보상에서 편향을 제거.
보수적 낙관주의(conservative optimism): 인과적 상한은 교란의 최선 경우를 반영하므로, 탐색을 과도하게 억제하지 않으면서도 교란에 안전한 가이드를 제공.

더 읽을거리

Li, M., Zhang, J. & Bareinboim, E. (2025). Automatic Reward Shaping from Confounded Offline Data. ICML. — Causal Reward Shaping의 이론적 기초.
Ng, A., Harada, D. & Russell, S. (1999). Policy Invariance Under Reward Transformations: Theory and Application to Reward Shaping. ICML. — PBRS의 원논문.
Devlin, S. & Kudenko, D. (2012). Dynamic Potential-Based Reward Shaping. AAMAS. — 동적 잠재 함수.
Moody, J. & Saffell, M. (2001). Learning to Trade via Direct Reinforcement. IEEE Trans. Neural Networks, 12(4). — Differential Sharpe Ratio.
Wiewiora, E. et al. (2003). Principled Methods for Advising Reinforcement Learning Agents. ICML. — 보상 shaping과 가치 함수 초기화의 관계.

Chapter 10. Task 7 — Causal Curriculum Learning: 수정된 환경에서의 학습

hertzalpha — Wed, 1 Apr 2026 14:43:31 +0900

Chapter 10. Task 7 — Causal Curriculum Learning: 수정된 환경에서의 학습

"The critical assumption of invariant optimal decision rules does not necessarily hold when the underlying environment contains unobserved confounders."
— Li, Zhang & Bareinboim (2024)

10.1 문제 정의: 학습 환경의 인과적 설계

10.1.1 CRL Task 7의 위치

Task 7 (Causal Curriculum Learning). 타겟 과업의 SCM에 개입하여, 최적 타겟 $\mathcal{L}_2$-정책의 학습을 가속화하는 하위 과업(subtask) 시퀀스를 설계하라.

Curriculum Learning(교육과정 학습)의 기본 아이디어는 인간의 학습과 유사하다: 쉬운 문제부터 시작하여 점진적으로 어려운 문제로 나아간다. RL에서 이는 단순한 환경에서 먼저 학습하고, 점차 복잡한 환경으로 전이하는 것이다.

그러나 핵심적 질문이 있다: 어떤 단순화가 "좋은" 단순화이고, 어떤 단순화가 잘못된 습관을 야기하는가?

10.1.2 금융에서의 Curriculum Learning 동기

금융 RL 에이전트의 훈련은 다음과 같은 이유로 curriculum이 필요하다:

복잡성의 저주: 실제 시장은 수천 종목, 다양한 자산 클래스, 복잡한 상호작용을 포함
탐색 비용: 실시장에서의 시행착오는 실제 손실 야기
레짐 다양성: 강세장, 약세장, 위기, 회복 등 다양한 레짐을 순차적으로 경험해야 함
비정상성: 한 번에 모든 시장 상황을 커버하는 것이 불가능

직관적 커리큘럼 설계:

Stage 1: 단일 자산, 거래 비용 없음, 정상 변동성
   ↓
Stage 2: 소수 자산, 소규모 거래 비용
   ↓
Stage 3: 다수 자산, 현실적 거래 비용, 정상 변동성
   ↓
Stage 4: 다수 자산, 현실적 비용, 고변동성 레짐
   ↓
Stage 5: 전체 시장, 모든 마찰, 위기 시나리오 포함

이 직관적 설계의 문제: 각 단계의 "단순화"가 타겟 과업의 최적 정책과 정렬(align)되는지 보장이 없다. 잘못된 단순화는 에이전트가 실제 환경에서 유해한 행동 패턴을 학습하게 만들 수 있다.

10.2 Causally Aligned Curriculum Learning의 이론

10.2.1 핵심 문제: Misaligned Source Tasks

Definition 10.1 (Aligned vs Misaligned Source Task). 소스 과업 $\mathcal{T}_s$가 타겟 과업 $\mathcal{T}_t$와 정렬(aligned)되려면, 소스에서 학습한 최적 결정 규칙이 타겟에서도 최적이어야 한다. 그렇지 않으면 비정렬(misaligned)이다.

비정렬의 위험: 소스 과업에서 완벽히 학습한 에이전트가 타겟 과업에서 오히려 성과가 악화될 수 있다.

금융 예시: 거래 비용이 없는 시뮬레이터에서 학습한 에이전트는 "빈번한 리밸런싱"을 최적으로 학습한다. 그러나 실제 시장에서는 거래 비용으로 인해 이 전략이 최악이 된다. 거래 비용 없는 환경은 비정렬 소스 과업이다.

10.2.2 Li, Zhang & Bareinboim (2024, ICLR)의 핵심 결과

Theorem 10.1 (Causal Alignment Condition). SCM 프레임워크에서, 소스 과업의 인과적 정렬(causal alignment)을 판정하는 충분 그래프 조건이 존재한다.

구체적으로:

타겟 과업을 SCM $\mathcal{M}_T = \langle \mathbf{U}, \mathbf{V}, \mathbf{F}_T, P(\mathbf{U}) \rangle$로 형식화
소스 과업을 타겟 SCM의 일부 구조함수를 수정($do$)하여 생성:

$$\mathcal{M}S^{(k)} = \mathcal{M}_T \mid{do(\Delta^{(k)})}$$

여기서 $\Delta^{(k)}$는 $k$-번째 소스 과업에서 수정되는 변수/메커니즘의 집합.

정렬 조건: $\Delta^{(k)}$에 포함된 변수들이 인과 그래프에서 최적 정책에 영향을 미치지 않는 위치에 있으면, 소스 과업은 정렬됨.

10.2.3 Editable States

Definition 10.2 (Editable States, Li et al., 2024). 변수 집합 $\Delta$가 행동 변수 $\mathbf{X}$에 대해 편집 가능(editable)하다면, $\Delta$에 속한 변수의 초기값을 수정해도 최적 결정 규칙이 변하지 않는다.

편집 가능한 상태를 수정하면 → 정렬된 소스 과업
편집 불가능한 상태를 수정하면 → 비정렬 위험

핵심 기여:

비정렬 소스 과업 탐지: 인과 그래프를 분석하여 비정렬 위험이 있는 소스 과업을 사전에 식별하는 알고리즘
정렬된 소스 과업 구성: 편집 가능한 상태만을 수정하여 정렬이 보장되는 소스 과업을 자동 생성하는 알고리즘
Augmentation 절차: 기존 curriculum learning 알고리즘에 정렬 보장을 추가하는 일반적 증강(augmentation) 절차

10.2.4 비관측 교란의 역할

비관측 교란($U$)이 존재하면 정렬 판단이 더 어려워진다:

비관측 $U$가 소스와 타겟에서 다르게 작용할 수 있음
소스에서 관측되지 않는 교란이 타겟에서 최적 정책을 변경할 수 있음
표면적으로 정렬된 것처럼 보이는 소스 과업이 실제로는 비정렬

이것이 "인과적" curriculum learning이 필수적인 이유: 인과 구조를 고려하지 않으면, 커리큘럼이 오히려 학습을 방해할 수 있다.

10.3 금융에서의 Causal Curriculum 설계

10.3.1 환경 수정의 인과적 분류

금융 시뮬레이션 환경에서 수정할 수 있는 요소를 인과적으로 분류:

수정 요소	편집 가능 여부	정렬 위험	근거
초기 자본	편집 가능	낮음	최적 배분 비율은 자본 규모에 불변 (비례적 전략)
자산 수	주의 필요	중간	분산투자 효과가 비선형적으로 변화
거래 비용	편집 불가	높음	비용 구조가 최적 거래 빈도를 근본적으로 변경
변동성 수준	주의 필요	중간	레짐에 따라 최적 노출이 다를 수 있으나, 방향은 불변 가능
시장 충격	편집 불가	높음	충격 모델이 최적 주문 크기를 결정
관측 노이즈	편집 가능	낮음	노이즈 감소가 최적 행동 방향을 바꾸지 않음
시간 해상도	주의 필요	중간	일봉 vs 분봉에서 최적 전략이 다를 수 있음
상관 구조	편집 불가	높음	자산 간 관계가 분산투자 전략을 결정

10.3.2 정렬된 커리큘럼 설계 원칙

인과적으로 안전한 금융 커리큘럼의 원칙:

원칙 1: 비용 구조를 단순화하지 마라.

거래 비용, 시장 충격, 슬리피지는 최적 전략에 근본적으로 영향을 미치므로, 처음부터 현실적 수준으로 포함해야 한다. 이들을 제거하면 비정렬 소스 과업이 된다.

원칙 2: 복잡성은 "편집 가능한" 차원에서 점진적으로 증가시켜라.

초기 자본: 작게 시작 → 점진적 확대 (정렬 안전)
자산 수: 소수 → 다수 (방향적 정렬이 유지되는 범위에서)
관측 노이즈: 낮게 시작 → 현실적 수준으로 증가

원칙 3: 레짐 다양성은 커리큘럼 후반에 도입하되, 각 레짐의 인과 구조를 명시하라.

안정 레짐에서 기본 전략을 학습한 후, 위기 레짐을 도입할 때 어떤 인과 메커니즘이 변하는지(Selection Diagram의 $S$-노드)를 명시하고, 불변 메커니즘은 전이하도록 설계.

10.3.3 인과적으로 정렬된 5단계 커리큘럼

Stage 1: 기본 학습
  - 소수 자산 (5개), 현실적 거래 비용
  - 안정 시장 레짐만
  - 목표: 기본적 리스크-수익 트레이드오프 학습

Stage 2: 자산 확장
  - 중간 규모 (20개), 현실적 비용
  - 안정 레짐
  - 목표: 분산투자, 상관 관계 활용 학습
  - 정렬 확인: 자산 수 증가는 편집 가능 (배분 비율 불변)

Stage 3: 변동성 확장
  - 20개 자산, 현실적 비용
  - 안정 + 고변동성 레짐 교대
  - 목표: 레짐 감지, 적응적 노출 조절
  - 정렬 확인: 변동성 변화의 인과 메커니즘 명시

Stage 4: 위기 도입
  - 20개 자산, 현실적 비용 + 유동성 제약
  - 안정 + 고변동성 + 위기 레짐
  - 목표: 테일리스크 관리, 유동성 위기 대응
  - 정렬 확인: 유동성 제약의 인과 효과 검증

Stage 5: 전체 환경
  - 대규모 (100+ 자산), 모든 마찰
  - 모든 레짐 포함, 비관측 교란 존재
  - 목표: 실전 배포 가능한 강건한 정책

10.4 Causal-Paced Deep RL

10.4.1 최신 발전: CP-DRL

Li et al. (2024)의 이론을 기반으로, 최신 연구(2025)는 Causal-Paced Deep RL (CP-DRL)을 제안한다:

핵심 아이디어: 과업 간의 인과적 차이(causal difference)를 궤적 데이터로부터 추정하고, 이 구조적 시그널을 사용하여 교사(teacher)가 학생(student) 에이전트에게 점진적으로 새로운 과업을 노출하는 커리큘럼을 구성.

$$d_{causal}(\mathcal{T}_s, \mathcal{T}_t) = \sum_{V_i \in \mathbf{V}} \mathbb{1}\left[f_i^{(\mathcal{T}_s)} \neq f_i^{(\mathcal{T}_t)}\right]$$

인과적 거리가 작은 소스 과업부터 시작하여 점진적으로 증가:

$$\text{Curriculum}: \mathcal{T}_{s_1} \rightarrow \mathcal{T}_{s_2} \rightarrow \cdots \rightarrow \mathcal{T}_T$$

where $d_{causal}(\mathcal{T}{s_1}, \mathcal{T}_T) \leq d{causal}(\mathcal{T}_{s_2}, \mathcal{T}_T) \leq \cdots$

10.4.2 금융에서의 인과적 과업 거리

금융에서 과업 간 인과적 거리를 측정하는 방법:

환경 변경	인과적 거리	커리큘럼 순서
노이즈 감소만	0 (편집 가능)	초기 (Stage 1)
자산 수 증가	낮음	초기-중기
변동성 레짐 추가	중간	중기
유동성 제약 추가	중간-높음	후기
상관 구조 변경	높음	최후기
시장 충격 모델 변경	높음	최후기

10.5 환경 조작의 인과적 정당화

10.5.1 SCM 기반 환경 수정

커리큘럼의 각 단계를 SCM에 대한 개입으로 형식화:

$$\mathcal{M}{curriculum}^{(k)} = \mathcal{M}{target} \mid_{do(\Delta^{(k)} = \delta^{(k)})}$$

예를 들어, Stage 1에서 변동성을 고정($\sigma = \sigma_0$)하는 것은:

$$\mathcal{M}^{(1)} = \mathcal{M}{target} \mid{do(\sigma = \sigma_0)}$$

이 개입이 최적 정책을 보존하는지는 인과 그래프에서 $\sigma$의 위치와 행동 변수에 대한 경로에 의해 결정된다.

10.5.2 정렬 검증 절차

각 커리큘럼 단계의 정렬을 검증하는 실무 절차:

Step 1: 타겟 환경의 인과 그래프 $G_T$ 구축

Step 2: 소스 환경의 수정 집합 $\Delta^{(k)}$ 명시

Step 3: Li et al.의 그래프 조건으로 정렬 판정:

$\Delta^{(k)}$에 속한 변수가 행동 변수의 최적 결정에 영향을 미치는 경로 상에 있는가?
비관측 교란이 $\Delta^{(k)}$를 통해 최적 정책을 변경하는가?

Step 4: 비정렬로 판정되면, $\Delta^{(k)}$를 축소하거나 다른 편집 가능한 변수로 대체

10.6 Sim-to-Real Transfer의 인과적 프레임워크

10.6.1 시뮬레이터와 실시장의 Gap

금융 RL의 가장 큰 실무적 도전 중 하나는 Sim-to-Real Gap — 시뮬레이터에서 학습한 정책이 실시장에서 작동하지 않는 문제.

이것은 정확히 커리큘럼의 최종 단계: 시뮬레이션 환경(소스)에서 실시장(타겟)으로의 전이 문제이며, Ch.7의 Transportability와 본 챕터의 Causal Alignment가 동시에 적용된다.

시뮬레이터와 실시장의 Selection Diagram:

차이 ($S$-노드)	시뮬레이터	실시장	정렬 영향
시장 충격	단순화 또는 부재	비선형, 규모 의존적	비정렬 위험 높음
다른 참가자	고정 또는 단순 모델	적응적, 전략적	비정렬 위험 높음
유동성	무한 또는 고정	시간 가변, 이벤트 의존	중간 위험
데이터 지연	없음	실시간 지연 존재	낮음 (편집 가능)
슬리피지	고정 비율	확률적, 상태 의존	중간 위험

10.6.2 인과적 Sim-to-Real 파이프라인

Sim (정렬 확인된 커리큘럼) 
  → Paper Trading (제한적 실시장 데이터로 정렬 재확인)
  → Live (소규모, 모니터링 집중)
  → Full Deployment (인과 구조 드리프트 감시)

각 전환 단계에서:

Selection Diagram으로 소스-타겟 차이 명시
Transport formula로 성과 예측
실 데이터와 예측 비교로 정렬 검증
비정렬 탐지 시 커리큘럼 재설계

10.7 실습: 단계적 시장 복잡성 증가를 통한 트레이딩 에이전트 훈련

10.7.1 실습 개요

목표: 5단계 인과적 커리큘럼으로 포트폴리오 RL 에이전트를 훈련하고, 정렬된 커리큘럼 vs 비정렬 커리큘럼의 성과 차이를 확인.

10.7.2 Python 구현 스케치

class CausalCurriculum:
    """인과적으로 정렬된 커리큘럼 생성기"""

    def __init__(self, target_scm, causal_graph):
        self.target = target_scm
        self.G = causal_graph

    def is_editable(self, variables, action_vars):
        """편집 가능 여부 판정 (Li et al. 2024)"""
        for v in variables:
            # v를 수정했을 때 최적 행동이 변하는지 그래프 분석
            if self._affects_optimal_policy(v, action_vars):
                return False
        return True

    def create_aligned_stage(self, modifications):
        """정렬된 소스 과업 생성"""
        aligned_mods = {}
        for var, value in modifications.items():
            if self.is_editable([var], self.target.action_vars):
                aligned_mods[var] = value
            else:
                print(f"Warning: {var} 수정은 비정렬 위험 — 제외")
        return self.target.intervene(aligned_mods)

    def build_curriculum(self):
        """5단계 커리큘럼 구성"""
        stages = []

        # Stage 1: 노이즈 감소 (편집 가능)
        stages.append(self.create_aligned_stage({
            'observation_noise': 0.5,  # 절반 노이즈
            'n_assets': 5
        }))

        # Stage 2: 자산 확장 (편집 가능 확인)
        stages.append(self.create_aligned_stage({
            'observation_noise': 0.8,
            'n_assets': 20
        }))

        # Stage 3: 변동성 확장
        stages.append(self.create_aligned_stage({
            'n_assets': 20,
            'volatility_regime': ['low', 'medium']
        }))

        # Stage 4: 위기 도입
        stages.append(self.create_aligned_stage({
            'n_assets': 20,
            'volatility_regime': ['low', 'medium', 'crisis'],
            'liquidity_constraint': True
        }))

        # Stage 5: 전체 환경 (타겟)
        stages.append(self.target)

        return stages

# 실행
curriculum = CausalCurriculum(target_env, market_dag)
stages = curriculum.build_curriculum()

# 단계별 훈련
agent = PPOAgent(state_dim, action_dim)
for i, stage_env in enumerate(stages):
    print(f"Stage {i+1} 훈련 시작...")
    agent.train(stage_env, n_episodes=1000)

    # 타겟 환경에서 중간 평가
    eval_result = agent.evaluate(target_env, n_episodes=100)
    print(f"  타겟 Sharpe: {eval_result['sharpe']:.2f}")

10.7.3 비교 실험 설계

커리큘럼 유형	설계	기대 결과
No Curriculum	처음부터 전체 환경에서 훈련	느린 수렴, 불안정
Naive Curriculum	거래비용 0 → 점진 도입	초기 빠르나 비정렬로 최종 성과 저하
Causal Curriculum	편집 가능 변수만 수정	안정적 수렴, 최종 성과 우수
Random Curriculum	무작위 환경 순서	불안정, 비효율적

핵심 요약 (Key Takeaways)

Causal Curriculum Learning은 타겟 과업의 SCM에 개입하여 소스 과업 시퀀스를 설계하되, 최적 결정 규칙의 불변성(정렬)을 보장하는 프레임워크다.
비정렬(Misalignment)의 위험: 인과 구조를 무시한 환경 단순화(예: 거래 비용 제거)는 실제로 학습을 방해하여, 커리큘럼 없이 학습하는 것보다 나쁜 결과를 초래할 수 있다.
Li, Zhang & Bareinboim (2024, ICLR)은 정렬 판정을 위한 충분 그래프 조건, 비정렬 과업 탐지 알고리즘, 정렬된 소스 과업 구성 알고리즘을 제공한다.
Editable States: 수정해도 최적 정책이 변하지 않는 변수 집합. 이들만 수정하면 정렬이 보장된다.
금융 적용에서 거래 비용, 시장 충격, 상관 구조는 편집 불가 (비정렬 위험 높음), 초기 자본, 관측 노이즈, 자산 수는 편집 가능 (정렬 안전)한 경향.
Sim-to-Real Gap은 커리큘럼의 최종 단계 문제이며, Selection Diagram과 Transport Formula로 체계적으로 분석 가능.
CP-DRL (Causal-Paced Deep RL)은 궤적 데이터에서 인과적 과업 거리를 추정하여 커리큘럼을 자동 구성하는 최신 접근.

더 읽을거리

Li, M., Zhang, J. & Bareinboim, E. (2024). Causally Aligned Curriculum Learning. ICLR. — 인과적 커리큘럼의 이론적 기초.
Narvekar, S. et al. (2020). Curriculum Learning for Reinforcement Learning Domains: A Framework and Survey. JMLR, 21(181):1-50. — 커리큘럼 RL의 포괄적 서베이.
Bengio, Y. et al. (2009). Curriculum Learning. ICML. — 커리큘럼 학습의 원논문.
Dennis, M. et al. (2020). Emergent Complexity and Zero-shot Transfer via Unsupervised Environment Design. NeurIPS. — 환경 설계의 자동화.
Parker-Holder, J. et al. (2022). Evolving Curricula with Regret-Based Environment Design. ICML. — 후회 기반 커리큘럼.

Chapter 9. Task 6 — Causal Imitation Learning: 보상 비관측 하의 정책 학습

hertzalpha — Wed, 1 Apr 2026 14:41:14 +0900

Chapter 9. Task 6 — Causal Imitation Learning: 보상 비관측 하의 정책 학습

"'Monkey see monkey do' — naïve imitation without understanding a system's underlying mechanics can lead to poor outcomes."
— Kumor, Zhang & Bareinboim (2021)

9.1 문제 정의: 보상 없이 전문가로부터 학습

9.1.1 CRL Task 6의 위치

Task 6 (Causal Imitation Learning). 부분 관측 가능한 $\mathcal{L}_1$ 데이터(전문가의 행동 궤적)로부터, 보상 함수를 모르는 상태에서 $\mathcal{L}_2$-정책을 구성하라.

이 문제는 금융에서 극도로 보편적이다. 성공적인 펀드매니저, 트레이더, 중앙은행의 행동은 관측할 수 있지만, 그들의 보상 함수(투자 철학, 리스크 선호, 목적함수)는 비관측이다. 이들의 행동을 모방하여 효과적인 전략을 학습하고자 하지만, 핵심적 문제가 있다: 전문가가 보는 정보와 우리가 보는 정보가 다를 수 있다.

9.1.2 Imitation Learning의 두 가지 접근

접근	방법	핵심 가정	한계
Behavior Cloning (BC)	상태→행동 매핑을 지도학습으로 직접 학습	전문가의 관측 = 모방자의 관측	비관측 교란 시 편향
Inverse RL (IRL)	전문가 행동이 최적인 보상 함수를 먼저 추정, 그 보상으로 RL 학습	전문가가 최적 정책 실행	비관측 교란 시 보상 함수 오추정

두 접근 모두의 공통 한계: 전문가가 사용하는 공변량(covariates)이 완전히 관측된다고 가정. 금융에서 이 가정은 거의 항상 위반된다 — 전문가의 사적 정보, 직관, 내부 리서치 등이 행동에 영향을 미치지만 관측되지 않는다.

9.1.3 비관측 교란 하의 모방의 위험

예시: 드론 촬영으로 고속도로 운전 모방

Ruan et al. (2023)의 예시를 금융으로 번역:

전문가 트레이더가 다양한 시장 상황에서 매매하는 거래 로그(궤적)가 있다
트레이더는 시장 데이터($Z$: 가격, 거래량) 외에 비관측 정보($U$: 내부 리서치 메모, 동료와의 대화, 직관)를 기반으로 결정한다
$U$는 트레이더의 행동($X$)과 시장 결과($Y$) 모두에 영향을 미친다

이 상황에서 단순 Behavior Cloning:

$$\hat{\pi}_{BC}(x \mid z) = P(X = x \mid Z = z) \quad (\text{관측 조건부})$$

이것은 $P(X \mid Z)$를 학습하지만, 비관측 $U$가 $X$와 $Z$ 모두에 영향을 미치면 $P(X \mid Z) \neq P(X \mid do(Z))$이다. 즉, 관측된 상태-행동 매핑은 인과적으로 올바르지 않다.

9.2 Causal Imitation Learning의 이론적 기초

9.2.1 Zhang, Kumor & Bareinboim (2020): 행동 클로닝의 인과적 확장

Theorem 9.1 (Imitability Criterion, Zhang et al., 2020). 인과 그래프 $G$와 관측 데이터가 주어졌을 때, 모방의 실현가능성(imitability)을 판정하는 필요충분 그래프 기준(complete graphical criterion)이 존재한다.

이 기준은 다음을 결정한다:

모방자가 전문가의 성과를 재현할 수 있는가? (imitability)
재현이 가능하다면, 어떤 변수를 조정(adjustment)해야 하는가?
재현이 불가능하다면, 어떤 비관측 교란이 원인인가?

금융 해석: "이 트레이더의 거래 패턴을 관측 가능한 시장 데이터만으로 재현할 수 있는가, 아니면 비관측 정보 없이는 불가능한가?"

9.2.2 Kumor, Zhang & Bareinboim (2021): 순차적 확장

Sequential Causal Imitation Learning. 단일 결정이 아닌 순차적 결정(MDP) 환경에서의 인과적 모방을 다룬다.

순차적 환경에서의 추가 도전:

시점 $t$의 비관측 교란이 미래 시점 $t+1, t+2, \ldots$의 상태와 행동에 전파
누적 교란 편향: 시간이 지남에 따라 모방 오차가 누적 (compounding error)
전문가의 결정 규칙이 시간에 따라 변할 수 있음

Theorem 9.2 (Sequential Imitability, Kumor et al., 2021). 순차적 환경에서의 인과적 모방 가능성을 판정하는 필요충분 그래프 기준이 존재하며, 가능한 경우 모방자가 전문가의 성과를 매칭하는 정책을 학습하는 절차가 제공된다.

9.2.3 Ruan, Zhang, Di & Bareinboim (2023): IRL로의 확장

Ruan et al. (2023, ICLR)은 행동 클로닝에서 Inverse Reinforcement Learning으로 확장:

Causal IRL. 비관측 교란이 존재하는 상황에서, 전문가 시연으로부터 보상 함수를 추정하고 이를 기반으로 모방 정책을 학습.

핵심 기여:

새로운 그래프 조건: 모방자와 전문가의 상태-행동 공간이 불일치하고, 비관측 교란이 존재해도 효과적 모방이 가능한 조건을 식별
전문가 초과 가능성: 보상 함수의 모수적(parametric) 형태를 알면, 모방 정책이 전문가보다 우수할 수 있음 — 전문가가 비관측 교란으로 인해 최적이 아닐 때
기존 IRL 알고리즘과의 호환: Causal IRL은 기존 MWAL, GAIL 등을 비관측 교란 환경에서 사용할 수 있도록 확장

Causal IRL의 정전 방정식(canonical equation):

$$\pi^*_{imitator} = \arg\max_\pi \mathbb{E}_{do(\pi)}\left[\sum_t \gamma^t r(s_t, a_t)\right]$$

subject to:

$$r^* = \arg\max_r \mathbb{E}_{P^{do}(\text{expert})}\left[\sum_t \gamma^t r(s_t, a_t)\right] - \max_\pi \mathbb{E}_{do(\pi)}\left[\sum_t \gamma^t r(s_t, a_t)\right]$$

핵심: $P^{do}(\text{expert})$는 전문가의 개입적(interventional) 분포이며, 비관측 교란의 영향을 제거한 것이다. 이것이 표준 IRL과의 근본적 차이 — 표준 IRL은 관측적 분포 $P(\text{expert})$를 사용하여 교란 편향에 노출된다.

9.2.4 Ruan et al. (2024): 부분 식별 접근

Ruan et al. (2024, NeurIPS)은 비관측 교란으로 인해 정확한 모방이 불가능한 경우를 다룬다:

Partial Identification for Causal IL. 비관측 교란이 심하여 점 식별이 불가능할 때, 전문가 성과의 경계(bounds)를 도출하고, 이 경계 내에서 최선의 모방 정책을 학습.

이 접근은 Ch.4의 부분 식별/경계 분석과 동일한 철학을 따르며, 완벽한 모방 대신 보장 가능한 성과 하한을 추구한다.

9.3 금융에서의 Causal Imitation Learning

9.3.1 기관투자자의 거래 패턴 역추론

문제: 성공적인 기관투자자(예: 워런 버핏, 레이 달리오)의 공개된 포지션 데이터(13F filing)로부터 투자 철학을 역추론할 수 있는가?

관측 가능한 데이터:

분기별 포지션 변화 (13F)
시장 상태 변수 (가격, 변동성, 매크로 지표)
산업/섹터 분포

비관측 요인:

투자 위원회 내부 토론
리서치 팀의 분석 결과
리스크 한도 및 규제 제약
개인적 확신/직관

Causal IL 적용:

Step 1: 인과 그래프 구성

MarketState → InvestorAction
PrivateResearch [unobserved] → InvestorAction  
PrivateResearch [unobserved] → FutureReturn
RiskConstraints [unobserved] → InvestorAction
InvestorAction → FutureReturn

Step 2: Imitability 판정

비관측 교란($\text{PrivateResearch}$, $\text{RiskConstraints}$)이 존재하므로, 단순 행동 클로닝은 편향된다. 그래프 기준으로 imitability를 판정하고, 가능하면 backdoor adjustment를 적용.

Step 3: Causal IRL로 보상 함수 추정

$$r^*(\text{state}, \text{action}) \approx \mathbf{w} \cdot \boldsymbol{\phi}(\text{state}, \text{action})$$

여기서 $\boldsymbol{\phi}$는 특성 벡터(수익률, 리스크, 유동성, 밸류에이션 등), $\mathbf{w}$는 학습할 가중치.

9.3.2 중앙은행 행동 모방: 통화정책의 암묵적 보상 함수

문제: Fed/BOK의 금리 결정 패턴으로부터 암묵적 보상 함수(= 정책 반응함수)를 추정.

관측 가능	비관측
금리 결정 (행동)	내부 경제 전망 모델
매크로 데이터 (상태)	위원회 내 의견 분포
성명서 텍스트	정치적 압력
시장 반응 (결과)	비공식 커뮤니케이션

Taylor Rule은 중앙은행 행동의 가장 단순한 모방이다:

$$i_t = r^* + \pi_t + 0.5(\pi_t - \pi^) + 0.5(y_t - y^)$$

그러나 이것은 비관측 교란을 무시한 단순 행동 클로닝에 해당한다. Causal IRL은 비관측 요인을 고려한 더 정교한 반응함수를 학습할 수 있다.

9.3.3 마켓메이커의 숨겨진 인센티브 구조

문제: 마켓메이커의 호가 설정 행동으로부터 그들의 인센티브/보상 구조를 역추론.

마켓메이커의 행동($\delta^{bid}, \delta^{ask}$)은 관측 가능하지만, 그들의 실제 보상 함수는:

$$R_{MM} = \underbrace{\text{Spread Income}}_{\text{관측 가능}} - \underbrace{\text{Inventory Risk}}_{\text{부분 관측}} - \underbrace{\text{Adverse Selection Cost}}_{\text{비관측}}$$

역선택 비용은 비관측 교란이며, 정보거래자의 존재에 의존한다. Causal IRL은 이 비관측 성분을 포함한 전체 보상 구조를 추정할 수 있다.

9.4 Behavior Cloning vs Causal IRL: 금융 비교

9.4.1 편향 비교

방법	비관측 교란 처리	금융에서의 결과
단순 BC	무시	전문가의 정보 우위를 재현 불가 → 성과 저하
인과적 BC	그래프 기준으로 조정	관측 가능 교란은 보정, 비관측은 경계 도출
표준 IRL	무시	보상 함수 오추정 → 비최적 정책
Causal IRL	$P^{do}$ 기반 보상 추정	교란 보정된 보상 → 전문가 매칭 또는 초과 가능

9.4.2 전문가 초과(Outperformance)의 가능성

Causal IRL의 놀라운 결과: 모방자가 전문가를 초과할 수 있다.

이것이 가능한 이유: 전문가가 비관측 교란($U$)의 영향으로 최적이 아닌 행동을 하는 경우, Causal IRL은 $U$의 교란 효과를 보정하여 전문가보다 나은 정책을 학습할 수 있다.

금융 예시: 트레이더가 행동 편향(손실 회피, 처분 효과)에 의해 비최적 매매를 하는 경우, Causal IRL은 이 편향을 식별하고 보정하여 편향 없는 전략을 학습할 수 있다.

조건: 보상 함수의 모수적 형태에 대한 사전 지식이 필요.

9.5 기존 IRL 알고리즘의 인과적 확장

9.5.1 MWAL의 인과적 확장

Multiplicative Weights Apprenticeship Learning (MWAL):

표준 MWAL: 전문가의 관측적 특성 기대치를 매칭

$$\mathbb{E}_{\pi^*}[\boldsymbol{\phi}(s, a)] \approx \mathbb{E}_{\pi_E^{obs}}[\boldsymbol{\phi}(s, a)]$$

Causal MWAL: 전문가의 개입적 특성 기대치를 매칭

$$\mathbb{E}_{do(\pi^*)}[\boldsymbol{\phi}(s, a)] \approx \mathbb{E}_{do(\pi_E)}[\boldsymbol{\phi}(s, a)]$$

$\mathbb{E}_{do(\pi_E)}$는 인과적으로 보정된 기대치로, backdoor adjustment 등을 통해 관측 데이터로부터 추정.

9.5.2 GAIL의 인과적 확장

Generative Adversarial Imitation Learning (GAIL):

표준 GAIL의 목적함수:

$$\min_\pi \max_D \mathbb{E}_{\pi}[\log D(s, a)] + \mathbb{E}_{\pi_E^{obs}}[\log(1 - D(s, a))]$$

Causal GAIL: 판별자가 인과적으로 보정된 전문가 분포와 비교

$$\min_\pi \max_D \mathbb{E}_{do(\pi)}[\log D(s, a)] + \mathbb{E}_{do(\pi_E)}[\log(1 - D(s, a))]$$

9.6 실습: 기관투자자 거래 데이터로부터의 Causal IRL

9.6.1 실습 개요

목표: 가상의 기관투자자 거래 데이터에서 투자 보상 함수를 역추론하고, 비관측 교란을 보정한 모방 전략을 학습.

9.6.2 Python 구현 스케치

import numpy as np

class CausalIRL:
    """비관측 교란을 고려한 Inverse RL"""

    def __init__(self, causal_graph, features):
        self.G = causal_graph
        self.features = features  # phi(s, a)

    def estimate_do_distribution(self, expert_data, adjustment_set):
        """Backdoor adjustment로 do-분포 추정"""
        # P(a|do(s)) = sum_z P(a|s,z) P(z)
        do_probs = {}
        for z_val in adjustment_set.unique():
            conditional = expert_data.query(f'Z == {z_val}')
            marginal_z = len(conditional) / len(expert_data)
            do_probs[z_val] = {
                'conditional': conditional.groupby(['s', 'a']).size(),
                'weight': marginal_z
            }
        return do_probs

    def causal_feature_expectation(self, expert_data, adjustment_set):
        """인과적으로 보정된 특성 기대치"""
        do_dist = self.estimate_do_distribution(expert_data, adjustment_set)
        feature_exp = np.zeros(len(self.features))
        for z_val, info in do_dist.items():
            for (s, a), count in info['conditional'].items():
                phi = self.compute_features(s, a)
                feature_exp += phi * count * info['weight']
        return feature_exp / expert_data.shape[0]

    def learn_reward(self, expert_data, adjustment_set, 
                     n_iterations=100):
        """MWAL 기반 보상 함수 학습"""
        # 인과적 특성 기대치
        mu_expert = self.causal_feature_expectation(
            expert_data, adjustment_set
        )

        # 반복적 보상 학습
        w = np.ones(len(self.features)) / len(self.features)
        for i in range(n_iterations):
            # 현재 보상으로 최적 정책 계산
            r = lambda s, a: w @ self.compute_features(s, a)
            pi = self.solve_mdp(r)

            # 학습된 정책의 특성 기대치
            mu_pi = self.policy_feature_expectation(pi)

            # 가중치 업데이트 (multiplicative weights)
            w *= np.exp(mu_expert - mu_pi)
            w /= w.sum()

        return w  # 추정된 보상 가중치

    def evaluate_imitability(self):
        """그래프 기준으로 모방 가능성 판정"""
        # Zhang et al. (2020)의 완전 기준 적용
        # 비관측 교란의 위치와 조정 가능성 확인
        pass

# 실행
causal_irl = CausalIRL(
    causal_graph=market_dag,
    features=['return', 'volatility', 'drawdown', 'turnover']
)

# 모방 가능성 판정
imitability = causal_irl.evaluate_imitability()

# 보상 함수 학습
reward_weights = causal_irl.learn_reward(
    expert_data=institutional_trading_log,
    adjustment_set=['market_regime', 'sector']
)

print("추정된 보상 가중치:")
for feat, w in zip(causal_irl.features, reward_weights):
    print(f"  {feat}: {w:.3f}")

9.6.3 결과 해석

보상 가중치 해석 예시:

특성	추정 가중치	해석
return	0.35	수익 추구는 보통 수준
volatility	-0.40	변동성 회피가 가장 강함
drawdown	-0.20	낙폭 제한도 중시
turnover	-0.05	거래 비용은 경미한 패널티

이 결과는 "이 기관투자자는 수익 극대화보다 변동성 최소화를 더 중시하는 보수적 투자 철학을 가지고 있다"로 해석된다. 이러한 보상 구조의 역추론은 전문가의 명시적 진술 없이도 데이터에서 추출 가능하다.

핵심 요약 (Key Takeaways)

Causal Imitation Learning은 전문가의 보상 함수를 모르는 상태에서, 비관측 교란이 있는 시연 데이터로부터 효과적 정책을 학습하는 프레임워크다.
Imitability Criterion (Zhang et al., 2020)은 비관측 교란 하에서 모방의 실현가능성을 판정하는 완전한 필요충분 그래프 기준을 제공한다.
Sequential Causal IL (Kumor et al., 2021)은 순차적 MDP 환경으로의 확장으로, 누적 교란 편향 문제를 해결한다.
Causal IRL (Ruan et al., 2023)은 기존 IRL 알고리즘(MWAL, GAIL)을 비관측 교란 환경에서 사용 가능하게 확장하며, 전문가를 초과하는 정책도 학습 가능하다 (전문가가 편향에 의해 비최적일 때).
Partial Identification (Ruan et al., 2024)은 정확한 모방이 불가능한 경우 성과 경계를 도출하여, 보장 가능한 최소 성과를 추구한다.
금융 적용: 기관투자자 투자 철학 역추론, 중앙은행 반응함수 추정, 마켓메이커 인센티브 구조 학습.
Causal IRL은 $P^{do}$(개입적 분포)를 사용하여 표준 IRL의 교란 편향을 보정하며, 기존 알고리즘과의 호환성이 핵심 실무적 장점이다.

더 읽을거리

Zhang, J., Kumor, D. & Bareinboim, E. (2020). Causal Imitation Learning with Unobserved Confounders. NeurIPS. — 인과적 행동 클로닝의 원논문, 완전 imitability 기준.
Kumor, D., Zhang, J. & Bareinboim, E. (2021). Sequential Causal Imitation Learning with Unobserved Confounders. NeurIPS. — 순차적 환경으로의 확장.
Ruan, K., Zhang, J., Di, X. & Bareinboim, E. (2023). Causal Imitation Learning via Inverse Reinforcement Learning. ICLR. — IRL로의 확장, 전문가 초과 가능성.
Ruan, K., Zhang, J., Di, X. & Bareinboim, E. (2024). Causal Imitation for Markov Decision Processes: A Partial Identification Approach. NeurIPS. — 부분 식별 접근.
Ho, J. & Ermon, S. (2016). Generative Adversarial Imitation Learning. NeurIPS. — GAIL 원논문 (Causal GAIL의 기반).
Abbeel, P. & Ng, A. (2004). Apprenticeship Learning via Inverse Reinforcement Learning. ICML. — IRL의 고전적 기초.

Chapter 8. Task 5 — Learning Causal Models: 인과 구조 발견

hertzalpha — Wed, 1 Apr 2026 14:39:03 +0900

Chapter 8. Task 5 — Learning Causal Models: 인과 구조 발견

"Most of the work done in factor investing and economic indices' analysis rely on the correlation between the variables and do not consider the fundamental question of 'why'."
— Sadeghi, Gopal & Fesanghary (2024)

8.1 문제 정의: 인과 그래프의 학습

8.1.1 CRL Task 5의 위치

Task 5 (Learning Causal Models). 관측(L1)과 실험(L2)을 체계적으로 결합하여 SCM $\mathcal{M}$의 인과 그래프 $G$를 학습하라.

앞선 Chapter들(Ch.4–7)은 인과 그래프 $G$가 주어진 상태에서 출발했다. Task 5는 더 근본적인 질문을 다룬다: 인과 그래프 자체를 어떻게 데이터로부터 학습하는가?

금융에서 이 질문의 중요성:

팩터 간 인과 관계를 모르면, Task 2(어디에 개입할 것인가)의 POMIS를 계산할 수 없다
자산 간 인과 네트워크를 모르면, Task 4(전이가능성)의 Selection Diagram을 설계할 수 없다
인과 구조를 잘못 특정하면, 모든 후속 인과 추론이 편향된다

8.1.2 인과 발견 vs 상관 분석

	상관 분석	인과 발견
출력	무방향 연관 네트워크	방향성 인과 그래프 (DAG)
해석	"$X$와 $Y$가 함께 움직인다"	"$X$가 $Y$의 원인이다"
방향성	없음	있음 ($X \rightarrow Y$ vs $Y \rightarrow X$)
교란 처리	허위 연관 제거 불가	교란 경로 식별 및 차단
금융 사례	상관 행렬 기반 포트폴리오	인과 네트워크 기반 리스크 관리

8.1.3 인과 발견의 세 가지 접근 패러다임

패러다임	핵심 원리	대표 알고리즘	가정
Constraint-based	조건부 독립 테스트	PC, FCI, PCMCI, LPCMCI	Faithfulness, Markov
Score-based	그래프 점수 최적화	GES, NOTEARS, DYNOTEARS	점수 함수의 일관성
FCM-based	함수적 인과 모델의 비대칭성	LiNGAM, ANM, CAM	노이즈 분포 가정

8.2 Constraint-Based 방법론

8.2.1 PC 알고리즘의 기본 구조

PC 알고리즘(Peter-Clark)은 인과 발견의 기초적 알고리즘이다.

Phase 1: Skeleton Discovery (뼈대 발견)

모든 변수 쌍 $(X_i, X_j)$에 대해, 조건화 집합 $\mathbf{S}$를 점진적으로 확대하며 조건부 독립을 테스트:

$$X_i \perp\!\!\!\perp X_j \mid \mathbf{S} \quad \Rightarrow \quad X_i \text{와 } X_j \text{ 사이의 간선 제거}$$

Phase 2: Edge Orientation (간선 방향 결정)

Collider 패턴($X_i \rightarrow X_k \leftarrow X_j$)을 식별하고, 추가 규칙으로 간선을 방향화.

한계: PC는 인과 충분성(causal sufficiency)을 가정 — 모든 공통원인이 관측됨. 금융에서 이 가정은 거의 항상 위반.

8.2.2 FCI: 잠재 교란 허용

FCI (Fast Causal Inference)는 비관측 교란변수를 허용하는 확장:

간선 유형 확장: $\rightarrow$(인과), $\leftrightarrow$(비관측 공통원인), $\circ$(미확정)
출력: PAG (Partial Ancestral Graph) — 마르코프 동치 클래스를 대표
금융에서 비관측 교란(시장 심리, 내부 정보)의 존재를 허용

8.2.3 PCMCI: 시계열 인과 발견의 표준

시계열 데이터에서의 인과 발견을 위해 Runge et al. (2019)이 개발한 PCMCI:

Algorithm (PCMCI). 두 단계로 구성:

Stage 1: PC-stable 기반 조건 선택. 각 변수 $X_t^j$에 대해, 그 부모(parents) 후보를 조건부 독립 테스트로 축소:

$$\hat{\mathcal{P}}(X_t^j) = \{X_{t-\tau}^i : X_{t-\tau}^i \not\perp\!\!\!\perp X_t^j \mid \mathbf{S}\}$$

Stage 2: Momentary Conditional Independence (MCI) 테스트. 축소된 부모 집합을 조건으로, 각 잠재적 인과 링크를 테스트:

$$X_{t-\tau}^i \perp\!\!\!\perp X_t^j \mid \hat{\mathcal{P}}(X_t^j) \setminus \{X_{t-\tau}^i\}, \hat{\mathcal{P}}(X_{t-\tau}^i)$$

PCMCI의 핵심 장점:

고차원 시계열에서의 효율적 조건 선택 (차원의 저주 완화)
자기상관(autocorrelation)의 영향 통제
거짓 양성(false positive) 제어

PCMCI+ 확장: 동시점(contemporaneous) 인과 관계도 발견 가능.

가정:

인과 충분성 (causal sufficiency)
인과 마르코프 조건
Faithfulness
인과 정상성 (causal stationarity)
유한 최대 시차 $\tau_{max}$

8.2.4 LPCMCI: 잠재 교란 + 시계열

Gerhardus & Runge (2020)의 LPCMCI는 PCMCI를 잠재 교란 허용으로 확장:

FCI의 아이디어를 시계열에 적용
Middle marks 도입: 알고리즘 실행 중 중간 인과 정보를 표현
LPCMCI-PAG: 잠재 교란 하에서도 모호하지 않은 인과 해석 제공
거짓 양성 문제 완화

금융 적합성: 시장 심리, 내부 정보 등 비관측 교란이 보편적인 금융 데이터에 PCMCI보다 더 적합.

8.3 Score-Based 방법론

8.3.1 NOTEARS: 연속 최적화로의 전환

Zheng et al. (2018)의 NOTEARS는 인과 발견의 패러다임을 전환한 알고리즘:

기존: DAG 학습 = 이산적 조합 최적화 (NP-hard)
NOTEARS: DAG 학습 = 연속 제약 최적화 (경사하강법 적용 가능)

핵심 혁신 — 비순환성의 대수적 특성화:

$$h(\mathbf{W}) = \text{tr}(e^{\mathbf{W} \circ \mathbf{W}}) - d = 0$$

여기서 $\mathbf{W} \in \mathbb{R}^{d \times d}$는 인접 행렬, $\circ$는 원소별 곱, $d$는 변수 수. $h(\mathbf{W}) = 0$이면 $\mathbf{W}$에 대응하는 그래프는 비순환(acyclic).

최적화 문제:

$$\min_{\mathbf{W}} \frac{1}{2n} \|\mathbf{X} - \mathbf{X}\mathbf{W}\|_F^2 + \lambda \|\mathbf{W}\|_1 \quad \text{s.t.} \quad h(\mathbf{W}) = 0$$

8.3.2 DYNOTEARS: 시계열 확장

Pamfil et al. (2020)의 DYNOTEARS는 NOTEARS를 시계열로 확장:

구조적 VAR 모델:

$$X_t = \mathbf{W}0 X_t + \sum{\tau=1}^{p} \mathbf{W}\tau X{t-\tau} + \epsilon_t$$

$\mathbf{W}_0$: 동시점(intra-slice) 인과 관계
$\mathbf{W}_\tau$: 시차(inter-slice) 인과 관계

비순환성 제약은 $\mathbf{W}_0$에만 적용 (시차 관계는 자연스럽게 비순환).

8.3.3 NTS-NOTEARS: 비선형 시계열

NTS-NOTEARS는 NOTEARS의 비선형 + 비정상 확장:

신경망 기반 비선형 관계 모델링
시간에 따라 변하는 인과 구조 허용
금융 데이터의 비선형성과 비정상성에 더 적합

8.4 금융 시계열을 위한 인과 발견

8.4.1 CD-NOTS: 비정상 금융 시계열의 인과 발견

Sadeghi, Gopal & Fesanghary (2024)의 CD-NOTS는 금융 데이터에 특화된 인과 발견 알고리즘:

CD-NOTS (Causal Discovery for Non-Stationary Time Series). CD-NOD (비정상 데이터 인과 발견) 알고리즘을 시계열의 시차 의존성에 맞게 확장.

금융 데이터 특성에 대한 대응:

금융 데이터 특성	PCMCI의 한계	CD-NOTS의 대응
비정상성 (분포 이동)	정상성 가정 위반	분포 변화점 감지 + 적응
고차원	조건부 독립 테스트의 검정력 저하	효율적 조건 선택
비선형 의존성	선형 테스트의 한계	커널 기반 CI 테스트 (KCIT, RCoT)
잠재 교란	인과 충분성 가정 위반	부분적 대응

실증 결과: CD-NOTS는 다양한 시뮬레이션 데이터셋에서 PCMCI를 일관되게 F-score로 상회. 정밀도(precision)에서 특히 우수하며, 이는 금융에서 거짓 인과 관계의 비용이 높은 맥락에서 중요.

8.4.2 CD-NOTS의 금융 적용 사례

사례 1: Fama-French 팩터와 개별 주식 수익률

CD-NOTS를 Fama-French 5팩터와 Apple 수익률에 적용하여, 어떤 팩터가 Apple 수익률의 인과적 동인인지 식별.

상관 분석: 모든 팩터와 유의한 상관
CD-NOTS: 시장 팩터(MKT)와 수익성 팩터(RMW)만이 인과적 링크로 식별
나머지 팩터의 연관은 교란 경로를 통한 허위 상관

사례 2: 글로벌 매크로 인과 네트워크

다국가 실업률, CPI, PPI 간의 인과 관계를 CD-NOTS로 발견:

미국 CPI → 유럽 CPI의 시차 인과 관계 식별
일부 국가 간 연관은 공통 글로벌 요인(비관측 교란)에 의한 것으로 진단

사례 3: S&P 500 내 PBR과 주식 수익률

금융 기업의 PBR과 수익률 간 인과 관계:

비정상성을 무시하면 허위 인과 관계 다수 발견
CD-NOTS는 비정상성을 고려하여 강건한 인과 관계만 식별

8.4.3 Granger Causality의 한계

전통적 Granger 인과성은 금융에서 여전히 광범위하게 사용되지만, 본질적 한계가 있다:

Granger Causality (1969): $X$가 $Y$의 Granger-cause라면, $X$의 과거 값이 $Y$의 예측에 유의하게 기여한다.

$$Y_t = \alpha + \sum_{i=1}^{p} \beta_i Y_{t-i} + \sum_{j=1}^{q} \gamma_j X_{t-j} + \epsilon_t$$

$H_0: \gamma_1 = \gamma_2 = \cdots = \gamma_q = 0$ 을 기각하면 "Granger 인과".

Granger 인과 ≠ 진정한 인과:

방향성 오류: $X \rightarrow Y$와 $Y \rightarrow X$ 중 어느 방향인지 시차 순서에만 의존 — 동시점 인과 불가
교란 무시: 비관측 $Z$가 $X$와 $Y$ 모두의 원인이면, $X$가 $Y$를 Granger-cause하지만 진정한 인과는 아님
선형성 가정: 표준 Granger는 선형 관계만 탐지
정상성 가정: 비정상 시계열에서 허위 Granger 인과 빈발

López de Prado (2023)의 지적: "Granger 인과는 불행한 오명(unfortunate misnomer)이다. 경제학자들이 인과(causation)를 말할 때 연관(association)을 의미하고, 연관을 말할 때 인과를 의미하는 혼란의 대표적 사례."

8.5 관측 + 실험 데이터의 결합

8.5.1 CRL Task 5의 고유한 특성

Task 5가 다른 인과 발견 문헌과 구별되는 점은, 관측($\mathcal{L}_1$)과 실험($\mathcal{L}_2$) 데이터를 체계적으로 결합하여 인과 구조를 학습한다는 것이다.

순수 관측 데이터만으로는 마르코프 동치 클래스까지만 식별 가능 (방향 불확정). 실험 데이터(개입)가 추가되면 방향 식별이 가능해진다.

8.5.2 금융에서의 "실험"

금융에서 통제된 무작위 실험은 거의 불가능하지만, 준실험(quasi-experiment)과 자연 실험(natural experiment)이 존재한다:

준실험/자연실험	개입 변수	인과 발견에의 기여
중앙은행 금리 변경	금리	금리→자산가격 방향 확인
지수 편입/편출	수요 충격	수요→가격 방향 확인
규제 변화 (공매도 금지 등)	시장 구조	규제→유동성/변동성 방향 확인
예상치 못한 지정학적 이벤트	외생 충격	충격 전파 경로 식별
COVID-19 봉쇄	경제 활동	매크로→금융 전파 경로 식별

이러한 자연 실험은 관측 데이터로부터 식별할 수 없었던 간선 방향을 확정하는 데 활용된다.

8.5.3 Budgeted Experiment Design

Ghassami, Salehkaleybar, Kiyavash & Bareinboim (2018, ICML)은 예산 제약 하의 실험 설계를 연구:

문제: 인과 구조를 최대한 많이 식별하기 위해, 제한된 예산으로 어떤 변수에 어떤 순서로 개입해야 하는가?

금융 적용: 제한된 실험 예산(페이퍼 트레이딩, A/B 테스트)으로 최대한 많은 인과 관계를 확인하기 위한 최적 실험 설계.

8.6 인과 지식 그래프 (Financial Causal Knowledge Graph)

8.6.1 전문 지식 기반 인과 구조

데이터 기반 인과 발견의 보완으로, 도메인 전문 지식을 인과 그래프에 통합하는 접근:

FinCaKG (Financial Causal Knowledge Graph, Xu et al., 2024): 금융 전문 지식에서 인과 개념을 추출하고, 이를 기반으로 도구 변수를 식별하여 인과 추론의 신뢰성을 높이는 프레임워크.

프로세스:

금융 텍스트(보고서, 논문, 뉴스)에서 인과 관계 추출
인과 지식 그래프로 구조화
그래프에서 도구 변수(IV) 후보 식별
2SLS 등으로 인과 효과 추정

8.6.2 하이브리드 접근: 전문 지식 + 데이터

최적의 인과 발견은 전문 지식과 데이터의 결합이다:

Step 1: 도메인 전문가가 인과 그래프의 초안(prior DAG) 구성

확실한 인과 관계: 금리 → 채권 가격 (방향 확정)
불확실한 관계: 심리 → 주가? 또는 주가 → 심리? (방향 미확정)
불가능한 관계: 주가 $\not\rightarrow$ 금리 (대형 기관의 경우 무시 가능)

Step 2: 데이터 기반 알고리즘으로 불확실한 관계를 검증/발견

PCMCI+로 시차 인과 관계 발견
CD-NOTS로 비정상 시계열의 인과 관계 발견
전문가 DAG의 제약을 사전 지식(prior)으로 활용

Step 3: 자연 실험으로 방향 확정

금리 변경 이벤트로 금리→자산가격 경로 검증
지수 편입으로 수요→가격 경로 검증

8.7 인과 발견의 실무적 도전

8.7.1 금융 데이터의 특수성

도전	설명	대응 전략
비정상성	분포, 인과 구조 모두 시간에 따라 변화	CD-NOTS, 윈도우 기반 분석, 변화점 감지
고빈도 데이터	틱/분 단위의 대량 데이터	시간 해상도 선택, 집계(aggregation)
비선형성	레짐 의존적 비선형 관계	커널 CI 테스트, 신경망 기반 점수
잠재 교란	시장 심리, 내부 정보 등 비관측	LPCMCI, FCI, proxy 변수 활용
동시성	고빈도에서 시차 0의 인과 관계	PCMCI+, 동시점 방향화 규칙
피드백 루프	가격↔거래량 등 순환 관계	시간 인덱싱, 순환 SCM 확장
다중 검정	수십~수백 변수 쌍의 동시 테스트	FDR 제어 (Benjamini-Hochberg)

8.7.2 인과 그래프의 검증

학습된 인과 그래프의 검증(validation)은 필수적이다:

도메인 전문가 검토: 발견된 인과 관계가 경제적으로 타당한가?
자연 실험 기반 검증: 외생적 충격에 대한 반응이 인과 그래프의 예측과 일치하는가?
Out-of-sample 예측: 인과 그래프 기반 예측이 비인과적 모델보다 OOS에서 우수한가?
안정성 검사: 다른 시간 구간, 다른 하이퍼파라미터에서도 핵심 인과 관계가 유지되는가?
개입 일관성: 인과 그래프가 예측하는 개입 효과가 실제 정책 변경의 결과와 일치하는가?

8.8 실습: PCMCI+를 이용한 글로벌 자산 간 인과 구조 학습

8.8.1 실습 개요

목표: 주요 글로벌 자산 클래스(미국 주식, 미국 국채, 금, 원유, 달러 인덱스) 간의 시차 인과 구조를 PCMCI+로 발견.

8.8.2 Python 구현

import numpy as np
import tigramite
from tigramite import data_processing as pp
from tigramite.pcmci import PCMCI
from tigramite.independence_tests.parcorr import ParCorr

# 데이터 준비
# 변수: SPX(미국주식), UST(미국국채), GOLD(금), OIL(원유), DXY(달러)
var_names = ['SPX', 'UST', 'GOLD', 'OIL', 'DXY']
data = load_asset_returns(var_names, start='2010-01-01', end='2024-12-31')

# Tigramite 데이터 프레임 생성
dataframe = pp.DataFrame(
    data=data.values,
    var_names=var_names,
    datatime=data.index
)

# 조건부 독립 테스트 선택
parcorr = ParCorr(significance='analytic')  # 선형 관계용
# 비선형: CMIknn, GPDC 등도 가능

# PCMCI+ 실행
pcmci = PCMCI(
    dataframe=dataframe,
    cond_ind_test=parcorr,
    verbosity=1
)

results = pcmci.run_pcmciplus(
    tau_min=0,           # 동시점 관계 포함
    tau_max=5,           # 최대 5일 시차
    pc_alpha=0.05        # 유의 수준
)

# 결과 시각화
tp.plot_graph(
    val_matrix=results['val_matrix'],
    graph=results['graph'],
    var_names=var_names,
    link_colorbar_label='MCI',
    node_colorbar_label='auto-MCI',
    figsize=(10, 6)
)

# 시차별 인과 관계 출력
for j, target in enumerate(var_names):
    parents = pcmci.return_significant_links(
        pq_matrix=results['p_matrix'],
        val_matrix=results['val_matrix'],
        alpha_level=0.01
    )
    if parents[j]:
        print(f"\n{target}의 인과적 부모:")
        for (i, tau), val in parents[j].items():
            print(f"  {var_names[i]} (t-{tau}): MCI = {val:.3f}")

8.8.3 기대 결과 및 해석

예상되는 주요 인과 관계:

원인 → 결과	시차	경제적 해석
DXY → OIL	1-2일	달러 강세 → 원유 가격 하락 (달러 표시)
OIL → SPX	1-3일	에너지 가격 충격 → 주식 시장 영향
UST → SPX	0-1일	금리 변동 → 주가 할인율 변화
SPX → GOLD	0일	위험자산 회피 → 안전자산 수요
DXY → GOLD	0-1일	달러 강세 → 금 가격 하락

교란 경로 식별 사례:

SPX와 GOLD의 음의 상관이 단순 관측에서 관찰되지만, DXY를 조건화하면 사라질 수 있음 → DXY가 교란변수
이러한 교란 경로의 식별은 포트폴리오 분산투자 전략에 직접적 함의

핵심 요약 (Key Takeaways)

인과 발견(Causal Discovery)은 CRL의 기초 인프라다 — 인과 그래프 없이는 후속 Task(개입, 전이, 반사실)가 작동하지 않는다.
세 가지 패러다임 (Constraint-based, Score-based, FCM-based) 각각의 장단점이 있으며, 금융 데이터의 특성(비정상, 비선형, 잠재 교란)에 따라 선택해야 한다.
PCMCI/PCMCI+는 시계열 인과 발견의 현행 표준이지만, 정상성과 인과 충분성을 가정한다. LPCMCI가 잠재 교란을 허용하고, CD-NOTS가 비정상성에 대응한다.
NOTEARS/DYNOTEARS는 연속 최적화로 대규모 인과 발견을 가능하게 하지만, 선형성 가정에 주의.
Granger 인과 ≠ 진정한 인과: 교란, 동시성, 비선형성을 처리하지 못하는 근본적 한계.
하이브리드 접근(전문 지식 + 데이터 + 자연 실험)이 실무적으로 가장 강건한 인과 그래프를 생성한다.
인과 그래프의 검증이 필수적: 도메인 전문가 검토, 자연 실험 기반 확인, OOS 예측, 안정성 검사.

더 읽을거리

Runge, J. et al. (2019). Detecting and Quantifying Causal Associations in Large Nonlinear Time Series Datasets. Science Advances. — PCMCI의 원논문.
Gerhardus, A. & Runge, J. (2020). High-Recall Causal Discovery for Autocorrelated Time Series with Latent Confounders. NeurIPS. — LPCMCI.
Sadeghi, A., Gopal, A. & Fesanghary, M. (2024). Causal Discovery in Financial Markets: A Framework for Nonstationary Time-Series Data. — CD-NOTS와 금융 적용.
Zheng, X. et al. (2018). DAGs with NO TEARS: Continuous Optimization for Structure Learning. NeurIPS. — NOTEARS 원논문.
Pamfil, R. et al. (2020). DYNOTEARS: Structure Learning from Time-Series Data. AISTATS. — 시계열 NOTEARS.
Ghassami, A. et al. (2018). Budgeted Experiment Design for Causal Structure Learning. ICML. — 예산 제약 하 실험 설계.
Spirtes, P., Glymour, C. & Scheines, R. (2000). Causation, Prediction, and Search. MIT Press. — 인과 발견의 고전적 교과서.

Chapter 7. Task 4 — Generalizability & Robustness: 전이가능성과 구조적 불변성

hertzalpha — Wed, 1 Apr 2026 14:36:00 +0900

Chapter 7. Task 4 — Generalizability & Robustness: 전이가능성과 구조적 불변성

"Science is about generalization; conclusions obtained in a laboratory setting are transported and applied elsewhere, in an environment that differs in many aspects from that of the laboratory."
— Bareinboim & Pearl (2013)

7.1 문제 정의: 환경 간 정책 전이

7.1.1 CRL Task 4의 핵심 질문

Task 4 (Generalizability & Robustness). 훈련 환경(SCM $\mathcal{M}$)과 배포 환경($\mathcal{M}^*$) 사이에 공유되는 구조적 불변성(structural invariances)에 기반하여 정책을 일반화하라.

이것은 금융에서 가장 보편적이고 가장 어려운 문제 중 하나다:

과거(training) 시장에서 학습한 전략이 미래(deployment) 시장에서도 작동하는가?
미국 시장에서 개발한 전략이 한국/신흥국 시장에서 통용되는가?
강세장에서 학습한 전략이 약세장에서도 유효한가?
주식 전략을 채권이나 대체투자에 확장할 수 있는가?

7.1.2 전통적 일반화 접근의 한계

표준 ML/RL에서의 일반화는 동일 분포(i.i.d.) 가정에 의존한다: 훈련 데이터와 테스트 데이터가 같은 분포에서 생성된다. 금융에서 이 가정은 거의 항상 위반된다.

가정	금융 현실	결과
훈련 ≈ 테스트 분포	레짐 전환, 구조 변화	과적합, 전략 실패
정상적 환경	비정상 시계열, 분포 이동	분포 외(OOD) 성능 저하
단일 환경	다중 시장, 다중 자산	교차 시장 전이 불가

인과적 접근의 핵심 이점: 인과 구조(SCM의 구조함수 $\mathbf{F}$와 인과 그래프 $G$)는 분포 변화에도 불변할 수 있다. 분포가 변해도 인과 메커니즘이 동일하면, 학습된 정책이 전이 가능하다.

7.2 Transportability Theory

7.2.1 Selection Diagram

Transportability의 핵심 도구는 Selection Diagram이다.

Definition 7.1 (Selection Diagram, Pearl & Bareinboim, 2011). 두 환경 $\Pi$(소스)와 $\Pi^*$(타겟) 사이의 공통점과 차이점을 인코딩하는 인과 그래프 $D$:

표준 인과 간선: 두 환경에 공통된 인과 관계
$S$-노드: 두 환경 사이에 차이가 존재하는 메커니즘을 표시하는 특수 노드. $S_i$가 변수 $V_i$를 가리키면, $V_i$의 구조함수가 환경 간에 다를 수 있다.

$S$-노드가 가리키지 않는 변수의 메커니즘은 두 환경에서 동일하다고 가정한다 (구조적 불변성).

금융 예시: 미국→한국 전략 전이

Selection Diagram:
  InterestRate → StockReturn
  Sentiment → StockReturn  
  Regulation → TradingCost

  S₁ → InterestRate     (금리 구조 다름)
  S₂ → Regulation       (규제 환경 다름)
  S₃ → Sentiment        (투자자 심리 다름)

  [불변] InterestRate → StockReturn 메커니즘 (금리↑ → 주가↓ 관계)
  [불변] TradingCost → ExecutionQuality 메커니즘 (비용 효과)

$S$-노드로 표시된 변수(금리 수준, 규제 환경, 투자자 심리)는 미국과 한국에서 다르지만, 금리가 주가에 미치는 메커니즘 자체는 동일하다고 가정할 수 있다.

7.2.2 Transportability의 형식적 정의

Definition 7.2 (Transportability). 인과 효과 $P^(y \mid do(x))$가 소스 환경 $\Pi$에서 타겟 환경 $\Pi^$로 전이 가능(transportable)하다는 것은, 소스의 실험 결과 $P(y \mid do(x))$와 타겟의 관측 데이터 $P^(\mathbf{v})$의 결합으로부터 $P^(y \mid do(x))$를 계산할 수 있다는 것이다.

Transport Formula의 일반적 형태:

$$P^(y \mid do(x)) = \sum_z P(y \mid do(x), z) , P^(z)$$

이것이 유효한 조건: 변수 $Z$가 두 환경 사이의 차이를 매개(mediate)하며, $Z$-특정 인과 효과 $P(y \mid do(x), z)$가 환경 간에 불변일 때.

금융 해석: "미국에서 추정한 금리 인상의 주가 효과(금리 수준별 $z$)가 한국에서도 동일하다면, 한국의 금리 분포 $P^*(z)$와 결합하여 한국에서의 인과 효과를 추정할 수 있다."

7.2.3 Transportability의 완전성 결과

Theorem 7.1 (Transportability Completeness, Bareinboim & Pearl, 2012, 2014).

필요충분 조건: Selection diagram $D$가 주어졌을 때, 인과 효과의 전이가능성을 판정하는 필요충분 그래프 조건이 존재한다.
완전 알고리즘: Transport formula를 계산하는 완전한 알고리즘이 존재한다 — 알고리즘이 실패하면 전이가 불가능하다.

7.2.4 Meta-Transportability

Bareinboim & Pearl (2013)은 다중 이질적 소스 환경에서 타겟으로의 전이를 일반화했다:

Meta-Transportability. $k$개의 소스 환경 ${\Pi_1, \ldots, \Pi_k}$에서 각각 실험 결과가 주어졌을 때, 이들을 결합하여 타겟 환경 $\Pi^*$의 인과 효과를 추정.

금융에서의 Meta-Transportability: 미국, 유럽, 일본, 중국 등 다수의 시장에서 학습한 전략 정보를 결합하여, 새로운 시장(예: 인도, 브라질)에서의 전략 효과를 추정.

7.2.5 Counterfactual Transportability

Correa, Lee & Bareinboim (2022, ICML)은 transportability를 $\mathcal{L}_3$(반사실)로 확장했다:

Counterfactual Transportability. 소스 환경의 반사실적 분포를 타겟 환경으로 전이하는 조건과 알고리즘을 확립.

이것은 Ch.6의 반사실적 의사결정과 본 챕터의 일반화를 통합한다: "미국 시장에서의 반사실적 전략 평가를 한국 시장에 전이할 수 있는가?"

7.3 금융에서의 Structural Invariances

7.3.1 인과 불변 특성의 개념

금융에서 환경(레짐, 시장, 시대)이 변해도 유지되는 인과 불변 특성(Invariant Causal Features)을 식별하는 것이 핵심이다.

$$Y = f(\underbrace{X_{inv}}_{\text{인과 불변}}, \underbrace{X_{spu}}_{\text{허위/가변}}, U)$$

$X_{inv}$: 모든 환경에서 $Y$에 대한 인과 관계가 동일한 특성
$X_{spu}$: 특정 환경에서만 $Y$와 상관되지만, 인과 관계가 아닌 특성

금융 예시:

특성	인과 불변 ($X_{inv}$) 후보	허위/가변 ($X_{spu}$) 후보
밸류 팩터 (PBR)	장기 평균회귀 메커니즘	금리 환경에 따른 유효성 변동
모멘텀	행동 편향(과잉반응)의 인과 메커니즘	레짐 의존적 크래시 패턴
신용 스프레드 → 경기침체	신용 리스크의 인과 전파 메커니즘	규제 변화에 따른 스프레드 수준
유동성 → 수익률	유동성 프리미엄의 인과 구조	시장 미시구조 변화

7.3.2 세 가지 전이 차원

차원 1: 시간 전이 (Temporal Transfer) — 레짐 간

과거 레짐에서 학습한 전략을 현재/미래 레짐으로 전이.

Selection Diagram에서 $S$-노드가 가리키는 변수:

변동성 수준 ($S \rightarrow \sigma$)
상관 구조 ($S \rightarrow \Sigma$)
시장 심리 ($S \rightarrow \text{Sentiment}$)

불변 메커니즘:

밸류 팩터의 평균회귀 방향
시장 충격 모델의 기본 구조 (square-root law)
분산투자 효과의 방향

Transport formula 적용: 과거 레짐의 팩터 효과(레짐별 $z$)를 추정하고, 현재 레짐 분포 $P^*(z)$와 결합.

차원 2: 지역 전이 (Geographic Transfer) — 시장 간

한 시장(예: 미국)에서 학습한 전략을 다른 시장(예: 한국, 신흥국)으로 전이.

$S$-노드로 표시되는 차이:

규제 환경 ($S \rightarrow \text{Regulation}$)
투자자 구성 ($S \rightarrow \text{InvestorMix}$)
시장 미시구조 ($S \rightarrow \text{Microstructure}$)
통화/환율 요인 ($S \rightarrow \text{FX}$)

불변 메커니즘 후보:

이자율 패리티의 기본 방향
밸류/모멘텀 프리미엄의 존재 (다수 시장에서 관측)
위기 전파의 기본 채널 (유동성, 신용)

차원 3: 자산 전이 (Asset Class Transfer) — 자산 클래스 간

주식 시장에서 개발한 전략 원리를 채권, 원자재, 대체투자로 확장.

$S$-노드로 표시되는 차이:

수익률 생성 메커니즘 ($S \rightarrow \text{ReturnDriver}$)
유동성 구조 ($S \rightarrow \text{Liquidity}$)
벤치마크 구조 ($S \rightarrow \text{Benchmark}$)

불변 메커니즘 후보:

밸류/모멘텀 효과는 주식, 채권, 원자재, 통화에서 모두 관측 (Asness, Moskowitz & Pedersen, 2013)
리스크 프리미엄의 존재
과잉반응/과소반응의 행동적 메커니즘

7.4 레짐 전환과 인과적 적응

7.4.1 Regime-Switching SCM

금융의 비정상성을 인과적으로 모델링하는 프레임워크:

Definition 7.3 (Regime-Switching SCM). 레짐 변수 $Z_t \in {1, \ldots, K}$를 포함한 확장된 SCM:

$$V_i^{(t)} = f_i^{(Z_t)}(\text{Pa}(V_i), U_i)$$

구조함수 $f_i$가 레짐 $Z_t$에 의존한다. 즉, 인과 메커니즘 자체가 레짐에 따라 변할 수 있다.

레짐 전환의 인과 그래프:

$$Z_t \rightarrow V_i^{(t)}, \quad Z_t \rightarrow Z_{t+1}$$

7.4.2 불변 vs 가변 메커니즘의 분리

Regime-Switching SCM에서 핵심 과업은 어떤 메커니즘이 레짐에 불변이고, 어떤 메커니즘이 레짐에 의존하는가를 식별하는 것이다.

$$f_i^{(Z_t)} = \begin{cases} f_i^{inv} & \text{if } V_i \in \mathbf{V}_{inv} \quad (\text{불변}) \\ f_i^{(k)} & \text{if } V_i \in \mathbf{V}_{var}, Z_t = k \quad (\text{레짐 의존}) \end{cases}$$

불변 메커니즘으로 확인된 관계는 레짐이 변해도 전이 가능하다.

7.4.3 Invariant Causal Prediction (ICP)

Peters, Bühlmann & Meinshausen (2016)의 Invariant Causal Prediction은 다중 환경 데이터에서 인과 특성을 식별하는 통계적 방법:

$$\mathbf{X}_{inv} = \bigcap_{e \in \mathcal{E}} \left\{ S \subseteq \{1, \ldots, p\} : Y^e = \beta_S^\top X_S^e + \epsilon^e, \quad \epsilon^e \perp\!\!\!\perp X_S^e \text{ for all } e \right\}$$

모든 환경 $e \in \mathcal{E}$에서 동시에 $Y$의 잔차가 $X_S$와 독립인 변수 집합 $S$가 인과 변수의 후보다.

금융 적용: 여러 레짐(강세, 약세, 위기, 회복)의 데이터를 환경으로 사용하여, 모든 레짐에서 수익률과 안정적 관계를 유지하는 팩터를 인과 불변 팩터로 식별.

7.5 Transport Formula의 금융 적용

7.5.1 미국→한국 팩터 전략 전이

문제: 미국 시장(소스 $\Pi$)에서 밸류 팩터 전략의 인과 효과를 추정했다. 이를 한국 시장(타겟 $\Pi^*$)에 전이할 수 있는가?

Selection Diagram 설계:

$S$-노드 위치 (미국과 한국의 차이):

$S_1 \rightarrow \text{InvestorComposition}$: 개인 vs 기관 비율 다름
$S_2 \rightarrow \text{Regulation}$: 공매도 규제 다름
$S_3 \rightarrow \text{MarketStructure}$: 호가 단위, 거래 시간 다름

불변 가정:

$\text{PBR} \rightarrow \text{FutureReturn}$ 메커니즘: PBR이 낮은 주식이 장기적으로 높은 수익을 내는 평균회귀 메커니즘은 동일

Transport Formula:

$$P^*_{KR}(R \mid do(\text{Value})) = \sum_z P_{US}(R \mid do(\text{Value}), Z = z) \, P^*_{KR}(Z = z)$$

여기서 $Z$는 두 환경 사이의 차이를 매개하는 변수(투자자 구성, 규제 환경 등).

해석: "미국에서 추정한 밸류 전략의 효과(투자자 구성별, 규제 환경별)를 한국의 투자자 구성/규제 분포와 결합하여 한국에서의 효과를 추정."

7.5.2 강세장→약세장 전략 전이

문제: 강세장(소스)에서 학습한 RL 에이전트를 약세장(타겟)에 배포.

$S$-노드:

$S_1 \rightarrow \text{Volatility}$: 변동성 수준
$S_2 \rightarrow \text{Correlation}$: 자산 간 상관 구조
$S_3 \rightarrow \text{Liquidity}$: 유동성 수준

불변 메커니즘 후보:

리스크-수익 트레이드오프의 방향
분산투자 효과의 존재
거래 비용 모델의 기본 구조

Transport formula를 적용하면, 강세장에서 추정한 변동성/상관/유동성별 전략 효과를 약세장의 변동성/상관/유동성 분포와 결합하여 성과를 예측할 수 있다.

7.5.3 전이 불가능성의 진단

Transport 알고리즘이 실패하는 경우 = 전이 불가능. 이는 "이 전략은 새 환경으로 전이할 수 없다"는 경고 신호다.

금융에서 전이 불가능한 전형적 상황:

상황	원인	대응
$S$-노드가 보상 변수에 직접 연결	수익 생성 메커니즘 자체가 다름	타겟 환경의 고유 데이터 필요
비관측 교란이 환경 간 다름	비관측 요인의 분포 이동	감도 분석, 추가 proxy 변수
인과 구조 자체가 다름	새 환경에서 새로운 인과 관계	인과 발견부터 재수행

7.6 Robust Policy Learning

7.6.1 Distributionally Robust Optimization (DRO)

환경 불확실성에 대한 실무적 대응으로 분포 강건 최적화:

$$\pi^*_{robust} = \arg\max_\pi \min_{P \in \mathcal{P}} \mathbb{E}_P\left[\sum_t \gamma^t R_t \mid \pi\right]$$

여기서 $\mathcal{P}$는 가능한 환경 분포의 불확실성 집합(ambiguity set).

인과적 DRO에서 $\mathcal{P}$는 인과 구조에 의해 제약된다:

$$\mathcal{P}_{causal} = \{P^* : P^* \text{가 인과 그래프 } G \text{와 호환되고, 불변 메커니즘을 공유}\}$$

이는 임의의 분포 이동이 아닌, 인과적으로 가능한 분포 이동만을 고려하므로, 과도하게 보수적이지 않은(tight) 강건 정책을 학습한다.

7.6.2 인과적 Domain Adaptation

표준 domain adaptation은 소스와 타겟의 공변량 이동(covariate shift)을 보정한다. 인과적 확장:

$$P^*(Y \mid do(X)) = \sum_z P(Y \mid do(X), Z = z) \cdot \underbrace{\frac{P^*(Z = z)}{P(Z = z)}}_{\text{인과적 중요도 가중치}} \cdot P(Z = z)$$

여기서 가중치는 소스와 타겟의 교란/조절 변수 분포 차이를 보정한다. 표준 공변량 이동 보정과 달리, 인과 구조에 의해 어떤 변수를 보정해야 하는지가 결정된다.

7.7 실습: 시장 레짐 전환 시 전략 로버스트니스 테스트

7.7.1 실습 개요

목표: 2015-2019년(강세장)에서 학습한 RL 포트폴리오 전략이 2020-2023년(위기+회복+인플레이션)으로 전이 가능한지를 인과적 transportability 프레임워크로 분석.

7.7.2 구현 프레임워크

# Selection Diagram 정의
class SelectionDiagram:
    def __init__(self, causal_graph, s_nodes):
        """
        causal_graph: 환경 공통 인과 구조
        s_nodes: 환경 간 차이가 있는 메커니즘 {변수: True/False}
        """
        self.G = causal_graph
        self.S = s_nodes  # S-노드: 메커니즘이 다른 변수

    def is_transportable(self, treatment, outcome):
        """Transport 알고리즘으로 전이가능성 판정"""
        # do-calculus 기반 식별 (단순화)
        adjustment_set = self.find_transport_adjustment(treatment, outcome)
        if adjustment_set is not None:
            return True, adjustment_set
        return False, None

    def transport_formula(self, source_data, target_data, 
                          treatment, outcome, adjustment_vars):
        """Transport formula 적용"""
        result = 0
        for z_val in adjustment_vars.unique_values():
            # 소스에서의 z-특정 인과 효과
            causal_effect_z = source_data.estimate_causal_effect(
                treatment, outcome, condition=z_val
            )
            # 타겟에서의 z 분포
            prob_z_target = target_data.marginal_prob(z_val)
            result += causal_effect_z * prob_z_target
        return result

# 실행
sd = SelectionDiagram(
    causal_graph=market_dag,
    s_nodes={'Volatility': True, 'Correlation': True, 
             'Liquidity': True, 'RiskFreeRate': True}
)

transportable, adj_set = sd.is_transportable(
    treatment='FactorTilt', outcome='Return'
)

if transportable:
    transported_effect = sd.transport_formula(
        source_data=bull_market_data,
        target_data=bear_market_data,
        treatment='FactorTilt', outcome='Return',
        adjustment_vars=adj_set
    )
    print(f"전이된 인과 효과: {transported_effect:.3f}")
else:
    print("전이 불가능 — 타겟 환경 고유 데이터 필요")

7.7.3 결과 해석

인과적 전이가능성 분석 결과의 해석 가이드:

전이 가능한 경우: Transport formula로 타겟 환경 성과를 추정하고, 소스 환경 결과와 비교. 차이가 크면 환경 간 조절 변수($Z$) 분포의 이동이 크다는 의미.
전이 불가능한 경우: 어떤 $S$-노드가 전이를 차단하는지 진단. 해당 메커니즘에 대한 타겟 환경 고유 데이터 수집이 필요.
부분 전이: 일부 인과 효과는 전이 가능하고 일부는 불가. 전이 가능한 부분은 소스 데이터를 활용하고, 불가능한 부분은 타겟 데이터로 보완하는 하이브리드 접근.

핵심 요약 (Key Takeaways)

Transportability Theory (Bareinboim & Pearl)는 소스 환경의 인과 지식을 타겟 환경으로 전이하는 형식적 프레임워크로, 필요충분 조건과 완전 알고리즘을 제공한다.
Selection Diagram은 두 환경 간의 공통점(공유 인과 메커니즘)과 차이점($S$-노드)을 명시적으로 인코딩하며, 금융의 레짐 전환·지역 전이·자산 전이에 직접 적용된다.
구조적 불변성(Structural Invariances)은 환경이 변해도 유지되는 인과 메커니즘으로, 전이 가능한 전략의 기반이다. 금융에서 인과 불변 팩터를 식별하는 것이 로버스트 전략의 핵심.
Meta-Transportability는 다수의 이질적 소스 환경(다중 시장, 다중 레짐)의 정보를 결합하여 새 환경으로 전이하는 확장이다.
Counterfactual Transportability (Correa et al., 2022)는 반사실적 분포의 환경 간 전이로, Ch.6의 반사실적 의사결정과 본 챕터의 일반화를 통합한다.
전이 불가능의 진단도 중요한 결과다 — "이 전략은 새 환경에서 작동하지 않을 수 있다"는 경고를 형식적으로 도출할 수 있다.
인과적 DRO는 인과적으로 가능한 분포 이동만을 고려하여, 과도하게 보수적이지 않은 강건 정책을 학습한다.

더 읽을거리

Pearl, J. & Bareinboim, E. (2011). Transportability of Causal and Statistical Relations: A Formal Approach. AAAI. — Transportability의 원논문.
Bareinboim, E. & Pearl, J. (2013). A General Algorithm for Deciding Transportability of Experimental Results. Journal of Causal Inference, 1(1):107-134. — 완전 알고리즘.
Bareinboim, E. & Pearl, J. (2014). Transportability from Multiple Environments with Limited Experiments: Completeness Results. NeurIPS. — 다중 환경 전이의 완전성.
Correa, J., Lee, S. & Bareinboim, E. (2022). Counterfactual Transportability: A Formal Approach. ICML. — 반사실적 전이.
Peters, J., Bühlmann, P. & Meinshausen, N. (2016). Causal Inference by Using Invariant Prediction: Identification and Confidence Intervals. JRSSB. — Invariant Causal Prediction.
Bareinboim, E. & Pearl, J. (2016). Causal Inference and the Data-Fusion Problem. PNAS, 113(27):7345-7352. — Data fusion의 통합 프레임워크.

Chapter 6. Task 3 — Counterfactual Decision-Making: 반사실적 의사결정

hertzalpha — Wed, 1 Apr 2026 14:10:23 +0900

Chapter 6. Task 3 — Counterfactual Decision-Making: 반사실적 의사결정

"What would have happened had reality been different, even when no data about this imagined reality is available."
— Bareinboim et al. (2020)

6.1 반사실적 추론이 금융에서 중요한 이유

6.1.1 CRL Task 3의 위치

Task 3 (Counterfactual Decision-Making). 반사실과 $\mathcal{L}_3$ 기반 무작위화에 기반하여 최적화 기준을 변경하라. 여기에는 의도성(intentionality), 자유의지(free will), 자율성(autonomy)의 개념이 관련된다.

Task 1과 Task 2가 $\mathcal{L}_1$과 $\mathcal{L}_2$ 수준에서 작동했다면, Task 3는 Pearl 인과 계층의 최상위 수준인 $\mathcal{L}_3$(반사실)로 진입한다.

6.1.2 금융 의사결정의 반사실적 본질

금융 실무자의 핵심 질문 상당수는 반사실적이다:

질문	인과 계층	형식적 표현
"이 팩터가 과거에 좋은 수익률을 냈나?"	$\mathcal{L}_1$	$P(R \mid \text{Factor}=f)$
"이 팩터에 노출을 높이면 수익이 개선될까?"	$\mathcal{L}_2$	$P(R \mid do(\text{Factor}=f))$
"내가 이 팩터를 사용했다면 수익이 달라졌을까?"	$\mathcal{L}_3$	$P(R_f \mid \text{Factor}=f', R=r')$

세 번째 질문은 특정 개인/단위에 대한 반사실이며, $\mathcal{L}_3$에만 해당한다.

6.1.3 반사실이 필요한 세 가지 금융 시나리오

시나리오 1: 전략 후회 분석 (Regret Analysis)

매니저 A가 2022년 초 기술주 비중 30%($X$)를 유지, 수익률 $Y = -18$%. "만약 10%로 줄였다면?"

$$P(Y_{X'=10\%} \mid X = 30\%, Y = -18\%)$$

ATE는 "모든 매니저가 줄였다면"이지만, 반사실은 "이 매니저, 이 시장에서" 다른 결정의 개인화된 답.

시나리오 2: 성과 귀인 (Performance Attribution)

$$\text{Skill}(u) = Y_{\pi_{manager}}(u) - Y_{\pi_{benchmark}}(u)$$

"동일 시장 상황($u$)에서의 매니저 전략과 벤치마크의 차이" = ITE.

시나리오 3: Human-AI 협업

"AI 추천을 매니저가 수정했다. 수정하지 않았다면?"

$$P(Y_{\pi_{AI}} \mid \pi = \pi_{modified}, Y = y_{observed})$$

6.2 반사실적 의사결정의 이론적 기초

6.2.1 Effect of Treatment on the Treated (ETT)

Definition 6.1 (ETT). 처치($X = x$)를 받은 개체에서, 비처치($X = x'$) 시의 결과:

$$\text{ETT} = \mathbb{E}[Y_{x'} \mid X = x] = \mathbb{E}[Y_{x'} - Y_x \mid X = x]$$

	ATE	ETT
대상	전체 모집단	처치 받은 하위 집단
계층	$\mathcal{L}_2$	$\mathcal{L}_3$
금융 해석	"전략의 평균적 효과"	"이 전략 사용자에게의 효과"

6.2.2 반사실적 최적화 기준

표준 RL ($\mathcal{L}_2$):

$$\pi^* = \arg\max_\pi \mathbb{E}[Y \mid do(\pi)]$$

반사실 RL ($\mathcal{L}_3$):

$$\pi^*{CF} = \arg\max_\pi \mathbb{E}[Y_\pi \mid X = x{obs}, Y = y_{obs}]$$

$\mathcal{L}_2$는 "평균적으로 좋은 전략", $\mathcal{L}_3$는 "지금 나의 상황에서 최적인 전략". 기관투자자에게 후자가 더 직접적.

6.3 Counterfactual Data-Fusion

6.3.1 MABUC과 무한 후회 문제

Theorem 6.1 (Bareinboim et al., 2015). 비관측 교란 존재 시, 표준 무작위화($\mathcal{L}_2$) 기반 알고리즘은 교란을 단순 평균하여 무한 후회(infinite regret)를 야기할 수 있다.

순수한 무작위 탐색은 비관측 교란 $U$의 정보를 버린다. 이 정보는 반사실적으로만 회복 가능.

6.3.2 Forney, Pearl & Bareinboim (2017)의 핵심 결과

Theorem 6.2 (Counterfactual Data-Fusion). 반사실적 의사결정은 관측($\mathcal{L}_1$) + 실험($\mathcal{L}_2$) 데이터의 일관된 결합을 가능하게 하여, 무한 후회를 해결한다.

ETT 기반 결정 규칙:

$$a^*{CF}(x{obs}) = \arg\max_a \mathbb{E}[Y_a \mid X = x_{obs}]$$

"나의 자연적 선택이 $x_{obs}$인 상태에서, 행동 $a$의 반사실적 기대 보상을 최대화."

실험 결과: 실험 데이터만의 Thompson Sampling이 최악, 관측+실험+반사실 결합이 최고 성과.

6.3.3 금융 해석: 자연적 선호의 정보 가치

트레이더의 관측 행동 $X_{obs}$ 뒤의 비관측 요인 $U$(직관, 경험, 사적 정보). 순수 실험은 $U$의 정보를 버리지만, 반사실적 접근은 보존한다.

6.4 Counterfactual Realizability

6.4.1 Raghavan & Bareinboim (2025, ICLR)

반사실적 분포에서 실제로 샘플링할 수 있는가?

Definition 6.2 (Realizability). 반사실적 분포 $P(Y_{x'} \mid X = x)$가 실현 가능하다면, 물리적 실험으로 직접 샘플 추출이 가능하다.

Theorem 6.3 (완전 알고리즘). 임의의 반사실적 분포에 대해, 인과 그래프와 물리적 제약 하에서 실현 가능 여부를 판정하는 완전한(complete) 알고리즘이 존재한다.

핵심 확장: Counterfactual Randomization (ctf-randomization) — 동일 변수 $X$에 대해 서로 다른 하위 경로에 다중 무작위화를 수행. ETT 기반 단일 무작위화보다 엄밀히 우월.

Theorem 6.4. Causal template의 밴딧에서 ctf-randomization은 최적성 보장.

6.4.2 Counterfactual Randomization vs 표준 무작위화

	표준 무작위화 ($\mathcal{L}_2$)	반사실적 무작위화 ($\mathcal{L}_3$)
비관측 교란	평균화 (정보 손실)	보존 (정보 활용)
개인화	불가 (평균적 효과)	가능 (개인별 반사실)
금융 예시	모든 투자자에 동일 전략	각 투자자 상황에 맞춤 전략

6.5 금융 적용

6.5.1 반사실적 전략 평가: Abduction-Action-Prediction

Step 1: Abduction — 관측된 시장 결과와 행동으로부터 외생변수 $\mathbf{U}$ 추론:

$$P(\mathbf{U} \mid \pi = \pi_{actual}, \mathbf{Y} = \mathbf{y}_{obs})$$

Step 2: Action — 전략을 대안으로 교체

Step 3: Prediction — 동일 외생 조건에서 대안 수익률 계산:

$$Y_{\pi_{alt}}(\mathbf{u}) = f_Y(\text{Pa}(Y) \mid_{\pi = \pi_{alt}}, \mathbf{u})$$

6.5.2 Counterfactual Regret Analysis

$$\text{CF-Regret}(u) = V^{\pi^*}(s_0; u) - V^{\pi_{actual}}(s_0; u)$$

실무 활용: 위기 시나리오 취약점 식별, 매니저 평가(운 vs 실력 분리), 전략 개선 포인트 분해.

6.5.3 Human-AI 협업

반사실적 질문	형식화	실무적 의의
AI가 결정했다면?	$P(Y_{\pi_{AI}} \mid \pi = \pi_{human}, Y = y)$	AI 도입의 기대 효과
인간이 개입 안 했다면?	$P(Y_{\pi_{AI}} \mid \pi = \pi_{AI+human}, Y = y)$	인간 오버라이드의 가치
인간 직관만 따랐다면?	$P(Y_{\pi_{human}} \mid \pi = \pi_{AI+human}, Y = y)$	AI 시그널의 부가가치

6.5.4 반사실 vs 시나리오 분석

접근	수준	외생 조건	금융 예시
시나리오 분석	$\mathcal{L}_2$	변경 가능	"$do(\text{Rate}=5)$%이면?"
반사실 분석	$\mathcal{L}_3$	고정	"2008년 그 상황에서 다른 결정이면?"

반사실은 특정 역사적 맥락의 외생 조건을 고정하여 더 정확한 what-if 분석 가능.

6.6 반사실의 식별과 경계

6.6.1 식별 조건

조건	식별 가능 여부	방법
SCM 완전 명세	점 식별	Abduction-Action-Prediction
선형 SCM	점 식별	구조방정식 역산
단조 SCM	점 식별	단조성 제약
일반 비모수	경계만 가능	Balke-Pearl bounds
관측+실험 결합	경계 축소	Data fusion bounds

6.6.2 금융 실무 접근

완전한 SCM 명세가 어려운 금융에서는 경계 접근이 실용적:

$$P_L(Y_{x'} = 1 \mid X = x) \leq P(Y_{x'} = 1 \mid X = x) \leq P_U(Y_{x'} = 1 \mid X = x)$$

경계 축소 방법: 추가 데이터, 구조적 가정(단조성/선형성), 도구 변수, 감도 분석.

6.7 AI 자율성과 반사실

6.7.1 금융 AI의 자율성 스펙트럼

수준	결정 구조	인과 계층
완전 수동	인간 결정, AI 관측	$\mathcal{L}_1$
보조적	인간 결정, AI 추천	$\mathcal{L}_1 \sim \mathcal{L}_2$
반자율	AI 결정, 인간 거부권	$\mathcal{L}_2$
완전 자율	AI 독립 운용	$\mathcal{L}_2 \sim \mathcal{L}_3$
반사실 자율	AI 자체 반사실 평가·수정	$\mathcal{L}_3$

최상위("반사실 자율"): AI가 과거 결정을 반사실적으로 평가하고 자체 개선. CRL Task 3의 궁극적 비전.

6.8 실습: 금융위기 시나리오에서의 반사실적 전략 비교

6.8.1 실습 개요

목표: 2020년 3월 COVID-19 폭락에서 세 전략의 반사실적 성과 비교.

실행 전략: 60/40 buy-and-hold
대안 1: 변동성 기반 동적 배분
대안 2: 테일리스크 헤지 포함

6.8.2 Python 구현 스케치

import numpy as np

class FinancialSCM:
    """금융 반사실 분석용 SCM"""

    def abduction(self, strategy_actual, returns_observed):
        """외생 시장 충격 추론"""
        U_market = returns_observed - self.expected_return(strategy_actual)
        return U_market

    def counterfactual(self, U_market, strategy_alt):
        """동일 외생 조건에서 대안 전략 수익률"""
        return self.expected_return(strategy_alt) + U_market

    def regret_analysis(self, pi_actual, pi_alt, y_obs):
        U = self.abduction(pi_actual, y_obs)
        y_cf = self.counterfactual(U, pi_alt)
        return {
            'cf_returns': y_cf,
            'cf_regret': y_cf - y_obs,
            'cf_sharpe': np.mean(y_cf)/np.std(y_cf)*np.sqrt(252),
            'max_regret_date': np.argmax(np.abs(y_cf - y_obs))
        }

6.8.3 해석 주의사항

SUTVA: 전략 변경이 시장 자체를 변경하지 않는다는 가정 — 대규모 기관은 위반 가능
모델 의존성: 다양한 SCM 가정 하 강건성 검증 필수
사후 편향: 정보 집합의 명시적 제한 필요
반사실 vs 시나리오: 외생 조건 고정(반사실) vs 변경(시나리오)의 차이 인식

핵심 요약 (Key Takeaways)

반사실적 의사결정($\mathcal{L}_3$)은 "나의 상황에서 다른 결정이었다면"이라는 개인화된 질문에 답하며, $\mathcal{L}_2$ 최적화("평균적으로 좋은 전략")보다 기관투자자에게 더 직접적으로 관련된다.
ETT는 처치 받은 하위 집단의 반사실적 효과를 추정하며, 개인화된 전략 평가의 핵심 도구다.
Counterfactual Data-Fusion (Forney et al., 2017)은 관측+실험+반사실 결합으로 $\mathcal{L}_2$ 기반의 무한 후회를 해결한다.
Counterfactual Realizability (Raghavan & Bareinboim, 2025)는 반사실 분포의 물리적 실현 가능성에 대한 완전 알고리즘을 제공하며, ctf-randomization이 ETT보다 엄밀히 우월함을 증명.
금융 적용: 전략 후회 분석, 성과 귀인(운 vs 실력), Human-AI 협업 설계, 금융위기 반사실 시나리오.
반사실은 모델 의존적이므로 경계 분석, 감도 분석, 정보 집합 제한이 실무적으로 필수.

더 읽을거리

Bareinboim, E., Forney, A. & Pearl, J. (2015). Bandits with Unobserved Confounders: A Causal Approach. NeurIPS.
Forney, A., Pearl, J. & Bareinboim, E. (2017). Counterfactual Data-Fusion for Online Reinforcement Learners. ICML.
Forney, A. & Bareinboim, E. (2019). Counterfactual Randomization: Rescuing Experimental Studies from Obscured Confounding. AAAI.
Raghavan, A. & Bareinboim, E. (2025). Counterfactual Realizability and Decision-Making. ICLR.
Zhang, J. & Bareinboim, E. (2022). Can Humans Be Out of the Loop? CLeaR.
Balke, A. & Pearl, J. (1994). Counterfactual Probabilities: Computational Methods, Bounds, and Applications. UAI.