금융연구/인과강화학습

Chapter 1. 왜 금융에 인과적 강화학습인가?

hertzalpha 2026. 4. 1. 00:50

Chapter 1. 왜 금융에 인과적 강화학습인가?

"With four parameters I can fit an elephant, and with five I can make him wiggle his trunk."
— John von Neumann

1.1 금융 의사결정의 본질: 순차적·동적·반사실적 문제

금융은 본질적으로 순차적 의사결정(sequential decision-making) 문제다. 포트폴리오 매니저는 오늘의 매매가 내일의 포지션을 결정하고, 내일의 포지션이 다음 주의 리스크 프로파일을 바꾼다는 것을 알고 있다. 이러한 의사결정의 연쇄는 단순한 1회성 예측 문제와 근본적으로 다르다.

금융 의사결정이 가진 세 가지 핵심 특성을 정리하면 다음과 같다.

첫째, 순차성(Sequential Nature). 트레이더의 매매, 중앙은행의 금리 결정, 기업의 자본배분은 모두 시간에 걸쳐 전개되는 순차적 과정이다. 오늘의 행동 $a_t$가 내일의 상태 $s_{t+1}$을 바꾸고, 그 상태가 다시 다음 행동을 제약한다. 이는 정확히 Markov Decision Process(MDP)의 구조이며, 강화학습(RL)이 자연스러운 프레임워크가 되는 이유다.

둘째, 동적 불확실성(Dynamic Uncertainty). 금융 시장은 비정상적(non-stationary)이다. 레짐이 전환되고, 상관 구조가 붕괴하며, 과거의 패턴이 미래에 반복된다는 보장이 없다. 2022년 주식-채권 동시 하락이 대표적이다. 수십 년간 유지된 음의 상관관계가 인플레이션 레짐 전환과 함께 무너졌다. 이는 상관관계 기반 의사결정의 구조적 취약성을 극명하게 보여준다.

셋째, 반사실적 본질(Counterfactual Nature). 투자의 핵심 질문은 항상 반사실적(counterfactual)이다:

"만약 2008년에 다른 포트폴리오를 구성했다면 손실이 얼마였을까?"
"만약 Fed가 금리를 올리지 않았다면 자산 가격은 어떻게 변했을까?"
"만약 우리가 이 팩터에 노출을 줄였다면 성과가 달라졌을까?"

이러한 질문은 관측 데이터(Layer 1)만으로는 답할 수 없다. Pearl의 인과 계층(Causal Hierarchy)에서 Layer 3(반사실)에 해당하며, 이것이 인과추론이 금융에 필수적인 근본적 이유다.

1.2 상관관계 기반 ML의 한계와 인과추론의 필요성

1.2.1 "상관관계 ≠ 인과관계"의 금융적 함의

현대 금융의 대부분의 정량적 방법론 — 팩터 모델, 포트폴리오 최적화, 리스크 관리 — 은 연관(association) 기반이다. 수익률 $R_i$와 팩터 $F_k$ 사이의 관계를 회귀 계수 $\beta_{ik}$로 추정하고, 상관 행렬 $\Sigma$를 기반으로 포트폴리오를 구성한다.

그러나 이 접근의 한계는 이미 여러 차원에서 드러나고 있다.

Factor Zoo 문제. Cochrane (2011)이 "factor zoo"로 명명한 현상은, 수백 개의 팩터가 자산 수익률을 "예측"한다고 주장되지만, 대부분이 허위 상관(spurious correlation)에 기반한다는 것이다. López de Prado (2023)는 이 문제의 핵심이 팩터 투자 문헌이 인과적 주장(causal claim)이 아닌 연관적 주장(associational claim)만을 한다는 점에 있다고 진단한다. 저자들은 관측 현상과 일관된 인과 그래프를 식별하지 않고, 상관관계로 모델을 정당화하며, 인과 메커니즘을 반증할 실험을 제안하지 않는다.

López de Prado는 허위 주장을 두 가지 유형으로 구분한다:

Type-A 허위성: 백테스트 과적합(backtest overfitting)으로 인한 허위 발견. 충분히 많은 전략을 시도하면 우연히 높은 성과를 보이는 전략이 반드시 나타난다.
Type-B 허위성: 교란변수 미통제(under-controlling)로 인한 허위 인과. 관측된 팩터-수익률 관계가 실은 비관측 교란변수에 의한 허위 연관일 수 있다.

이 두 가지 유형은 모두 인과적 사고의 부재에서 비롯된다.

백테스트 과적합. 백테스트는 금융 전략 평가의 표준 도구이지만, 그 자체로는 인과적 증거를 제공하지 못한다. Von Neumann의 경고처럼, 충분한 파라미터가 있으면 어떤 과거 데이터든 적합시킬 수 있다. Bailey et al. (2014)은 "성공적 백테스트를 식별하는 데 관여한 시행 횟수를 보고하지 않는 것은 일종의 사기에 해당한다"고 주장했다. Perignon et al. (2024)의 재현성 연구에서는 168개 팀이 6개 논문을 재현한 결과, 1,000개 테스트 중 52%만이 동일한 결론에 도달했다.

상관 붕괴. 2022년의 주식-채권 동시 하락은 상관 기반 분산투자(diversification)의 구조적 한계를 노출했다. 인플레이션 레짐 전환이라는 인과적 구조 변화(causal structural change)가 발생했을 때, 과거 상관 행렬에 기반한 포트폴리오는 무력했다. 인과적 앵커(causal anchor) 없는 상관관계는 패턴(pattern)일 뿐 도구(tool)가 아니다.

1.2.2 Simpson's Paradox in Finance

Simpson's Paradox는 상관관계 기반 분석의 위험을 가장 직관적으로 보여주는 현상이다. 전체 데이터에서 나타나는 추세가 하위 집단으로 분해하면 사라지거나 역전된다.

금융 예시: 펀드 성과 평가의 역설.

	Fund A 수익률	Fund B 수익률
강세장 기간	12% (80% 배분)	15% (30% 배분)
약세장 기간	-5% (20% 배분)	-2% (70% 배분)
전체 평균	8.6%	3.1%

전체 평균만 보면 Fund A가 압도적으로 우수하다. 그러나 각 레짐 내에서는 Fund B가 더 우수하다 (강세장 15% > 12%, 약세장 -2% > -5%). Fund A의 높은 전체 수익률은 강세장에 더 많이 노출되었기 때문이지, 운용 능력이 뛰어나서가 아니다.

여기서 시장 레짐(market regime)은 교란변수(confounder)다. 레짐이 펀드의 배분 비율과 수익률 모두에 영향을 미치기 때문에, 레짐을 통제하지 않으면 성과 비교가 왜곡된다.

이를 인과 그래프로 표현하면:

$$\text{Market Regime} \quad (Z) \longrightarrow \text{Fund Allocation} \quad (X)$$

$$\text{Market Regime} \quad (Z) \longrightarrow \text{Return} \quad (Y)$$

$$\text{Fund Allocation} \quad (X) \longrightarrow \text{Return} \quad (Y)$$

$Z$가 $X$와 $Y$ 모두의 원인이므로, $Z$를 통제하지 않은 $P(Y \mid X)$는 인과 효과 $P(Y \mid do(X))$와 다르다. Pearl의 backdoor adjustment가 필요한 전형적 상황이다:

$$P(Y \mid do(X=x)) = \sum_{z} P(Y \mid X=x, Z=z) , P(Z=z)$$

이 공식은 "Fund A를 선택했을 때(관측)"가 아니라 "모든 투자자에게 Fund A를 배정했을 때(개입)"의 효과를 추정한다. 금융에서 이 구분은 실질적으로 중요하다 — 백테스트(관측)와 실전 배포(개입)의 차이가 정확히 이 $P(Y \mid X)$와 $P(Y \mid do(X))$의 차이이기 때문이다.

1.2.3 López de Prado 논쟁: 포트폴리오 최적화에 인과 모델이 필수인가?

최근 금융 학계에서 가장 활발한 논쟁 중 하나는, 포트폴리오 최적화에 인과적 팩터 모델이 필수 조건인가라는 질문이다.

주장 (López de Prado et al., 2024, 2025): 구조적으로 잘못 특정화된(misspecified) 예측 모델 — 관련 변수를 누락하거나 함수적 관계를 잘못 표현한 모델 — 은 필연적으로 왜곡된 시그널을 생성하고, 효율적 프론티어를 붕괴시킨다. 따라서 인과 식별가능성(causal identifiability)은 투자 효율성의 전제 조건이다.

핵심 논거:

잘못된 특정화는 필연적으로 시그널 역전(sign inversion)을 유발한다
시그널 역전은 비효율성의 유일한 동인이다
시그널 부호 일치(sign agreement)는 효율성을 보장한다
완전 특정화된 인과 모델 없이는 일관된 효율적 프론티어가 존재할 수 없다

반론: 이에 대해 여러 연구자들이 이 주장의 보편성에 도전했다. 반론의 핵심은:

잘못 특정화된 모델도 방향적 타당성(directional validity)을 유지할 수 있다. 누락변수 편의(OVB)는 항상 시그널을 역전시키는 것이 아니라, 크기를 감쇠(attenuate)시키는 경우가 더 흔하다.
비효율성은 역전이 아닌 보정 오류(calibration error)에서 더 자주 발생한다.
효율적 프론티어는 시그널이 양의 정렬(positive alignment)을 유지하는 한 볼록(convex)하고 비퇴화(non-degenerate)로 남는다.
S&P 500 실증 분석에서, 예측 시그널은 구조적 정확성 없이도 실행 가능한 프론티어를 산출한다.

본서의 입장: 이 논쟁은 "상관 vs 인과"라는 이분법이 아니라, 어떤 상황에서 어떤 수준의 인과적 이해가 필요한가라는 스펙트럼의 문제로 이해해야 한다. CFA Institute (2026)의 최근 분석이 적절히 요약했듯이: "인과 지식이 이용 가능할 때 사용하고, 인과 가설이 있을 때 검증하라. 연관 기반 사고도 시간과 관측 가능성의 제약 하에서 여전히 가치가 있다."

본서가 제안하는 Causal Reinforcement Learning은 이 두 접근을 체계적으로 결합하는 프레임워크다. 인과 구조가 알려진 영역에서는 구조적 제약을 활용하고, 불확실한 영역에서는 데이터로부터 학습하되 인과적 가드레일을 유지한다.

1.3 Causal Reinforcement Learning의 등장과 금융 적용의 로드맵

1.3.1 CRL이란 무엇인가

Causal Reinforcement Learning (CRL)은 Columbia University의 Elias Bareinboim이 주도하는 연구 프로그램으로, 인과추론(Causal Inference, CI)의 구조적 불변성(structural invariances)과 강화학습(Reinforcement Learning, RL)의 샘플 효율성(sample efficiency)을 결합한다.

핵심 관찰은 이렇다: CI와 RL은 독립적으로 발전해 왔지만, 실제로는 동일한 빌딩 블록 — 반사실적 관계(counterfactual relations) — 위에서 작동한다. 이 연결을 완전히 확립하면, 어느 분야 단독으로는 보이지 않는 자연스럽고 보편적인 학습 문제 클래스가 드러난다.

Pearl의 인과 계층을 RL의 렌즈로 재해석하면:

계층	인과추론	강화학습	금융 적용
L1: Association	$P(Y \mid X)$	관측 정책 평가	과거 수익률 분석, 팩터 노출 추정
L2: Intervention	$P(Y \mid do(X))$	온라인 정책 학습	포트폴리오 리밸런싱, 헤지 실행
L3: Counterfactual	$P(Y_x \mid X', Y')$	반사실적 최적화	"다른 전략이었다면?", 후회 분석

Causal Hierarchy Theorem (CHT)은 하위 계층의 데이터만으로는 상위 계층의 질문에 답할 수 없다는 것을 증명한다. 즉:

관측 데이터(L1)만으로는 개입의 효과(L2)를 알 수 없다 (일반적으로).
개입 데이터(L2)만으로는 반사실적 질문(L3)에 답할 수 없다 (일반적으로).

이것이 금융에서 의미하는 바는 심대하다: 백테스트(L1)만으로는 실전 배포(L2)의 효과를 보장할 수 없고, 실전 성과(L2)만으로는 "다른 전략이었다면"(L3)이라는 질문에 답할 수 없다.

1.3.2 CRL의 9대 과업 (Tasks)

Bareinboim et al.은 CRL의 범위를 9개의 핵심 과업으로 체계화했다. 각 과업은 CI와 RL의 결합이 없으면 해결할 수 없는 고유한 문제를 다룬다.

Task	명칭	핵심 질문	금융 적용 예시
1	Causal Offline-to-Online Learning	L1+L2 데이터를 어떻게 결합하는가?	백테스트 → 라이브 트레이딩 전환
2	When/Where to Intervene	어디에 개입하고 어디를 관측할 것인가?	팩터 틸팅: 능동 관리 vs 패시브 노출
3	Counterfactual Decision-Making	L3 기반 최적화를 어떻게 하는가?	전략 후회 분석, Human-AI 협업
4	Generalizability & Robustness	다른 환경으로 정책을 전이할 수 있는가?	레짐 전환, 지역 간 전략 전이
5	Learning Causal Models	인과 구조를 어떻게 발견하는가?	자산 간 인과 네트워크 구축
6	Causal Imitation Learning	보상 없이 전문가를 모방할 수 있는가?	기관투자자 행동 역추론
7	Causal Curriculum Learning	학습 환경을 어떻게 설계하는가?	단순→복잡 시장으로의 단계적 훈련
8	Causal Reward Shaping	교란된 데이터에서 보상을 추정하는가?	진정한 알파의 인과적 분리
9	Causal Game Theory	교란 하의 다중 에이전트 균형은?	LOB 시장 미시구조, HFT 균형

1.3.3 왜 지금인가: 세 가지 수렴

CRL의 금융 적용이 지금 시의적절한 이유는 세 가지 흐름이 수렴하고 있기 때문이다.

1. RL의 금융 적용 성숙. 2024–2025년에 걸쳐 금융 RL은 학술적 호기심에서 실무 도구로 전환되고 있다. FinRL 대회(2023–2025)는 200명 이상이 참여하며, LLM 기반 시그널 생성(FinRL-DeepSeek)과 앙상블 방법론이 전통적 벤치마크를 지속적으로 상회하고 있다. CFA Institute는 2025년 보고서에서 RL과 IRL을 자산운용의 핵심 패러다임으로 제시하며, "금융은 예측에서 정책(policy)으로 전환해야 한다"고 권고했다.

2. 인과추론의 금융 진입. 인과적 자산 가격 결정(Haddad et al., 2025), 인과적 팩터 투자(Howard, 2025), 비정상 금융 시계열의 인과 발견(CD-NOTS) 등 인과추론이 금융의 핵심 문제에 직접 적용되기 시작했다. López de Prado의 "Causal Factor Investing" 연구 프로그램은, 팩터 투자가 현재의 현상학적 단계(phenomenological stage)를 넘어 과학적 분과로 발전하려면 인과적 기초가 필수라고 주장한다.

3. LLM + RL 융합의 가속. Fin-R1, FinRL-DeepSeek 등 대규모 언어 모델과 RL의 결합이 금융에서 빠르게 진전되고 있다. 이 융합에 인과적 프레임워크를 추가하면 — 인과적으로 구조화된 Chain-of-Thought, 인과적 보상 설계, 인과적 Hallucination 감지 — 차세대 금융 AI의 기반이 된다.

1.4 본서의 구성과 독자 가이드

1.4.1 책의 구조

본서는 5개 Part, 21개 Chapter로 구성된다.

Part I (Ch.1–3): Foundations. 인과추론과 강화학습의 수리적 기초를 금융 맥락으로 재구성한다. SCM, do-calculus, Pearl의 인과 계층, MDP, Bellman 방정식, Off-Policy Learning의 핵심 이론을 다룬다.

Part II (Ch.4–12): CRL의 9대 과업. Bareinboim et al.의 CRL 프레임워크를 각 과업별로 독립 챕터에서 다루되, 모든 챕터가 (1) 이론, (2) 금융 적용, (3) 실습 코드의 3중 구조를 따른다.

Part III (Ch.13–18): 고급 주제. 인과적 자산 가격 결정, Deep Hedging, 최적 집행, 리스크 관리, LLM+CRL 융합 등 금융 특화 고급 주제를 다룬다.

Part IV (Ch.19–20): 구현과 실무. End-to-End 시스템 아키텍처와 Python 실무 가이드를 제공한다.

Part V (Ch.21): 전망. 열린 문제, 미래 연구 방향, 기관투자자를 위한 도입 로드맵을 논의한다.

1.4.2 독자 수준별 가이드

독자 유형	추천 경로	전제 지식
퀀트 리서처	Part I → Part II → Part III	확률론, 최적화, 기초 ML
포트폴리오 매니저	Ch.1 → Ch.4–7 → Ch.14, 17	금융 이론, 기초 통계
금융공학 대학원생	순차적 전체	선형대수, 확률론, 기초 프로그래밍
AI/ML 연구자	Ch.2–3 → Part II → Ch.18	ML, 기초 인과추론
CIO/투자 임원	Ch.1, Ch.21, 각 챕터 요약	금융 실무 경험

1.4.3 표기법 규약

본서에서 사용하는 주요 표기법:

기호	의미
$\mathcal{M} = \langle \mathbf{U}, \mathbf{V}, \mathbf{F}, P(\mathbf{U}) \rangle$	Structural Causal Model
$G$	인과 그래프 (DAG)
$do(X=x)$	변수 $X$에 대한 개입 (intervention)
$P(Y \mid do(X))$	개입적 분포 (interventional distribution)
$Y_x(u)$	단위 $u$에서 $X=x$일 때 $Y$의 반사실적 값
$\mathcal{S}, \mathcal{A}, P, R, \gamma$	MDP 구성 요소: 상태, 행동, 전이, 보상, 할인율
$\pi(a \mid s)$	정책 (policy)
$V^{\pi}(s), Q^{\pi}(s,a)$	가치 함수, 행동-가치 함수
$\mu$	행동 정책 (behavior policy, 로그 데이터 생성)
$\pi_e$	평가 정책 (evaluation policy, 새 정책)

1.4.4 각 챕터의 구조

모든 챕터는 다음 구조를 따른다:

동기 부여 예시: 금융 현장의 구체적 문제 상황으로 시작
이론: 수학적 정의, 정리, 알고리즘을 LaTeX 수식으로 제시
금융 적용: 이론의 금융 맥락 해석과 구체적 유스케이스
실습: Python 코드 예제 (DoWhy, FinRL, Tigramite 등 활용)
핵심 요약: 챕터의 주요 takeaway를 bullet point로 정리
더 읽을거리: 핵심 참고문헌 3–5편

핵심 요약 (Key Takeaways)

금융 의사결정은 순차적, 동적, 반사실적 문제이며, 이는 RL과 인과추론의 자연스러운 적용 영역이다.
상관관계 기반 접근(팩터 모델, 백테스트, 포트폴리오 최적화)은 교란변수, 비정상성, 시그널 허위성에 구조적으로 취약하다.
Simpson's Paradox는 교란변수를 통제하지 않은 금융 분석이 어떻게 결론을 역전시킬 수 있는지 보여주는 정형화된 사례다.
Causal Hierarchy Theorem은 백테스트(L1)만으로 실전(L2) 효과를 보장할 수 없고, 실전 성과(L2)만으로 반사실적 질문(L3)에 답할 수 없음을 수학적으로 증명한다.
CRL은 CI의 구조적 불변성과 RL의 샘플 효율성을 결합하여, 인과적으로 안전한 금융 의사결정 프레임워크를 제공한다.
RL의 금융 적용 성숙, 인과추론의 금융 진입, LLM+RL 융합의 가속이라는 세 흐름의 수렴이 CRL의 금융 적용을 시의적절하게 만든다.

더 읽을거리

Bareinboim, E., Zhang, J., Lee, S. (2024). An Introduction to Causal Reinforcement Learning. Technical Report R-65, CausalAI Lab, Columbia University. — CRL 프레임워크의 공식 소개 논문.
Pearl, J. & Mackenzie, D. (2018). The Book of Why. Basic Books. — 인과추론의 비기술적 소개로, 금융 실무자에게 적합.
López de Prado, M. (2023). Causal Factor Investing. Cambridge Elements. — 팩터 투자에서 인과적 사고의 필요성을 역설.
Bai, Y. et al. (2025). A Review of Reinforcement Learning in Financial Applications. Annual Review of Statistics and Its Application, 12:209-232. — 금융 RL의 최신 종합 리뷰.
CFA Institute (2025). Chapter 6: RL and IRL — A Practitioner's Guide for Investment Management. — 실무자 관점의 금융 RL 가이드.

'금융연구 > 인과강화학습' 카테고리의 다른 글

Chapter 6. Task 3 — Counterfactual Decision-Making: 반사실적 의사결정 (0)	2026.04.01
Chapter 5. Task 2 — When and Where to Intervene: 정책 공간 정제 (1)	2026.04.01
Chapter 4. Task 1 — Causal Offline-to-Online Learning: 일반화된 정책 학습 (0)	2026.04.01
Chapter 3. 강화학습의 수리적 기초 (RL Foundations) (0)	2026.04.01
Chapter 2. 인과추론의 수리적 기초 (Causal Inference Foundations) (1)	2026.04.01

현재글Chapter 1. 왜 금융에 인과적 강화학습인가?

hertzalpha 님의 블로그

hertzalpha 님의 블로그 입니다.

PE #M&A딜 #사모펀드 #사모주식 #대체투자, 인과추론, 상태추정 #신호처리 #베이즈추론 #칼만필터 #칼만스무딩, 오프라인강화학습, OfflineRL, 인과투자, # #인과추론 #CausalInference #오프라인강화학습 #OfflineRL #OffPolicyLearning #금융AI #FinancialAI #MDP #인과적강화학습 #CausalRL #포트폴리오최적화 #퀀트 #머신러닝 #DeepLearning #AlgoTrading, 금융AI, 일본 기타 #일본 여성기타리스트 # 일본 메탈기타리스트 # 일본 록 기타리스트, PMI #MA #통합관리 #글로벌표준 #BCG #McKinsey #변화관리 #시너지 #애자일 #문화통합, 벤처캐피탈 # 세콰이어, 사모주식, Buyout #PE #M&A딜 #인수합병 #사모펀드 #사모주식, PE # M&A # 인수합병 # 딜, PE # M&A # 인수합병 # 딜 # 사모펀드 # 사모주식, reinforcementlearning, FinancialAI, causalinference, OffPolicyLearning, 강화학습,

Today :
Yesterday :

hertzalpha 님의 블로그