금융연구/인과강화학습

Chapter 4. Task 1 — Causal Offline-to-Online Learning: 일반화된 정책 학습

hertzalpha 2026. 4. 1. 10:48

Chapter 4. Task 1 — Causal Offline-to-Online Learning: 일반화된 정책 학습


"Off-policy methods can significantly improve sample efficiency, since they allow an agent to learn from observed trajectories generated by different behavior policies, without directly deploying target policies in the underlying environment."
— Zhang & Bareinboim (2025)


4.1 문제 정의: L1(관측) + L2(개입) 데이터의 체계적 결합

4.1.1 CRL Task 1의 위치

CRL의 첫 번째 과업은 가장 근본적인 문제를 다룬다:

Task 1 (Causal Offline-to-Online Learning). 오프라인(L1, 관측) 및 온라인(L2, 개입) 모드의 상호작용을 체계적으로 결합하여 정책 $\pi$를 학습하라.

이것은 금융에서 가장 보편적인 상황이다. 우리는 방대한 과거 거래 데이터(오프라인, 관측)와 제한적인 실시간 트레이딩 경험(온라인, 개입)을 동시에 보유하고 있으며, 이 둘을 최적으로 결합하여 실전 배포 가능한 전략을 학습하고자 한다.

4.1.2 표준 Off-Policy Learning의 한계

Ch.3에서 다룬 표준 off-policy 방법론(IS, DR 등)은 핵심적 가정에 의존한다:

Assumption (No Unobserved Confounding). 행동 정책 $\mu$가 선택한 행동 $A_t$는 관측 상태 $S_t$만에 의해 결정된다. 즉, $S_t$가 $A_t$와 미래 상태/보상 사이의 모든 교란 경로를 차단한다.

이를 SCM 용어로:

$$A_t \perp\!\!\!\perp U_{S,t} \mid S_t$$

여기서 $U_{S,t}$는 미래 상태와 보상에 영향을 미치는 비관측 요인이다.

금융에서 이 가정이 위반되는 전형적 상황:

비관측 교란변수 $U_t$ 행동($A_t$)에 미치는 영향 결과($S_{t+1}, R_t$)에 미치는 영향
트레이더의 사적 정보 매매 결정에 반영 가격 변동에 영향
시장 심리(공포/탐욕) 포지션 사이징에 영향 수익률 분포에 영향
내부 미팅/리서치 메모 종목 선정에 반영 (관측되지 않은) 정보 우위
유동성 사정 매매 타이밍에 영향 체결 가격에 영향
다른 참가자의 의도 시장 판독에 반영 가격 충격에 영향

비관측 교란이 존재하면, 표준 OPE 추정량은 체계적으로 편향된다. 백테스트에서 우수한 전략이 실전에서 실패하는 근본적 원인 중 하나가 바로 이것이다.

4.1.3 Confounded MDP (CMDP)

CRL은 이 문제를 형식화하기 위해 Confounded MDP를 도입한다.

Definition 4.1 (Confounded MDP, Zhang & Bareinboim, 2016). CMDP는 표준 MDP에 비관측 교란변수 $U_t$가 추가된 구조다:

$$\mathcal{M}_C = \langle \mathcal{S}, \mathcal{A}, \mathcal{U}, P, R, \gamma \rangle$$

여기서 $U_t \in \mathcal{U}$는 시점 $t$의 비관측 교란변수로, 행동과 다음 상태(또는 보상) 모두에 영향을 미칠 수 있다.

CMDP의 인과 그래프:

$$\begin{array}{ccccccc} S_t & \rightarrow & A_t & \rightarrow & S_{t+1} & \rightarrow & A_{t+1} \\ & & \uparrow & & \uparrow & & \\ & & U_t & \rightarrow & U_{t+1} & & \end{array}$$

$U_t$가 $A_t$와 $S_{t+1}$ 모두에 영향을 미치므로, $A_t$와 $S_{t+1}$ 사이에 backdoor path $A_t \leftarrow U_t \rightarrow S_{t+1}$가 존재한다. 이 경로가 열려 있으므로, 관측 분포 $P(S_{t+1} \mid S_t, A_t)$는 인과 효과 $P(S_{t+1} \mid S_t, do(A_t))$와 다르다.

금융 해석: 과거 트레이더가 사적 정보($U_t$)에 기반하여 매매($A_t$)했고, 그 사적 정보가 시장 결과($S_{t+1}$)에도 영향을 미쳤다면, 거래 로그만 분석해서는 매매 행위의 진정한 인과 효과를 알 수 없다.


4.2 Generalized Off-Policy Learning

4.2.1 인과적 Bellman 방정식

표준 Bellman 방정식(Ch.3, Theorem 3.1)은 비관측 교란 부재를 가정한다. CMDP에서는 이를 확장해야 한다.

Zhang & Bareinboim (2020)은 인과적 관점의 Bellman 방정식을 유도했다:

Theorem 4.1 (Causal Bellman Equation, Zhang & Bareinboim, 2020). CMDP $\mathcal{M}_C$에서, 정책 $\pi$의 인과적 가치 함수(causal value function)는:

$$V^{\pi}_{causal}(s) = \sum_a \pi(a \mid s) \left[ R^{do}(s, a) + \gamma \sum_{s'} P^{do}(s' \mid s, a) \, V^{\pi}_{causal}(s') \right]$$

여기서 $R^{do}(s, a) = \mathbb{E}[R_t \mid S_t = s, do(A_t = a)]$이고 $P^{do}(s' \mid s, a) = P(S_{t+1} = s' \mid S_t = s, do(A_t = a))$이다.

핵심: $P^{do}$와 $R^{do}$는 개입적(interventional) 분포로, 관측적 조건부 분포 $P(s' \mid s, a)$와 일반적으로 다르다.

4.2.2 식별 불가능 시의 접근: 부분 식별과 경계

많은 경우 $P^{do}$는 비관측 교란으로 인해 점 식별(point identification)이 불가능하다. 이때 CRL은 부분 식별(partial identification) 접근을 취한다 — 관측 가능한 정보로부터 인과 효과의 상한과 하한(bounds)을 도출한다.

Theorem 4.2 (Value Function Bounds). CMDP에서, 비관측 교란의 강도에 대한 감도 파라미터 $\Gamma \geq 1$이 주어졌을 때, 정책 $\pi$의 가치 함수에 대한 유효한 경계를 구할 수 있다:

$$\underline{V}^{\pi}(s; \Gamma) \leq V^{\pi}_{causal}(s) \leq \overline{V}^{\pi}(s; \Gamma)$$

감도 파라미터 $\Gamma$의 의미:

$$\frac{1}{\Gamma} \leq \frac{P(A_t = a \mid S_t = s, U_t = u)}{P(A_t = a \mid S_t = s)} \leq \Gamma \quad \forall a, s, u$$

  • $\Gamma = 1$: 비관측 교란 없음 (표준 MDP로 환원)
  • $\Gamma > 1$: 비관측 교란이 행동 확률을 최대 $\Gamma$배까지 왜곡 가능
  • $\Gamma \rightarrow \infty$: 교란이 무한히 강함 → 경계가 무한히 넓어짐

금융 해석: $\Gamma$는 과거 트레이더의 사적 정보가 매매 결정에 얼마나 강하게 영향을 미쳤는지의 상한이다. $\Gamma$가 크면 과거 데이터로부터의 추론이 더 불확실해진다.

4.2.3 Confounding-Robust Policy Improvement

Kallus & Zhou (2018)은 교란에 강건한 정책 개선 알고리즘을 제안했다:

Confounding-Robust Policy Improvement. 최악의 경우(worst-case)의 교란 하에서도 행동 정책보다 나은 정책을 찾는다:

$$\pi^* = \arg\max_\pi \min_{\mathcal{M} \in \mathcal{C}(\Gamma)} V^{\pi}(\mathcal{M})$$

여기서 $\mathcal{C}(\Gamma)$는 관측 데이터와 호환되고 교란 강도가 $\Gamma$ 이하인 모든 CMDP의 집합이다.

이것은 강건 최적화(robust optimization) 문제다. 최악의 환경에서도 안전한(safe) 정책을 학습한다.


4.3 Causal Eligibility Traces for Confounding Robust OPE

4.3.1 Zhang & Bareinboim (2025)의 핵심 결과

가장 최신의 이론적 발전은 Zhang & Bareinboim (2025, UAI)의 Causal Eligibility Traces다.

이 연구는 두 가지 동시적 도전을 해결한다:

  1. 비관측 교란(Unobserved Confounding): 행동 정책의 결정이 비관측 요인에 영향 받음
  2. 지지 부재(No Overlap): 타겟 정책과 행동 정책의 행동 분포가 겹치지 않는 영역 존재

Theorem 4.3 (Causal Bellman Bounds Extension, Zhang & Bareinboim, 2025). Bellman 방정식을 확장하여, 비관측 교란과 지지 부재가 동시에 존재하는 관측 분포로부터 가치 함수에 대한 유효한 닫힌 형태(closed-form) 경계를 도출할 수 있다.

핵심 기법: 표준 RL의 적격 추적(eligibility traces)을 인과적으로 확장하여, temporal difference 학습이 교란된 데이터에서도 강건하게 작동하도록 한다.

적격 추적의 인과적 확장:

표준 TD($\lambda$)의 적격 추적:

$$e_t(s) = \gamma \lambda e_{t-1}(s) + \mathbb{1}[S_t = s]$$

인과적 적격 추적은 이를 확장하여 교란 편향을 보정하는 항을 포함한다. 구체적으로, 관측 분포에서의 전이 확률과 인과적(개입적) 전이 확률 사이의 차이를 반영하는 보정 가중치가 적용된다.

4.3.2 Confounding Robust Deep RL

Li, Zhang & Bareinboim (2025)은 이론적 결과를 고차원 실무 환경으로 확장했다:

Causal Bellman Optimality Equation (Proposition, Li et al., 2025). CMDP 환경 $\mathcal{M}$에서, 최적 정책 $\pi^$의 기대 수익의 *하한**을 비관적(pessimistic) 정책 $\tilde{\pi}$의 수익으로 설정할 수 있다:

$$V^{\pi^*}(s; \mathcal{M}) \geq V^{\tilde{\pi}}(s; \tilde{\mathcal{M}})$$

여기서 $\tilde{\pi}$는 관측 데이터와 호환되는 최악의 CMDP $\tilde{\mathcal{M}}$에서의 최적 정책이다.

이를 Deep Q-Network (DQN)에 통합한 Confounding-Robust DQN 알고리즘은:

  1. 관측 데이터에서 인과적 Q값 경계 $[\underline{Q}(s, a), \overline{Q}(s, a)]$를 추정
  2. 비관적(pessimistic) Q값 $\underline{Q}$를 기반으로 안전한 정책을 학습
  3. 12개의 교란된 Atari 게임에서 표준 DQN을 일관되게 지배

4.4 금융 적용: 백테스트에서 라이브 트레이딩으로의 전환

4.4.1 금융에서의 CMDP 구성

금융 트레이딩에서 CMDP를 구체적으로 구성하면:

CMDP 요소 금융 대응
상태 $S_t$ 관측 가능한 시장 데이터 (가격, 거래량, 변동성, 매크로 지표)
행동 $A_t$ 과거 트레이더의 매매 결정 (기록된 주문)
비관측 교란 $U_t$ 사적 정보, 시장 심리, 내부 리서치, 유동성 사정
보상 $R_t$ 실현 수익률, 위험조정수익
전이 $P(S_{t+1} \mid S_t, A_t, U_t)$ 다음 기간 시장 상태 (비관측 요인 의존)

4.4.2 백테스트 편향의 인과적 분류

CRL 관점에서 백테스트의 편향 요인을 체계적으로 분류할 수 있다:

편향 유형 1: 교란 편향 (Confounding Bias) — Fork 구조

$$U_t \rightarrow A_t, \quad U_t \rightarrow S_{t+1}$$

과거 트레이더의 사적 정보가 매매와 시장 결과 모두에 영향. 이 정보를 갖지 못한 새 전략은 동일한 성과를 재현할 수 없다.

예시: 과거 데이터에서 특정 종목의 매수 직후 주가가 상승한 패턴이 관측된다. 그러나 이는 트레이더가 실적 발표 전 내부 리서치(비관측 $U_t$)에 기반하여 매수한 결과일 수 있으며, 정보 없이 동일 패턴을 따르는 전략은 알파를 재현할 수 없다.

편향 유형 2: 선택 편향 (Selection Bias) — Collider 구조

$$A_t \rightarrow Z_t \leftarrow S_{t+1}$$

특정 조건(예: 특정 포트폴리오 규모 이상)의 데이터만 관측되는 경우, 조건화된 collider를 통해 허위 연관이 생성된다.

예시: 생존 펀드(= 생존 $Z_t$에 조건화)만의 데이터로 전략을 평가하면, 실력($A_t$)과 운($S_{t+1}$) 사이에 허위 음의 상관이 발생한다.

편향 유형 3: 시간적 교란 (Temporal Confounding)

$$U_t \rightarrow A_t, \quad U_t \rightarrow U_{t+1} \rightarrow S_{t+2}$$

비관측 교란이 시간적으로 지속되어 누적 편향을 야기. 이는 장기 전략 평가에서 특히 심각하다.

4.4.3 Off-Policy Evaluation Pipeline for Finance

인과적으로 안전한 백테스트→실전 전환 파이프라인:

Stage 1: 인과 구조 분석

과거 거래 데이터의 인과 구조를 DAG로 명시한다. 어떤 변수가 교란 경로를 형성하는지 식별:

  • 도메인 전문가(트레이더, 리서치 팀)와 협업하여 DAG 구축
  • 데이터 기반 인과 발견 알고리즘(PCMCI+, FCI 등)으로 보완
  • 비관측 교란의 존재 가능성을 명시적으로 표기

Stage 2: 교란 강건 OPE

식별된 인과 구조에 따라 적절한 OPE 방법 선택:

상황 추천 방법 가정
교란변수 관측 가능 Backdoor Adjustment + DR 비관측 교란 없음
대리변수(Proxy) 이용 가능 Proxy-based OPE 대리변수 관련성
도구변수 이용 가능 IV-based Estimation 배제 제약
교란 강도 상한만 알려짐 Sensitivity Analysis + Bounds $\Gamma$ 명시
비관측 교란, 정보 없음 Causal Eligibility Traces (ZB 2025) 최악 경우 분석

Stage 3: 강건 정책 학습

OPE 경계를 기반으로 강건한 정책을 학습:

$$\pi^*_{robust} = \arg\max_\pi \underline{V}^{\pi}(s_0; \Gamma)$$

비관적(pessimistic) 가치 함수를 최대화하는 전략 = 최악의 교란 시나리오에서도 안전한 전략.

Stage 4: 점진적 온라인 전환

Offline (과거 데이터) → Simulation (인과적 시뮬레이터) → Paper Trading → Live (제한적 규모) → Full Deployment

각 단계에서 인과적 OPE로 성과를 검증하고, 온라인 데이터($\mathcal{L}_2$)가 축적되면 오프라인 추정치를 업데이트한다.

4.4.4 SharpeRatio@k 메트릭

금융에서 OPE의 성과를 평가하기 위한 전용 메트릭으로 SharpeRatio@k (Saito et al., 2024)이 제안되었다:

$$\text{SharpeRatio@k}(\hat{V}) = \frac{\mathbb{E}[\text{Return}(\text{Top-k}(\hat{V}))]}{\text{Std}[\text{Return}(\text{Top-k}(\hat{V}))]}$$

OPE 추정량 $\hat{V}$로 상위 $k$개 정책을 선택했을 때, 이 정책 포트폴리오의 위험조정수익을 측정한다.

기존 OPE 평가 메트릭(MSE, Rank Correlation)과의 차이:

  • 기존 메트릭은 추정 정확도만 평가
  • SharpeRatio@k는 정책 선택의 실질적 효율성을 평가
  • 보수적(conservative) 추정량과 고위험(high-stakes) 추정량을 명확히 구분 가능

4.5 교란의 감도 분석: 금융 실무 가이드

4.5.1 감도 분석 프레임워크

실무에서 비관측 교란의 정확한 강도 $\Gamma$를 알 수 없으므로, 감도 분석(sensitivity analysis)이 필수적이다.

$\Gamma$를 1에서 점진적으로 증가시키면서 OPE 경계의 변화를 관찰:

$$\Gamma = 1.0: \quad \underline{V}^{\pi} = 12\%, \quad \overline{V}^{\pi} = 12\% \quad \text{(점 추정)}$$

$$\Gamma = 1.5: \quad \underline{V}^{\pi} = 8\%, \quad \overline{V}^{\pi} = 16\%$$

$$\Gamma = 2.0: \quad \underline{V}^{\pi} = 3\%, \quad \overline{V}^{\pi} = 21\%$$

$$\Gamma = 3.0: \quad \underline{V}^{\pi} = -5\%, \quad \overline{V}^{\pi} = 29\%$$

해석: $\Gamma = 2.0$까지 하한이 양수면, 비관측 교란이 행동 확률을 2배까지 왜곡하더라도 전략이 양의 수익을 유지한다는 의미. $\Gamma = 3.0$에서 하한이 음수가 되면, 강한 교란 하에서 전략이 손실을 야기할 수 있다.

4.5.2 Tipping Point Analysis

Tipping Point $\Gamma^*$: OPE 하한이 0이 되는 교란 강도

$$\Gamma^* = \inf\{\Gamma \geq 1 : \underline{V}^{\pi}(s_0; \Gamma) \leq 0\}$$

$\Gamma^*$가 클수록 전략이 교란에 강건하다. 이를 전략 간 비교 지표로 활용:

전략 점 추정 수익률 Tipping Point $\Gamma^*$ 해석
모멘텀 전략 A 15% 1.8 약한 교란에도 취약
밸류 전략 B 10% 3.5 교란에 상당히 강건
CRL 전략 C 8% 5.2 매우 강건, 보수적

점 추정만 보면 전략 A가 최선이지만, 교란 강건성을 고려하면 전략 B 또는 C가 더 안전할 수 있다. 이는 기관투자자의 의사결정에서 핵심적으로 중요한 차원이다.


4.6 동적 처치 레짐 (Dynamic Treatment Regimes)

4.6.1 DTR과 금융 전략의 동형

의학의 Dynamic Treatment Regime (DTR) 문제는 금융 전략 학습과 수학적으로 동형이다.

의학 DTR 금융 전략
환자 상태 $S_t$ 시장/포트폴리오 상태
처치 $A_t$ 매매/리밸런싱 결정
비관측 교란 $U_t$ 유전적 특성, 생활습관 → 사적 정보, 시장 심리
건강 결과 $Y_t$ 수익률, 위험조정수익
최적 처치 전략 $\pi^*$ 최적 투자 전략

Zhang & Bareinboim (2019, NeurIPS)은 인과 효과가 식별 불가능한(non-identifiable) DTR 환경에서의 근최적(near-optimal) RL을 연구했다. 핵심 아이디어:

  1. 인과 구조로부터 가치 함수의 상한과 하한을 유도
  2. 이 경계를 동적 배분(dynamic allocation) 절차에 통합
  3. 경계 내에서 가장 유망한 행동을 탐색

4.6.2 금융에서의 적용: 적응적 자산배분

적응적 자산배분(adaptive asset allocation)은 전형적인 DTR 문제다:

  • 각 기간에 시장 상태를 관측하고 ($S_t$)
  • 자산 배분을 결정하고 ($A_t = \mathbf{w}_t$)
  • 수익률을 관측하고 ($R_t$)
  • 다음 기간 상태로 전이한다 ($S_{t+1}$)

비관측 교란이 존재하면 (예: 시장 레짐의 정확한 상태가 비관측), 과거 배분 데이터로부터 최적 배분 전략을 학습할 때 편향이 발생한다.

인과적 접근:

$$\pi^*_{DTR} = \arg\max_\pi \underline{V}^{\pi}(s_0) = \arg\max_\pi \mathbb{E}\left[\sum_{t=0}^{T} \gamma^t R_t \mid do(\pi), s_0\right]_{\text{lower bound}}$$


4.7 데이터 결합의 인과적 프레임워크

4.7.1 다중 데이터 소스의 최적 통합

금융 기관은 일반적으로 다수의 이질적 데이터 소스를 보유한다:

데이터 소스 인과 수준 볼륨 교란 수준
과거 시장 데이터 $\mathcal{L}_1$ 매우 큼 높음 (생존자편향, 시대적 교란)
자사 거래 로그 $\mathcal{L}_1 \sim \mathcal{L}_2$ 중간 (트레이더 편향)
중앙은행 정책 변경 준$\mathcal{L}_2$ 작음 낮음 (외생적 충격)
페이퍼 트레이딩 $\mathcal{L}_2$ 중간 낮음 (시장 충격 부재)
라이브 트레이딩 $\mathcal{L}_2$ 매우 작음 매우 낮음

Bareinboim & Pearl (2016)의 Data Fusion 이론을 금융에 적용하면, 이 데이터 소스들을 인과적으로 일관되게 결합할 수 있다. 핵심 원리:

  1. 각 데이터 소스의 선택 다이어그램(selection diagram)을 명시 — 어떤 변수에 대해 어떤 수준의 개입/관측이 이루어졌는가
  2. do-calculus로 타겟 인과 효과가 이 데이터 소스들의 결합으로부터 식별 가능한지 판정
  3. 식별 가능하면, 해당 공식에 따라 추정

4.7.2 실무적 Data Fusion 절차

Step 1: 모든 데이터 소스에 공통되는 인과 그래프 $G$를 구축

Step 2: 각 데이터 소스 $D_k$의 개입 체제(intervention regime)를 명시

$$D_1: \text{관측만} \quad (\text{과거 시장 데이터})$$

$$D_2: do(A_t = a_t) \text{ 일부 가능} \quad (\text{자사 거래 로그})$$

$$D_3: do(I_t = i_t) \quad (\text{중앙은행 금리 변경})$$

Step 3: 타겟 쿼리 $P(R \mid do(\pi))$의 식별가능성 확인

Step 4: 식별 공식에 따라 각 데이터 소스에서 관련 조건부 분포를 추정하고 결합


4.8 실습: 포트폴리오 전략의 Causal Off-Policy Evaluation

4.8.1 실습 개요

목표: 과거 포트폴리오 매니저의 거래 데이터(관측, 교란 가능)에서 새로운 팩터 기반 전략의 성과를 인과적으로 안전하게 추정한다.

데이터:

  • 과거 일별 포트폴리오 가중치, 자산 수익률, 시장 상태 변수
  • 비관측 교란 가능성: 매니저의 주관적 판단, 내부 리서치 정보

방법론:

1. 인과 그래프 구축 (DoWhy + 도메인 지식)
2. 표준 OPE 추정 (IS, DR)
3. 감도 분석 (Γ = 1.0, 1.5, 2.0, 3.0)
4. 교란 강건 경계 계산
5. Tipping point Γ* 도출
6. 전략 간 비교 (점 추정 vs 교란 강건성)

4.8.2 Python 구현 스케치

import numpy as np
from dowhy import CausalModel

# Step 1: 인과 그래프 정의
causal_graph = """
digraph {
    MarketRegime -> TraderAction;
    MarketRegime -> FutureReturn;
    PrivateInfo [observed="no"];
    PrivateInfo -> TraderAction;
    PrivateInfo -> FutureReturn;
    TraderAction -> FutureReturn;
    PastReturn -> MarketRegime;
    PastReturn -> TraderAction;
}
"""

# Step 2: 표준 OPE (비교용)
def standard_ope_is(data, target_policy, behavior_policy):
    """표준 Importance Sampling OPE"""
    rho = target_policy / behavior_policy  # importance ratio
    returns = data['returns']
    return np.mean(rho * returns)

# Step 3: 교란 강건 OPE 경계
def confounding_robust_bounds(data, target_policy, behavior_policy, gamma_cf):
    """감도 파라미터 Gamma에 따른 가치 함수 경계"""
    rho = target_policy / behavior_policy
    returns = data['returns']

    # 교란 조정된 경계
    rho_lower = np.clip(rho / gamma_cf, 0, None)
    rho_upper = np.clip(rho * gamma_cf, 0, None)

    v_lower = np.mean(rho_lower * returns)
    v_upper = np.mean(rho_upper * returns)
    return v_lower, v_upper

# Step 4: Tipping Point 분석
gammas = np.arange(1.0, 5.0, 0.1)
for g in gammas:
    lb, ub = confounding_robust_bounds(data, pi_e, mu, g)
    if lb <= 0:
        print(f"Tipping Point Γ* = {g:.1f}")
        break

4.8.3 결과 해석 가이드

분석 결과를 해석할 때의 핵심 질문:

  1. 표준 OPE와 인과적 OPE의 차이가 큰가? → 차이가 크면 교란이 심각하다는 신호
  2. Tipping Point $\Gamma^*$가 실무적으로 합리적인 범위 내인가? → "트레이더가 사적 정보로 행동 확률을 $\Gamma^*$배까지 왜곡했을 가능성이 있는가?"
  3. 경계 폭이 의사결정에 유용할 만큼 좁은가? → 경계가 너무 넓으면 추가 데이터(온라인)가 필요

핵심 요약 (Key Takeaways)

  • CMDP (Confounded MDP)는 비관측 교란이 존재하는 금융 의사결정 환경의 형식적 모델이다. 과거 트레이더의 사적 정보, 시장 심리 등이 교란변수에 해당한다.
  • 인과적 Bellman 방정식은 $P^{do}$(개입적 전이)를 사용하여 표준 Bellman을 교란에 안전하게 확장한다.
  • 비관측 교란 하에서 점 식별이 불가능하면, 부분 식별(경계)감도 분석으로 실용적 의사결정이 가능하다.
  • Causal Eligibility Traces (Zhang & Bareinboim, 2025)는 교란과 지지 부재를 동시에 해결하는 최신 이론적 도구다.
  • Confounding-Robust Deep RL (Li et al., 2025)은 이 이론을 고차원 실무 환경으로 확장하여, 최악의 교란 하에서도 안전한 정책을 학습한다.
  • Tipping Point 분석은 전략의 교란 강건성을 정량화하는 실용적 도구로, 점 추정 수익률만으로는 포착할 수 없는 전략 품질 차원을 제공한다.
  • Data Fusion은 이질적 금융 데이터(백테스트, 자사 로그, 자연실험, 라이브)를 인과적으로 일관되게 결합하는 체계적 방법론이다.

더 읽을거리

  1. Zhang, J. & Bareinboim, E. (2016). Markov Decision Processes with Unobserved Confounders: A Causal Approach. Technical Report R-23, CausalAI Lab. — CMDP의 원논문.
  2. Zhang, J. & Bareinboim, E. (2020). Designing Optimal Dynamic Treatment Regimes: A Causal Reinforcement Learning Approach. ICML. — 인과적 DTR의 핵심 결과.
  3. Zhang, J. & Bareinboim, E. (2025). Causal Eligibility Traces for Confounding Robust Off-Policy Evaluation. UAI. — 최신 이론적 발전.
  4. Li, M., Zhang, J. & Bareinboim, E. (2025). Confounding Robust Deep Reinforcement Learning: A Causal Approach. — 고차원 환경으로의 확장.
  5. Kallus, N. & Zhou, A. (2018). Confounding-Robust Policy Improvement. NeurIPS. — 교란 강건 정책 개선의 기초.
  6. Bruns-Smith, D. (2024). Towards Reliable Causal Machine Learning for Macroeconomics. UC Berkeley PhD Thesis. — Robust MDP 경계의 거시경제 적용.

#강화학습 #ReinforcementLearning #인과추론 #CausalInference #오프라인강화학습 #OfflineRL #OffPolicyLearning #금융AI #FinancialAI #MDP #인과적강화학습 #CausalRL #포트폴리오최적화 #퀀트 #머신러닝 #DeepLearning #AlgoTrading


#강화학습 #ReinforcementLearning #인과추론 #CausalInference #오프라인강화학습 #OfflineRL #OffPolicyLearning #금융AI #FinancialAI #MDP #인과적강화학습 #CausalRL #포트폴리오최적화 #퀀트 #머신러닝 #DeepLearning #AlgoTrading