Chapter 6. Task 3 — Counterfactual Decision-Making: 반사실적 의사결정
"What would have happened had reality been different, even when no data about this imagined reality is available."
— Bareinboim et al. (2020)
6.1 반사실적 추론이 금융에서 중요한 이유
6.1.1 CRL Task 3의 위치
Task 3 (Counterfactual Decision-Making). 반사실과 $\mathcal{L}_3$ 기반 무작위화에 기반하여 최적화 기준을 변경하라. 여기에는 의도성(intentionality), 자유의지(free will), 자율성(autonomy)의 개념이 관련된다.
Task 1과 Task 2가 $\mathcal{L}_1$과 $\mathcal{L}_2$ 수준에서 작동했다면, Task 3는 Pearl 인과 계층의 최상위 수준인 $\mathcal{L}_3$(반사실)로 진입한다.
6.1.2 금융 의사결정의 반사실적 본질
금융 실무자의 핵심 질문 상당수는 반사실적이다:
| 질문 | 인과 계층 | 형식적 표현 |
|---|---|---|
| "이 팩터가 과거에 좋은 수익률을 냈나?" | $\mathcal{L}_1$ | $P(R \mid \text{Factor}=f)$ |
| "이 팩터에 노출을 높이면 수익이 개선될까?" | $\mathcal{L}_2$ | $P(R \mid do(\text{Factor}=f))$ |
| "내가 이 팩터를 사용했다면 수익이 달라졌을까?" | $\mathcal{L}_3$ | $P(R_f \mid \text{Factor}=f', R=r')$ |
세 번째 질문은 특정 개인/단위에 대한 반사실이며, $\mathcal{L}_3$에만 해당한다.
6.1.3 반사실이 필요한 세 가지 금융 시나리오
시나리오 1: 전략 후회 분석 (Regret Analysis)
매니저 A가 2022년 초 기술주 비중 30%($X$)를 유지, 수익률 $Y = -18$%. "만약 10%로 줄였다면?"
$$P(Y_{X'=10\%} \mid X = 30\%, Y = -18\%)$$
ATE는 "모든 매니저가 줄였다면"이지만, 반사실은 "이 매니저, 이 시장에서" 다른 결정의 개인화된 답.
시나리오 2: 성과 귀인 (Performance Attribution)
$$\text{Skill}(u) = Y_{\pi_{manager}}(u) - Y_{\pi_{benchmark}}(u)$$
"동일 시장 상황($u$)에서의 매니저 전략과 벤치마크의 차이" = ITE.
시나리오 3: Human-AI 협업
"AI 추천을 매니저가 수정했다. 수정하지 않았다면?"
$$P(Y_{\pi_{AI}} \mid \pi = \pi_{modified}, Y = y_{observed})$$
6.2 반사실적 의사결정의 이론적 기초
6.2.1 Effect of Treatment on the Treated (ETT)
Definition 6.1 (ETT). 처치($X = x$)를 받은 개체에서, 비처치($X = x'$) 시의 결과:
$$\text{ETT} = \mathbb{E}[Y_{x'} \mid X = x] = \mathbb{E}[Y_{x'} - Y_x \mid X = x]$$
| ATE | ETT | |
|---|---|---|
| 대상 | 전체 모집단 | 처치 받은 하위 집단 |
| 계층 | $\mathcal{L}_2$ | $\mathcal{L}_3$ |
| 금융 해석 | "전략의 평균적 효과" | "이 전략 사용자에게의 효과" |
6.2.2 반사실적 최적화 기준
표준 RL ($\mathcal{L}_2$):
$$\pi^* = \arg\max_\pi \mathbb{E}[Y \mid do(\pi)]$$
반사실 RL ($\mathcal{L}_3$):
$$\pi^*{CF} = \arg\max_\pi \mathbb{E}[Y_\pi \mid X = x{obs}, Y = y_{obs}]$$
$\mathcal{L}_2$는 "평균적으로 좋은 전략", $\mathcal{L}_3$는 "지금 나의 상황에서 최적인 전략". 기관투자자에게 후자가 더 직접적.
6.3 Counterfactual Data-Fusion
6.3.1 MABUC과 무한 후회 문제
Theorem 6.1 (Bareinboim et al., 2015). 비관측 교란 존재 시, 표준 무작위화($\mathcal{L}_2$) 기반 알고리즘은 교란을 단순 평균하여 무한 후회(infinite regret)를 야기할 수 있다.
순수한 무작위 탐색은 비관측 교란 $U$의 정보를 버린다. 이 정보는 반사실적으로만 회복 가능.
6.3.2 Forney, Pearl & Bareinboim (2017)의 핵심 결과
Theorem 6.2 (Counterfactual Data-Fusion). 반사실적 의사결정은 관측($\mathcal{L}_1$) + 실험($\mathcal{L}_2$) 데이터의 일관된 결합을 가능하게 하여, 무한 후회를 해결한다.
ETT 기반 결정 규칙:
$$a^*{CF}(x{obs}) = \arg\max_a \mathbb{E}[Y_a \mid X = x_{obs}]$$
"나의 자연적 선택이 $x_{obs}$인 상태에서, 행동 $a$의 반사실적 기대 보상을 최대화."
실험 결과: 실험 데이터만의 Thompson Sampling이 최악, 관측+실험+반사실 결합이 최고 성과.
6.3.3 금융 해석: 자연적 선호의 정보 가치
트레이더의 관측 행동 $X_{obs}$ 뒤의 비관측 요인 $U$(직관, 경험, 사적 정보). 순수 실험은 $U$의 정보를 버리지만, 반사실적 접근은 보존한다.
6.4 Counterfactual Realizability
6.4.1 Raghavan & Bareinboim (2025, ICLR)
반사실적 분포에서 실제로 샘플링할 수 있는가?
Definition 6.2 (Realizability). 반사실적 분포 $P(Y_{x'} \mid X = x)$가 실현 가능하다면, 물리적 실험으로 직접 샘플 추출이 가능하다.
Theorem 6.3 (완전 알고리즘). 임의의 반사실적 분포에 대해, 인과 그래프와 물리적 제약 하에서 실현 가능 여부를 판정하는 완전한(complete) 알고리즘이 존재한다.
핵심 확장: Counterfactual Randomization (ctf-randomization) — 동일 변수 $X$에 대해 서로 다른 하위 경로에 다중 무작위화를 수행. ETT 기반 단일 무작위화보다 엄밀히 우월.
Theorem 6.4. Causal template의 밴딧에서 ctf-randomization은 최적성 보장.
6.4.2 Counterfactual Randomization vs 표준 무작위화
| 표준 무작위화 ($\mathcal{L}_2$) | 반사실적 무작위화 ($\mathcal{L}_3$) | |
|---|---|---|
| 비관측 교란 | 평균화 (정보 손실) | 보존 (정보 활용) |
| 개인화 | 불가 (평균적 효과) | 가능 (개인별 반사실) |
| 금융 예시 | 모든 투자자에 동일 전략 | 각 투자자 상황에 맞춤 전략 |
6.5 금융 적용
6.5.1 반사실적 전략 평가: Abduction-Action-Prediction
Step 1: Abduction — 관측된 시장 결과와 행동으로부터 외생변수 $\mathbf{U}$ 추론:
$$P(\mathbf{U} \mid \pi = \pi_{actual}, \mathbf{Y} = \mathbf{y}_{obs})$$
Step 2: Action — 전략을 대안으로 교체
Step 3: Prediction — 동일 외생 조건에서 대안 수익률 계산:
$$Y_{\pi_{alt}}(\mathbf{u}) = f_Y(\text{Pa}(Y) \mid_{\pi = \pi_{alt}}, \mathbf{u})$$
6.5.2 Counterfactual Regret Analysis
$$\text{CF-Regret}(u) = V^{\pi^*}(s_0; u) - V^{\pi_{actual}}(s_0; u)$$
실무 활용: 위기 시나리오 취약점 식별, 매니저 평가(운 vs 실력 분리), 전략 개선 포인트 분해.
6.5.3 Human-AI 협업
| 반사실적 질문 | 형식화 | 실무적 의의 |
|---|---|---|
| AI가 결정했다면? | $P(Y_{\pi_{AI}} \mid \pi = \pi_{human}, Y = y)$ | AI 도입의 기대 효과 |
| 인간이 개입 안 했다면? | $P(Y_{\pi_{AI}} \mid \pi = \pi_{AI+human}, Y = y)$ | 인간 오버라이드의 가치 |
| 인간 직관만 따랐다면? | $P(Y_{\pi_{human}} \mid \pi = \pi_{AI+human}, Y = y)$ | AI 시그널의 부가가치 |
6.5.4 반사실 vs 시나리오 분석
| 접근 | 수준 | 외생 조건 | 금융 예시 |
|---|---|---|---|
| 시나리오 분석 | $\mathcal{L}_2$ | 변경 가능 | "$do(\text{Rate}=5)$%이면?" |
| 반사실 분석 | $\mathcal{L}_3$ | 고정 | "2008년 그 상황에서 다른 결정이면?" |
반사실은 특정 역사적 맥락의 외생 조건을 고정하여 더 정확한 what-if 분석 가능.
6.6 반사실의 식별과 경계
6.6.1 식별 조건
| 조건 | 식별 가능 여부 | 방법 |
|---|---|---|
| SCM 완전 명세 | 점 식별 | Abduction-Action-Prediction |
| 선형 SCM | 점 식별 | 구조방정식 역산 |
| 단조 SCM | 점 식별 | 단조성 제약 |
| 일반 비모수 | 경계만 가능 | Balke-Pearl bounds |
| 관측+실험 결합 | 경계 축소 | Data fusion bounds |
6.6.2 금융 실무 접근
완전한 SCM 명세가 어려운 금융에서는 경계 접근이 실용적:
$$P_L(Y_{x'} = 1 \mid X = x) \leq P(Y_{x'} = 1 \mid X = x) \leq P_U(Y_{x'} = 1 \mid X = x)$$
경계 축소 방법: 추가 데이터, 구조적 가정(단조성/선형성), 도구 변수, 감도 분석.
6.7 AI 자율성과 반사실
6.7.1 금융 AI의 자율성 스펙트럼
| 수준 | 결정 구조 | 인과 계층 |
|---|---|---|
| 완전 수동 | 인간 결정, AI 관측 | $\mathcal{L}_1$ |
| 보조적 | 인간 결정, AI 추천 | $\mathcal{L}_1 \sim \mathcal{L}_2$ |
| 반자율 | AI 결정, 인간 거부권 | $\mathcal{L}_2$ |
| 완전 자율 | AI 독립 운용 | $\mathcal{L}_2 \sim \mathcal{L}_3$ |
| 반사실 자율 | AI 자체 반사실 평가·수정 | $\mathcal{L}_3$ |
최상위("반사실 자율"): AI가 과거 결정을 반사실적으로 평가하고 자체 개선. CRL Task 3의 궁극적 비전.
6.8 실습: 금융위기 시나리오에서의 반사실적 전략 비교
6.8.1 실습 개요
목표: 2020년 3월 COVID-19 폭락에서 세 전략의 반사실적 성과 비교.
- 실행 전략: 60/40 buy-and-hold
- 대안 1: 변동성 기반 동적 배분
- 대안 2: 테일리스크 헤지 포함
6.8.2 Python 구현 스케치
import numpy as np
class FinancialSCM:
"""금융 반사실 분석용 SCM"""
def abduction(self, strategy_actual, returns_observed):
"""외생 시장 충격 추론"""
U_market = returns_observed - self.expected_return(strategy_actual)
return U_market
def counterfactual(self, U_market, strategy_alt):
"""동일 외생 조건에서 대안 전략 수익률"""
return self.expected_return(strategy_alt) + U_market
def regret_analysis(self, pi_actual, pi_alt, y_obs):
U = self.abduction(pi_actual, y_obs)
y_cf = self.counterfactual(U, pi_alt)
return {
'cf_returns': y_cf,
'cf_regret': y_cf - y_obs,
'cf_sharpe': np.mean(y_cf)/np.std(y_cf)*np.sqrt(252),
'max_regret_date': np.argmax(np.abs(y_cf - y_obs))
}
6.8.3 해석 주의사항
- SUTVA: 전략 변경이 시장 자체를 변경하지 않는다는 가정 — 대규모 기관은 위반 가능
- 모델 의존성: 다양한 SCM 가정 하 강건성 검증 필수
- 사후 편향: 정보 집합의 명시적 제한 필요
- 반사실 vs 시나리오: 외생 조건 고정(반사실) vs 변경(시나리오)의 차이 인식
핵심 요약 (Key Takeaways)
- 반사실적 의사결정($\mathcal{L}_3$)은 "나의 상황에서 다른 결정이었다면"이라는 개인화된 질문에 답하며, $\mathcal{L}_2$ 최적화("평균적으로 좋은 전략")보다 기관투자자에게 더 직접적으로 관련된다.
- ETT는 처치 받은 하위 집단의 반사실적 효과를 추정하며, 개인화된 전략 평가의 핵심 도구다.
- Counterfactual Data-Fusion (Forney et al., 2017)은 관측+실험+반사실 결합으로 $\mathcal{L}_2$ 기반의 무한 후회를 해결한다.
- Counterfactual Realizability (Raghavan & Bareinboim, 2025)는 반사실 분포의 물리적 실현 가능성에 대한 완전 알고리즘을 제공하며, ctf-randomization이 ETT보다 엄밀히 우월함을 증명.
- 금융 적용: 전략 후회 분석, 성과 귀인(운 vs 실력), Human-AI 협업 설계, 금융위기 반사실 시나리오.
- 반사실은 모델 의존적이므로 경계 분석, 감도 분석, 정보 집합 제한이 실무적으로 필수.
더 읽을거리
- Bareinboim, E., Forney, A. & Pearl, J. (2015). Bandits with Unobserved Confounders: A Causal Approach. NeurIPS.
- Forney, A., Pearl, J. & Bareinboim, E. (2017). Counterfactual Data-Fusion for Online Reinforcement Learners. ICML.
- Forney, A. & Bareinboim, E. (2019). Counterfactual Randomization: Rescuing Experimental Studies from Obscured Confounding. AAAI.
- Raghavan, A. & Bareinboim, E. (2025). Counterfactual Realizability and Decision-Making. ICLR.
- Zhang, J. & Bareinboim, E. (2022). Can Humans Be Out of the Loop? CLeaR.
- Balke, A. & Pearl, J. (1994). Counterfactual Probabilities: Computational Methods, Bounds, and Applications. UAI.
'금융연구 > 인과강화학습' 카테고리의 다른 글
| Chapter 8. Task 5 — Learning Causal Models: 인과 구조 발견 (0) | 2026.04.01 |
|---|---|
| Chapter 7. Task 4 — Generalizability & Robustness: 전이가능성과 구조적 불변성 (0) | 2026.04.01 |
| Chapter 5. Task 2 — When and Where to Intervene: 정책 공간 정제 (1) | 2026.04.01 |
| Chapter 4. Task 1 — Causal Offline-to-Online Learning: 일반화된 정책 학습 (0) | 2026.04.01 |
| Chapter 3. 강화학습의 수리적 기초 (RL Foundations) (0) | 2026.04.01 |