금융연구/인과강화학습

Chapter 6. Task 3 — Counterfactual Decision-Making: 반사실적 의사결정

hertzalpha 2026. 4. 1. 14:10

Chapter 6. Task 3 — Counterfactual Decision-Making: 반사실적 의사결정


"What would have happened had reality been different, even when no data about this imagined reality is available."
— Bareinboim et al. (2020)


6.1 반사실적 추론이 금융에서 중요한 이유

6.1.1 CRL Task 3의 위치

Task 3 (Counterfactual Decision-Making). 반사실과 $\mathcal{L}_3$ 기반 무작위화에 기반하여 최적화 기준을 변경하라. 여기에는 의도성(intentionality), 자유의지(free will), 자율성(autonomy)의 개념이 관련된다.

Task 1과 Task 2가 $\mathcal{L}_1$과 $\mathcal{L}_2$ 수준에서 작동했다면, Task 3는 Pearl 인과 계층의 최상위 수준인 $\mathcal{L}_3$(반사실)로 진입한다.

6.1.2 금융 의사결정의 반사실적 본질

금융 실무자의 핵심 질문 상당수는 반사실적이다:

질문 인과 계층 형식적 표현
"이 팩터가 과거에 좋은 수익률을 냈나?" $\mathcal{L}_1$ $P(R \mid \text{Factor}=f)$
"이 팩터에 노출을 높이면 수익이 개선될까?" $\mathcal{L}_2$ $P(R \mid do(\text{Factor}=f))$
"내가 이 팩터를 사용했다면 수익이 달라졌을까?" $\mathcal{L}_3$ $P(R_f \mid \text{Factor}=f', R=r')$

세 번째 질문은 특정 개인/단위에 대한 반사실이며, $\mathcal{L}_3$에만 해당한다.

6.1.3 반사실이 필요한 세 가지 금융 시나리오

시나리오 1: 전략 후회 분석 (Regret Analysis)

매니저 A가 2022년 초 기술주 비중 30%($X$)를 유지, 수익률 $Y = -18$%. "만약 10%로 줄였다면?"

$$P(Y_{X'=10\%} \mid X = 30\%, Y = -18\%)$$

ATE는 "모든 매니저가 줄였다면"이지만, 반사실은 "이 매니저, 이 시장에서" 다른 결정의 개인화된 답.

시나리오 2: 성과 귀인 (Performance Attribution)

$$\text{Skill}(u) = Y_{\pi_{manager}}(u) - Y_{\pi_{benchmark}}(u)$$

"동일 시장 상황($u$)에서의 매니저 전략과 벤치마크의 차이" = ITE.

시나리오 3: Human-AI 협업

"AI 추천을 매니저가 수정했다. 수정하지 않았다면?"

$$P(Y_{\pi_{AI}} \mid \pi = \pi_{modified}, Y = y_{observed})$$


6.2 반사실적 의사결정의 이론적 기초

6.2.1 Effect of Treatment on the Treated (ETT)

Definition 6.1 (ETT). 처치($X = x$)를 받은 개체에서, 비처치($X = x'$) 시의 결과:

$$\text{ETT} = \mathbb{E}[Y_{x'} \mid X = x] = \mathbb{E}[Y_{x'} - Y_x \mid X = x]$$

ATE ETT
대상 전체 모집단 처치 받은 하위 집단
계층 $\mathcal{L}_2$ $\mathcal{L}_3$
금융 해석 "전략의 평균적 효과" "이 전략 사용자에게의 효과"

6.2.2 반사실적 최적화 기준

표준 RL ($\mathcal{L}_2$):

$$\pi^* = \arg\max_\pi \mathbb{E}[Y \mid do(\pi)]$$

반사실 RL ($\mathcal{L}_3$):

$$\pi^*{CF} = \arg\max_\pi \mathbb{E}[Y_\pi \mid X = x{obs}, Y = y_{obs}]$$

$\mathcal{L}_2$는 "평균적으로 좋은 전략", $\mathcal{L}_3$는 "지금 나의 상황에서 최적인 전략". 기관투자자에게 후자가 더 직접적.


6.3 Counterfactual Data-Fusion

6.3.1 MABUC과 무한 후회 문제

Theorem 6.1 (Bareinboim et al., 2015). 비관측 교란 존재 시, 표준 무작위화($\mathcal{L}_2$) 기반 알고리즘은 교란을 단순 평균하여 무한 후회(infinite regret)를 야기할 수 있다.

순수한 무작위 탐색은 비관측 교란 $U$의 정보를 버린다. 이 정보는 반사실적으로만 회복 가능.

6.3.2 Forney, Pearl & Bareinboim (2017)의 핵심 결과

Theorem 6.2 (Counterfactual Data-Fusion). 반사실적 의사결정은 관측($\mathcal{L}_1$) + 실험($\mathcal{L}_2$) 데이터의 일관된 결합을 가능하게 하여, 무한 후회를 해결한다.

ETT 기반 결정 규칙:

$$a^*{CF}(x{obs}) = \arg\max_a \mathbb{E}[Y_a \mid X = x_{obs}]$$

"나의 자연적 선택이 $x_{obs}$인 상태에서, 행동 $a$의 반사실적 기대 보상을 최대화."

실험 결과: 실험 데이터만의 Thompson Sampling이 최악, 관측+실험+반사실 결합이 최고 성과.

6.3.3 금융 해석: 자연적 선호의 정보 가치

트레이더의 관측 행동 $X_{obs}$ 뒤의 비관측 요인 $U$(직관, 경험, 사적 정보). 순수 실험은 $U$의 정보를 버리지만, 반사실적 접근은 보존한다.


6.4 Counterfactual Realizability

6.4.1 Raghavan & Bareinboim (2025, ICLR)

반사실적 분포에서 실제로 샘플링할 수 있는가?

Definition 6.2 (Realizability). 반사실적 분포 $P(Y_{x'} \mid X = x)$가 실현 가능하다면, 물리적 실험으로 직접 샘플 추출이 가능하다.

Theorem 6.3 (완전 알고리즘). 임의의 반사실적 분포에 대해, 인과 그래프와 물리적 제약 하에서 실현 가능 여부를 판정하는 완전한(complete) 알고리즘이 존재한다.

핵심 확장: Counterfactual Randomization (ctf-randomization) — 동일 변수 $X$에 대해 서로 다른 하위 경로에 다중 무작위화를 수행. ETT 기반 단일 무작위화보다 엄밀히 우월.

Theorem 6.4. Causal template의 밴딧에서 ctf-randomization은 최적성 보장.

6.4.2 Counterfactual Randomization vs 표준 무작위화

표준 무작위화 ($\mathcal{L}_2$) 반사실적 무작위화 ($\mathcal{L}_3$)
비관측 교란 평균화 (정보 손실) 보존 (정보 활용)
개인화 불가 (평균적 효과) 가능 (개인별 반사실)
금융 예시 모든 투자자에 동일 전략 각 투자자 상황에 맞춤 전략

6.5 금융 적용

6.5.1 반사실적 전략 평가: Abduction-Action-Prediction

Step 1: Abduction — 관측된 시장 결과와 행동으로부터 외생변수 $\mathbf{U}$ 추론:

$$P(\mathbf{U} \mid \pi = \pi_{actual}, \mathbf{Y} = \mathbf{y}_{obs})$$

Step 2: Action — 전략을 대안으로 교체

Step 3: Prediction — 동일 외생 조건에서 대안 수익률 계산:

$$Y_{\pi_{alt}}(\mathbf{u}) = f_Y(\text{Pa}(Y) \mid_{\pi = \pi_{alt}}, \mathbf{u})$$

6.5.2 Counterfactual Regret Analysis

$$\text{CF-Regret}(u) = V^{\pi^*}(s_0; u) - V^{\pi_{actual}}(s_0; u)$$

실무 활용: 위기 시나리오 취약점 식별, 매니저 평가(운 vs 실력 분리), 전략 개선 포인트 분해.

6.5.3 Human-AI 협업

반사실적 질문 형식화 실무적 의의
AI가 결정했다면? $P(Y_{\pi_{AI}} \mid \pi = \pi_{human}, Y = y)$ AI 도입의 기대 효과
인간이 개입 안 했다면? $P(Y_{\pi_{AI}} \mid \pi = \pi_{AI+human}, Y = y)$ 인간 오버라이드의 가치
인간 직관만 따랐다면? $P(Y_{\pi_{human}} \mid \pi = \pi_{AI+human}, Y = y)$ AI 시그널의 부가가치

6.5.4 반사실 vs 시나리오 분석

접근 수준 외생 조건 금융 예시
시나리오 분석 $\mathcal{L}_2$ 변경 가능 "$do(\text{Rate}=5)$%이면?"
반사실 분석 $\mathcal{L}_3$ 고정 "2008년 그 상황에서 다른 결정이면?"

반사실은 특정 역사적 맥락의 외생 조건을 고정하여 더 정확한 what-if 분석 가능.


6.6 반사실의 식별과 경계

6.6.1 식별 조건

조건 식별 가능 여부 방법
SCM 완전 명세 점 식별 Abduction-Action-Prediction
선형 SCM 점 식별 구조방정식 역산
단조 SCM 점 식별 단조성 제약
일반 비모수 경계만 가능 Balke-Pearl bounds
관측+실험 결합 경계 축소 Data fusion bounds

6.6.2 금융 실무 접근

완전한 SCM 명세가 어려운 금융에서는 경계 접근이 실용적:

$$P_L(Y_{x'} = 1 \mid X = x) \leq P(Y_{x'} = 1 \mid X = x) \leq P_U(Y_{x'} = 1 \mid X = x)$$

경계 축소 방법: 추가 데이터, 구조적 가정(단조성/선형성), 도구 변수, 감도 분석.


6.7 AI 자율성과 반사실

6.7.1 금융 AI의 자율성 스펙트럼

수준 결정 구조 인과 계층
완전 수동 인간 결정, AI 관측 $\mathcal{L}_1$
보조적 인간 결정, AI 추천 $\mathcal{L}_1 \sim \mathcal{L}_2$
반자율 AI 결정, 인간 거부권 $\mathcal{L}_2$
완전 자율 AI 독립 운용 $\mathcal{L}_2 \sim \mathcal{L}_3$
반사실 자율 AI 자체 반사실 평가·수정 $\mathcal{L}_3$

최상위("반사실 자율"): AI가 과거 결정을 반사실적으로 평가하고 자체 개선. CRL Task 3의 궁극적 비전.


6.8 실습: 금융위기 시나리오에서의 반사실적 전략 비교

6.8.1 실습 개요

목표: 2020년 3월 COVID-19 폭락에서 세 전략의 반사실적 성과 비교.

  • 실행 전략: 60/40 buy-and-hold
  • 대안 1: 변동성 기반 동적 배분
  • 대안 2: 테일리스크 헤지 포함

6.8.2 Python 구현 스케치

import numpy as np

class FinancialSCM:
    """금융 반사실 분석용 SCM"""

    def abduction(self, strategy_actual, returns_observed):
        """외생 시장 충격 추론"""
        U_market = returns_observed - self.expected_return(strategy_actual)
        return U_market

    def counterfactual(self, U_market, strategy_alt):
        """동일 외생 조건에서 대안 전략 수익률"""
        return self.expected_return(strategy_alt) + U_market

    def regret_analysis(self, pi_actual, pi_alt, y_obs):
        U = self.abduction(pi_actual, y_obs)
        y_cf = self.counterfactual(U, pi_alt)
        return {
            'cf_returns': y_cf,
            'cf_regret': y_cf - y_obs,
            'cf_sharpe': np.mean(y_cf)/np.std(y_cf)*np.sqrt(252),
            'max_regret_date': np.argmax(np.abs(y_cf - y_obs))
        }

6.8.3 해석 주의사항

  1. SUTVA: 전략 변경이 시장 자체를 변경하지 않는다는 가정 — 대규모 기관은 위반 가능
  2. 모델 의존성: 다양한 SCM 가정 하 강건성 검증 필수
  3. 사후 편향: 정보 집합의 명시적 제한 필요
  4. 반사실 vs 시나리오: 외생 조건 고정(반사실) vs 변경(시나리오)의 차이 인식

핵심 요약 (Key Takeaways)

  • 반사실적 의사결정($\mathcal{L}_3$)은 "나의 상황에서 다른 결정이었다면"이라는 개인화된 질문에 답하며, $\mathcal{L}_2$ 최적화("평균적으로 좋은 전략")보다 기관투자자에게 더 직접적으로 관련된다.
  • ETT는 처치 받은 하위 집단의 반사실적 효과를 추정하며, 개인화된 전략 평가의 핵심 도구다.
  • Counterfactual Data-Fusion (Forney et al., 2017)은 관측+실험+반사실 결합으로 $\mathcal{L}_2$ 기반의 무한 후회를 해결한다.
  • Counterfactual Realizability (Raghavan & Bareinboim, 2025)는 반사실 분포의 물리적 실현 가능성에 대한 완전 알고리즘을 제공하며, ctf-randomization이 ETT보다 엄밀히 우월함을 증명.
  • 금융 적용: 전략 후회 분석, 성과 귀인(운 vs 실력), Human-AI 협업 설계, 금융위기 반사실 시나리오.
  • 반사실은 모델 의존적이므로 경계 분석, 감도 분석, 정보 집합 제한이 실무적으로 필수.

더 읽을거리

  1. Bareinboim, E., Forney, A. & Pearl, J. (2015). Bandits with Unobserved Confounders: A Causal Approach. NeurIPS.
  2. Forney, A., Pearl, J. & Bareinboim, E. (2017). Counterfactual Data-Fusion for Online Reinforcement Learners. ICML.
  3. Forney, A. & Bareinboim, E. (2019). Counterfactual Randomization: Rescuing Experimental Studies from Obscured Confounding. AAAI.
  4. Raghavan, A. & Bareinboim, E. (2025). Counterfactual Realizability and Decision-Making. ICLR.
  5. Zhang, J. & Bareinboim, E. (2022). Can Humans Be Out of the Loop? CLeaR.
  6. Balke, A. & Pearl, J. (1994). Counterfactual Probabilities: Computational Methods, Bounds, and Applications. UAI.