금융연구/인과강화학습

Chapter 7. Task 4 — Generalizability & Robustness: 전이가능성과 구조적 불변성

hertzalpha 2026. 4. 1. 14:36

Chapter 7. Task 4 — Generalizability & Robustness: 전이가능성과 구조적 불변성

"Science is about generalization; conclusions obtained in a laboratory setting are transported and applied elsewhere, in an environment that differs in many aspects from that of the laboratory."
— Bareinboim & Pearl (2013)

7.1 문제 정의: 환경 간 정책 전이

7.1.1 CRL Task 4의 핵심 질문

Task 4 (Generalizability & Robustness). 훈련 환경(SCM $\mathcal{M}$)과 배포 환경($\mathcal{M}^*$) 사이에 공유되는 구조적 불변성(structural invariances)에 기반하여 정책을 일반화하라.

이것은 금융에서 가장 보편적이고 가장 어려운 문제 중 하나다:

과거(training) 시장에서 학습한 전략이 미래(deployment) 시장에서도 작동하는가?
미국 시장에서 개발한 전략이 한국/신흥국 시장에서 통용되는가?
강세장에서 학습한 전략이 약세장에서도 유효한가?
주식 전략을 채권이나 대체투자에 확장할 수 있는가?

7.1.2 전통적 일반화 접근의 한계

표준 ML/RL에서의 일반화는 동일 분포(i.i.d.) 가정에 의존한다: 훈련 데이터와 테스트 데이터가 같은 분포에서 생성된다. 금융에서 이 가정은 거의 항상 위반된다.

가정	금융 현실	결과
훈련 ≈ 테스트 분포	레짐 전환, 구조 변화	과적합, 전략 실패
정상적 환경	비정상 시계열, 분포 이동	분포 외(OOD) 성능 저하
단일 환경	다중 시장, 다중 자산	교차 시장 전이 불가

인과적 접근의 핵심 이점: 인과 구조(SCM의 구조함수 $\mathbf{F}$와 인과 그래프 $G$)는 분포 변화에도 불변할 수 있다. 분포가 변해도 인과 메커니즘이 동일하면, 학습된 정책이 전이 가능하다.

7.2 Transportability Theory

7.2.1 Selection Diagram

Transportability의 핵심 도구는 Selection Diagram이다.

Definition 7.1 (Selection Diagram, Pearl & Bareinboim, 2011). 두 환경 $\Pi$(소스)와 $\Pi^*$(타겟) 사이의 공통점과 차이점을 인코딩하는 인과 그래프 $D$:

표준 인과 간선: 두 환경에 공통된 인과 관계
$S$-노드: 두 환경 사이에 차이가 존재하는 메커니즘을 표시하는 특수 노드. $S_i$가 변수 $V_i$를 가리키면, $V_i$의 구조함수가 환경 간에 다를 수 있다.

$S$-노드가 가리키지 않는 변수의 메커니즘은 두 환경에서 동일하다고 가정한다 (구조적 불변성).

금융 예시: 미국→한국 전략 전이

Selection Diagram:
  InterestRate → StockReturn
  Sentiment → StockReturn  
  Regulation → TradingCost

  S₁ → InterestRate     (금리 구조 다름)
  S₂ → Regulation       (규제 환경 다름)
  S₃ → Sentiment        (투자자 심리 다름)

  [불변] InterestRate → StockReturn 메커니즘 (금리↑ → 주가↓ 관계)
  [불변] TradingCost → ExecutionQuality 메커니즘 (비용 효과)

$S$-노드로 표시된 변수(금리 수준, 규제 환경, 투자자 심리)는 미국과 한국에서 다르지만, 금리가 주가에 미치는 메커니즘 자체는 동일하다고 가정할 수 있다.

7.2.2 Transportability의 형식적 정의

Definition 7.2 (Transportability). 인과 효과 $P^(y \mid do(x))$가 소스 환경 $\Pi$에서 타겟 환경 $\Pi^$로 전이 가능(transportable)하다는 것은, 소스의 실험 결과 $P(y \mid do(x))$와 타겟의 관측 데이터 $P^(\mathbf{v})$의 결합으로부터 $P^(y \mid do(x))$를 계산할 수 있다는 것이다.

Transport Formula의 일반적 형태:

$$P^(y \mid do(x)) = \sum_z P(y \mid do(x), z) , P^(z)$$

이것이 유효한 조건: 변수 $Z$가 두 환경 사이의 차이를 매개(mediate)하며, $Z$-특정 인과 효과 $P(y \mid do(x), z)$가 환경 간에 불변일 때.

금융 해석: "미국에서 추정한 금리 인상의 주가 효과(금리 수준별 $z$)가 한국에서도 동일하다면, 한국의 금리 분포 $P^*(z)$와 결합하여 한국에서의 인과 효과를 추정할 수 있다."

7.2.3 Transportability의 완전성 결과

Theorem 7.1 (Transportability Completeness, Bareinboim & Pearl, 2012, 2014).

필요충분 조건: Selection diagram $D$가 주어졌을 때, 인과 효과의 전이가능성을 판정하는 필요충분 그래프 조건이 존재한다.
완전 알고리즘: Transport formula를 계산하는 완전한 알고리즘이 존재한다 — 알고리즘이 실패하면 전이가 불가능하다.

7.2.4 Meta-Transportability

Bareinboim & Pearl (2013)은 다중 이질적 소스 환경에서 타겟으로의 전이를 일반화했다:

Meta-Transportability. $k$개의 소스 환경 ${\Pi_1, \ldots, \Pi_k}$에서 각각 실험 결과가 주어졌을 때, 이들을 결합하여 타겟 환경 $\Pi^*$의 인과 효과를 추정.

금융에서의 Meta-Transportability: 미국, 유럽, 일본, 중국 등 다수의 시장에서 학습한 전략 정보를 결합하여, 새로운 시장(예: 인도, 브라질)에서의 전략 효과를 추정.

7.2.5 Counterfactual Transportability

Correa, Lee & Bareinboim (2022, ICML)은 transportability를 $\mathcal{L}_3$(반사실)로 확장했다:

Counterfactual Transportability. 소스 환경의 반사실적 분포를 타겟 환경으로 전이하는 조건과 알고리즘을 확립.

이것은 Ch.6의 반사실적 의사결정과 본 챕터의 일반화를 통합한다: "미국 시장에서의 반사실적 전략 평가를 한국 시장에 전이할 수 있는가?"

7.3 금융에서의 Structural Invariances

7.3.1 인과 불변 특성의 개념

금융에서 환경(레짐, 시장, 시대)이 변해도 유지되는 인과 불변 특성(Invariant Causal Features)을 식별하는 것이 핵심이다.

$$Y = f(\underbrace{X_{inv}}_{\text{인과 불변}}, \underbrace{X_{spu}}_{\text{허위/가변}}, U)$$

$X_{inv}$: 모든 환경에서 $Y$에 대한 인과 관계가 동일한 특성
$X_{spu}$: 특정 환경에서만 $Y$와 상관되지만, 인과 관계가 아닌 특성

금융 예시:

특성	인과 불변 ($X_{inv}$) 후보	허위/가변 ($X_{spu}$) 후보
밸류 팩터 (PBR)	장기 평균회귀 메커니즘	금리 환경에 따른 유효성 변동
모멘텀	행동 편향(과잉반응)의 인과 메커니즘	레짐 의존적 크래시 패턴
신용 스프레드 → 경기침체	신용 리스크의 인과 전파 메커니즘	규제 변화에 따른 스프레드 수준
유동성 → 수익률	유동성 프리미엄의 인과 구조	시장 미시구조 변화

7.3.2 세 가지 전이 차원

차원 1: 시간 전이 (Temporal Transfer) — 레짐 간

과거 레짐에서 학습한 전략을 현재/미래 레짐으로 전이.

Selection Diagram에서 $S$-노드가 가리키는 변수:

변동성 수준 ($S \rightarrow \sigma$)
상관 구조 ($S \rightarrow \Sigma$)
시장 심리 ($S \rightarrow \text{Sentiment}$)

불변 메커니즘:

밸류 팩터의 평균회귀 방향
시장 충격 모델의 기본 구조 (square-root law)
분산투자 효과의 방향

Transport formula 적용: 과거 레짐의 팩터 효과(레짐별 $z$)를 추정하고, 현재 레짐 분포 $P^*(z)$와 결합.

차원 2: 지역 전이 (Geographic Transfer) — 시장 간

한 시장(예: 미국)에서 학습한 전략을 다른 시장(예: 한국, 신흥국)으로 전이.

$S$-노드로 표시되는 차이:

규제 환경 ($S \rightarrow \text{Regulation}$)
투자자 구성 ($S \rightarrow \text{InvestorMix}$)
시장 미시구조 ($S \rightarrow \text{Microstructure}$)
통화/환율 요인 ($S \rightarrow \text{FX}$)

불변 메커니즘 후보:

이자율 패리티의 기본 방향
밸류/모멘텀 프리미엄의 존재 (다수 시장에서 관측)
위기 전파의 기본 채널 (유동성, 신용)

차원 3: 자산 전이 (Asset Class Transfer) — 자산 클래스 간

주식 시장에서 개발한 전략 원리를 채권, 원자재, 대체투자로 확장.

$S$-노드로 표시되는 차이:

수익률 생성 메커니즘 ($S \rightarrow \text{ReturnDriver}$)
유동성 구조 ($S \rightarrow \text{Liquidity}$)
벤치마크 구조 ($S \rightarrow \text{Benchmark}$)

불변 메커니즘 후보:

밸류/모멘텀 효과는 주식, 채권, 원자재, 통화에서 모두 관측 (Asness, Moskowitz & Pedersen, 2013)
리스크 프리미엄의 존재
과잉반응/과소반응의 행동적 메커니즘

7.4 레짐 전환과 인과적 적응

7.4.1 Regime-Switching SCM

금융의 비정상성을 인과적으로 모델링하는 프레임워크:

Definition 7.3 (Regime-Switching SCM). 레짐 변수 $Z_t \in {1, \ldots, K}$를 포함한 확장된 SCM:

$$V_i^{(t)} = f_i^{(Z_t)}(\text{Pa}(V_i), U_i)$$

구조함수 $f_i$가 레짐 $Z_t$에 의존한다. 즉, 인과 메커니즘 자체가 레짐에 따라 변할 수 있다.

레짐 전환의 인과 그래프:

$$Z_t \rightarrow V_i^{(t)}, \quad Z_t \rightarrow Z_{t+1}$$

7.4.2 불변 vs 가변 메커니즘의 분리

Regime-Switching SCM에서 핵심 과업은 어떤 메커니즘이 레짐에 불변이고, 어떤 메커니즘이 레짐에 의존하는가를 식별하는 것이다.

$$f_i^{(Z_t)} = \begin{cases} f_i^{inv} & \text{if } V_i \in \mathbf{V}_{inv} \quad (\text{불변}) \\ f_i^{(k)} & \text{if } V_i \in \mathbf{V}_{var}, Z_t = k \quad (\text{레짐 의존}) \end{cases}$$

불변 메커니즘으로 확인된 관계는 레짐이 변해도 전이 가능하다.

7.4.3 Invariant Causal Prediction (ICP)

Peters, Bühlmann & Meinshausen (2016)의 Invariant Causal Prediction은 다중 환경 데이터에서 인과 특성을 식별하는 통계적 방법:

$$\mathbf{X}_{inv} = \bigcap_{e \in \mathcal{E}} \left\{ S \subseteq \{1, \ldots, p\} : Y^e = \beta_S^\top X_S^e + \epsilon^e, \quad \epsilon^e \perp\!\!\!\perp X_S^e \text{ for all } e \right\}$$

모든 환경 $e \in \mathcal{E}$에서 동시에 $Y$의 잔차가 $X_S$와 독립인 변수 집합 $S$가 인과 변수의 후보다.

금융 적용: 여러 레짐(강세, 약세, 위기, 회복)의 데이터를 환경으로 사용하여, 모든 레짐에서 수익률과 안정적 관계를 유지하는 팩터를 인과 불변 팩터로 식별.

7.5 Transport Formula의 금융 적용

7.5.1 미국→한국 팩터 전략 전이

문제: 미국 시장(소스 $\Pi$)에서 밸류 팩터 전략의 인과 효과를 추정했다. 이를 한국 시장(타겟 $\Pi^*$)에 전이할 수 있는가?

Selection Diagram 설계:

$S$-노드 위치 (미국과 한국의 차이):

$S_1 \rightarrow \text{InvestorComposition}$: 개인 vs 기관 비율 다름
$S_2 \rightarrow \text{Regulation}$: 공매도 규제 다름
$S_3 \rightarrow \text{MarketStructure}$: 호가 단위, 거래 시간 다름

불변 가정:

$\text{PBR} \rightarrow \text{FutureReturn}$ 메커니즘: PBR이 낮은 주식이 장기적으로 높은 수익을 내는 평균회귀 메커니즘은 동일

Transport Formula:

$$P^*_{KR}(R \mid do(\text{Value})) = \sum_z P_{US}(R \mid do(\text{Value}), Z = z) \, P^*_{KR}(Z = z)$$

여기서 $Z$는 두 환경 사이의 차이를 매개하는 변수(투자자 구성, 규제 환경 등).

해석: "미국에서 추정한 밸류 전략의 효과(투자자 구성별, 규제 환경별)를 한국의 투자자 구성/규제 분포와 결합하여 한국에서의 효과를 추정."

7.5.2 강세장→약세장 전략 전이

문제: 강세장(소스)에서 학습한 RL 에이전트를 약세장(타겟)에 배포.

$S$-노드:

$S_1 \rightarrow \text{Volatility}$: 변동성 수준
$S_2 \rightarrow \text{Correlation}$: 자산 간 상관 구조
$S_3 \rightarrow \text{Liquidity}$: 유동성 수준

불변 메커니즘 후보:

리스크-수익 트레이드오프의 방향
분산투자 효과의 존재
거래 비용 모델의 기본 구조

Transport formula를 적용하면, 강세장에서 추정한 변동성/상관/유동성별 전략 효과를 약세장의 변동성/상관/유동성 분포와 결합하여 성과를 예측할 수 있다.

7.5.3 전이 불가능성의 진단

Transport 알고리즘이 실패하는 경우 = 전이 불가능. 이는 "이 전략은 새 환경으로 전이할 수 없다"는 경고 신호다.

금융에서 전이 불가능한 전형적 상황:

상황	원인	대응
$S$-노드가 보상 변수에 직접 연결	수익 생성 메커니즘 자체가 다름	타겟 환경의 고유 데이터 필요
비관측 교란이 환경 간 다름	비관측 요인의 분포 이동	감도 분석, 추가 proxy 변수
인과 구조 자체가 다름	새 환경에서 새로운 인과 관계	인과 발견부터 재수행

7.6 Robust Policy Learning

7.6.1 Distributionally Robust Optimization (DRO)

환경 불확실성에 대한 실무적 대응으로 분포 강건 최적화:

$$\pi^*_{robust} = \arg\max_\pi \min_{P \in \mathcal{P}} \mathbb{E}_P\left[\sum_t \gamma^t R_t \mid \pi\right]$$

여기서 $\mathcal{P}$는 가능한 환경 분포의 불확실성 집합(ambiguity set).

인과적 DRO에서 $\mathcal{P}$는 인과 구조에 의해 제약된다:

$$\mathcal{P}_{causal} = \{P^* : P^* \text{가 인과 그래프 } G \text{와 호환되고, 불변 메커니즘을 공유}\}$$

이는 임의의 분포 이동이 아닌, 인과적으로 가능한 분포 이동만을 고려하므로, 과도하게 보수적이지 않은(tight) 강건 정책을 학습한다.

7.6.2 인과적 Domain Adaptation

표준 domain adaptation은 소스와 타겟의 공변량 이동(covariate shift)을 보정한다. 인과적 확장:

$$P^*(Y \mid do(X)) = \sum_z P(Y \mid do(X), Z = z) \cdot \underbrace{\frac{P^*(Z = z)}{P(Z = z)}}_{\text{인과적 중요도 가중치}} \cdot P(Z = z)$$

여기서 가중치는 소스와 타겟의 교란/조절 변수 분포 차이를 보정한다. 표준 공변량 이동 보정과 달리, 인과 구조에 의해 어떤 변수를 보정해야 하는지가 결정된다.

7.7 실습: 시장 레짐 전환 시 전략 로버스트니스 테스트

7.7.1 실습 개요

목표: 2015-2019년(강세장)에서 학습한 RL 포트폴리오 전략이 2020-2023년(위기+회복+인플레이션)으로 전이 가능한지를 인과적 transportability 프레임워크로 분석.

7.7.2 구현 프레임워크

# Selection Diagram 정의
class SelectionDiagram:
    def __init__(self, causal_graph, s_nodes):
        """
        causal_graph: 환경 공통 인과 구조
        s_nodes: 환경 간 차이가 있는 메커니즘 {변수: True/False}
        """
        self.G = causal_graph
        self.S = s_nodes  # S-노드: 메커니즘이 다른 변수

    def is_transportable(self, treatment, outcome):
        """Transport 알고리즘으로 전이가능성 판정"""
        # do-calculus 기반 식별 (단순화)
        adjustment_set = self.find_transport_adjustment(treatment, outcome)
        if adjustment_set is not None:
            return True, adjustment_set
        return False, None

    def transport_formula(self, source_data, target_data, 
                          treatment, outcome, adjustment_vars):
        """Transport formula 적용"""
        result = 0
        for z_val in adjustment_vars.unique_values():
            # 소스에서의 z-특정 인과 효과
            causal_effect_z = source_data.estimate_causal_effect(
                treatment, outcome, condition=z_val
            )
            # 타겟에서의 z 분포
            prob_z_target = target_data.marginal_prob(z_val)
            result += causal_effect_z * prob_z_target
        return result

# 실행
sd = SelectionDiagram(
    causal_graph=market_dag,
    s_nodes={'Volatility': True, 'Correlation': True, 
             'Liquidity': True, 'RiskFreeRate': True}
)

transportable, adj_set = sd.is_transportable(
    treatment='FactorTilt', outcome='Return'
)

if transportable:
    transported_effect = sd.transport_formula(
        source_data=bull_market_data,
        target_data=bear_market_data,
        treatment='FactorTilt', outcome='Return',
        adjustment_vars=adj_set
    )
    print(f"전이된 인과 효과: {transported_effect:.3f}")
else:
    print("전이 불가능 — 타겟 환경 고유 데이터 필요")

7.7.3 결과 해석

인과적 전이가능성 분석 결과의 해석 가이드:

전이 가능한 경우: Transport formula로 타겟 환경 성과를 추정하고, 소스 환경 결과와 비교. 차이가 크면 환경 간 조절 변수($Z$) 분포의 이동이 크다는 의미.
전이 불가능한 경우: 어떤 $S$-노드가 전이를 차단하는지 진단. 해당 메커니즘에 대한 타겟 환경 고유 데이터 수집이 필요.
부분 전이: 일부 인과 효과는 전이 가능하고 일부는 불가. 전이 가능한 부분은 소스 데이터를 활용하고, 불가능한 부분은 타겟 데이터로 보완하는 하이브리드 접근.

핵심 요약 (Key Takeaways)

Transportability Theory (Bareinboim & Pearl)는 소스 환경의 인과 지식을 타겟 환경으로 전이하는 형식적 프레임워크로, 필요충분 조건과 완전 알고리즘을 제공한다.
Selection Diagram은 두 환경 간의 공통점(공유 인과 메커니즘)과 차이점($S$-노드)을 명시적으로 인코딩하며, 금융의 레짐 전환·지역 전이·자산 전이에 직접 적용된다.
구조적 불변성(Structural Invariances)은 환경이 변해도 유지되는 인과 메커니즘으로, 전이 가능한 전략의 기반이다. 금융에서 인과 불변 팩터를 식별하는 것이 로버스트 전략의 핵심.
Meta-Transportability는 다수의 이질적 소스 환경(다중 시장, 다중 레짐)의 정보를 결합하여 새 환경으로 전이하는 확장이다.
Counterfactual Transportability (Correa et al., 2022)는 반사실적 분포의 환경 간 전이로, Ch.6의 반사실적 의사결정과 본 챕터의 일반화를 통합한다.
전이 불가능의 진단도 중요한 결과다 — "이 전략은 새 환경에서 작동하지 않을 수 있다"는 경고를 형식적으로 도출할 수 있다.
인과적 DRO는 인과적으로 가능한 분포 이동만을 고려하여, 과도하게 보수적이지 않은 강건 정책을 학습한다.

더 읽을거리

Pearl, J. & Bareinboim, E. (2011). Transportability of Causal and Statistical Relations: A Formal Approach. AAAI. — Transportability의 원논문.
Bareinboim, E. & Pearl, J. (2013). A General Algorithm for Deciding Transportability of Experimental Results. Journal of Causal Inference, 1(1):107-134. — 완전 알고리즘.
Bareinboim, E. & Pearl, J. (2014). Transportability from Multiple Environments with Limited Experiments: Completeness Results. NeurIPS. — 다중 환경 전이의 완전성.
Correa, J., Lee, S. & Bareinboim, E. (2022). Counterfactual Transportability: A Formal Approach. ICML. — 반사실적 전이.
Peters, J., Bühlmann, P. & Meinshausen, N. (2016). Causal Inference by Using Invariant Prediction: Identification and Confidence Intervals. JRSSB. — Invariant Causal Prediction.
Bareinboim, E. & Pearl, J. (2016). Causal Inference and the Data-Fusion Problem. PNAS, 113(27):7345-7352. — Data fusion의 통합 프레임워크.

'금융연구 > 인과강화학습' 카테고리의 다른 글

Chapter 9. Task 6 — Causal Imitation Learning: 보상 비관측 하의 정책 학습 (0)	2026.04.01
Chapter 8. Task 5 — Learning Causal Models: 인과 구조 발견 (0)	2026.04.01
Chapter 6. Task 3 — Counterfactual Decision-Making: 반사실적 의사결정 (0)	2026.04.01
Chapter 5. Task 2 — When and Where to Intervene: 정책 공간 정제 (1)	2026.04.01
Chapter 4. Task 1 — Causal Offline-to-Online Learning: 일반화된 정책 학습 (0)	2026.04.01

현재글Chapter 7. Task 4 — Generalizability & Robustness: 전이가능성과 구조적 불변성

hertzalpha 님의 블로그

hertzalpha 님의 블로그 입니다.

causalinference, 금융AI, FinancialAI, PMI #MA #통합관리 #글로벌표준 #BCG #McKinsey #변화관리 #시너지 #애자일 #문화통합, PE #M&A딜 #사모펀드 #사모주식 #대체투자, OffPolicyLearning, PE # M&A # 인수합병 # 딜, 인과투자, 상태추정 #신호처리 #베이즈추론 #칼만필터 #칼만스무딩, reinforcementlearning, 강화학습, OfflineRL, 인과추론, 벤처캐피탈 # 세콰이어, # #인과추론 #CausalInference #오프라인강화학습 #OfflineRL #OffPolicyLearning #금융AI #FinancialAI #MDP #인과적강화학습 #CausalRL #포트폴리오최적화 #퀀트 #머신러닝 #DeepLearning #AlgoTrading, Buyout #PE #M&A딜 #인수합병 #사모펀드 #사모주식, 오프라인강화학습, 사모주식, 일본 기타 #일본 여성기타리스트 # 일본 메탈기타리스트 # 일본 록 기타리스트, PE # M&A # 인수합병 # 딜 # 사모펀드 # 사모주식,

Today :
Yesterday :

hertzalpha 님의 블로그