금융연구/인과강화학습

Chapter 5. Task 2 — When and Where to Intervene: 정책 공간 정제

hertzalpha 2026. 4. 1. 11:07

Chapter 5. Task 2 — When and Where to Intervene: 정책 공간 정제


"Whenever the underlying causal model is not taken into account, the standard strategies may lead to suboptimal policies, regardless of the number of interventions performed."
— Lee & Bareinboim (2018)


5.1 문제 정의: 개입의 대상과 범위

5.1.1 CRL Task 2의 핵심 질문

Task 2 (When and Where to Intervene). SCM $\mathcal{M}$이 인과 그래프 $G$ 위에 부과하는 위상적 제약(topological constraints)에 기반하여, 정책 공간 $do(\Pi(\mathbf{X}))$를 정제할 $\mathcal{L}_2$의 부분집합을 식별하라.

이것은 금융에서 가장 실무적인 질문으로 번역된다:

  • 어떤 변수에 능동적으로 개입(intervention)하고, 어떤 변수는 수동적으로 관측(observation)할 것인가?
  • 모든 팩터를 동시에 조작하는 것이 최적인가, 아니면 일부만 조작하는 것이 나은가?
  • 개입 비용(거래 비용, 시장 충격)을 고려할 때 최적 개입 범위는?

5.1.2 금융에서의 "개입"과 "관측"

금융 의사결정에서 개입과 관측의 구분은 실질적이다:

  개입 ($do$) 관측 (Conditioning)
정의 변수를 강제로 설정 변수를 측정하고 조건화
비용 거래 비용, 시장 충격, 슬리피지 데이터 비용만 (상대적 저렴)
금융 예시 특정 팩터에 능동적 노출 조절 시장 레짐을 모니터링만
  포트폴리오 리밸런싱 실행 변동성 지표 관측
  헤지 포지션 구축 신용 스프레드 추적
  중앙은행의 금리 변경 GDP 성장률 관측
인과 효과 $P(Y \mid do(X=x))$ $P(Y \mid X=x)$

핵심 통찰: 모든 변수에 개입하는 것이 항상 최적이 아니다. 인과 구조에 따라, 일부 변수는 관측만으로 충분하고, 일부 변수에의 개입은 오히려 해로울 수 있다.


5.2 Structural Causal Bandits: 이론적 기초

5.2.1 SCM-MAB 프레임워크

Lee & Bareinboim (2018, NeurIPS)은 인과 구조를 활용한 의사결정 프레임워크인 Structural Causal Multi-Armed Bandit (SCM-MAB)을 도입했다.

Definition 5.1 (SCM-MAB). SCM-MAB은 다음으로 구성된다:

  • SCM $\mathcal{M} = \langle \mathbf{U}, \mathbf{V}, \mathbf{F}, P(\mathbf{U}) \rangle$과 대응 인과 그래프 $G$
  • 보상 변수 $Y \in \mathbf{V}$
  • "팔(arm)" = $\mathbf{V}$의 부분집합에 대한 개입 $do(\mathbf{X} = \mathbf{x})$
  • 에이전트는 각 라운드에서 하나의 팔(개입)을 선택하고, 보상 $Y$를 관측

표준 MAB vs SCM-MAB의 핵심 차이:

표준 MAB에서 각 팔은 독립적 보상 분포를 갖는다. 그러나 SCM-MAB에서는 팔들의 보상 분포가 인과 구조에 의해 비자명하게 연결되어 있다. 이 연결 구조를 활용하면 탐색 효율이 극적으로 향상된다.

5.2.2 핵심 결과: 인과 구조 무시의 대가

Theorem 5.1 (Lee & Bareinboim, 2018). 인과 구조를 무시하고 모든 변수에 동시 개입하거나, 모든 변수 부분집합에 개입하는 표준 전략은, 어떤 인과 모델에서는 아무리 많은 개입을 수행해도 최적 정책에 수렴하지 못할 수 있다.

이 결과는 충격적이다. 무한한 데이터가 있어도, 인과 구조를 모르면 최적 행동을 찾을 수 없다는 의미다.

직관적 설명: 비관측 교란변수가 존재할 때, 변수 $X$에 직접 개입하는 것과, $X$의 부모 $Z$에 개입하여 $X$를 간접적으로 변화시키는 것은 다른 보상 분포를 유도한다. 인과 그래프 없이는 이 차이를 식별할 수 없다.

5.2.3 POMIS: 최적 개입 집합의 식별

Lee & Bareinboim은 인과 구조로부터 Possibly-Optimal Minimal Intervention Sets (POMIS)를 식별하는 알고리즘을 개발했다:

Definition 5.2 (POMIS). 인과 그래프 $G$가 주어졌을 때, POMIS는 에이전트가 최대 기대 보상을 달성하기 위해 반드시 탐색해야 하는 최소한의, 건전하고(sound), 완전한(complete) 개입 집합이다.

POMIS 알고리즘의 입력/출력:

  • 입력: 인과 그래프 $G$, 보상 변수 $Y$
  • 출력: 에이전트가 탐색해야 할 개입 집합들의 최소 목록

핵심 속성:

  • 건전성(Soundness): 최적 개입은 반드시 POMIS에 포함
  • 완전성(Completeness): POMIS 외의 개입은 최적이 될 수 없음
  • 최소성(Minimality): 불필요한 개입이 제거됨

실증적으로, POMIS 기반 전략은 인과 구조를 무시하는 표준 MAB 대비 수십 배 빠른 수렴을 달성한다.

5.2.4 비조작 변수의 확장

Lee & Bareinboim (2019, AAAI)은 모든 변수가 조작 가능하지 않은 경우로 확장했다.

Non-Manipulable Variables. 일부 변수는 직접 개입이 불가능하다. 예: 비만($X$)에 직접 개입할 수 없지만, 탄산음료 소비($Z$)에는 개입 가능.

금융에서 비조작 변수의 예시:

비조작 변수 이유 대안적 개입 경로
시장 레짐 개별 투자자가 변경 불가 레짐 감지 후 노출 조절
금리 수준 중앙은행만 변경 가능 금리 민감도(Duration) 조절
지정학적 리스크 외생적 지역 배분, 헤지 비율 조절
시장 유동성 구조적 요인 매매 타이밍, 주문 크기 조절
기업 실적 기업 내부 결정 종목 선택, 노출 비중 조절

비조작 변수를 포함한 POMIS 알고리즘은, 직접 개입 불가능한 변수를 관측(context)으로 활용하면서, 조작 가능한 변수의 최적 개입을 식별한다.


5.3 Mixed Policy: 관측과 개입의 최적 조합

5.3.1 Mixed Policy의 정의

Lee & Bareinboim (2020, NeurIPS)은 관측과 개입을 혼합하는 정책의 최적화를 연구했다.

Definition 5.3 (Mixed Policy). 변수 집합 $\mathbf{V} = {V_1, \ldots, V_n}$이 주어졌을 때, mixed policy $\pi_{mix}$는 각 변수에 대해:

  • 개입(Intervene): $V_i$를 $do(V_i = v_i)$로 강제 설정하거나
  • 관측(Observe): $V_i$를 측정하여 조건으로 사용

하는 결정을 내린다. 정책의 범위(scope)는 어떤 변수에 개입하고 어떤 변수를 관측하는지의 조합이다.

정책 범위의 스펙트럼:

$$\underbrace{\text{순수 관측}}_{\text{모든 변수 관측}} \longleftrightarrow \underbrace{\text{Mixed Policy}}_{\text{일부 개입 + 일부 관측}} \longleftrightarrow \underbrace{\text{완전 개입}}_{\text{모든 변수 개입}}$$

5.3.2 최적 Mixed Policy의 특성

Theorem 5.2 (Lee & Bareinboim, 2020). 인과 그래프 $G$가 주어졌을 때, 최적 mixed policy의 범위(어떤 변수에 개입하고 어떤 변수를 관측하는가)를 완전히 특성화(characterize)할 수 있다.

핵심 결과:

  1. 완전 개입이 항상 최적이 아니다: 일부 변수에 개입하지 않고 관측만 하는 것이 더 나은 경우가 있다.
  2. 순수 관측도 항상 최적이 아니다: 적어도 일부 변수에의 개입이 필요한 경우가 있다.
  3. 최적 범위는 인과 구조에 의해 결정된다: 인과 그래프의 위상적 속성이 최적 개입 대상을 결정한다.

5.3.3 금융에서의 최적 Mixed Policy

이를 금융 포트폴리오 관리에 직접 매핑하면:

변수 분류:

$$\mathbf{V} = \underbrace{\mathbf{X}_{act}}_{\text{능동 관리}} \cup \underbrace{\mathbf{X}_{obs}}_{\text{수동 관측}} \cup \underbrace{\mathbf{X}_{fix}}_{\text{비조작}}$$

변수 개입/관측 결정 금융 예시
$\mathbf{X}_{act}$ (능동 관리) $do(X_i = x_i)$ — 적극적으로 노출 조절 밸류 팩터 틸트, 듀레이션 관리
$\mathbf{X}_{obs}$ (수동 관측) $X_j$ 관측 후 조건부 행동 시장 레짐 모니터링, VIX 추적
$\mathbf{X}_{fix}$ (비조작) 개입 불가, 관측만 GDP 성장률, 지정학적 리스크

최적 포트폴리오 정책:

$$\pi^_{mix}(a \mid s) = \pi^\left(do(\mathbf{X}{act} = \mathbf{x}{act}) \mid \mathbf{X}{obs} = \mathbf{x}{obs}, \mathbf{X}{fix} = \mathbf{x}{fix}\right)$$

이것은 "시장 레짐($\mathbf{X}{obs}$)을 관측하고, 매크로 환경($\mathbf{X}{fix}$)을 참고하여, 팩터 노출($\mathbf{X}_{act}$)을 능동적으로 조절하라"는 전략이다.


5.4 Active vs Passive의 인과적 재구성

5.4.1 전통적 Active-Passive 논쟁의 한계

금융 산업에서 가장 오래된 논쟁 중 하나인 "active vs passive" 논쟁은, CRL 관점에서 완전히 새로운 프레임으로 재구성된다.

전통적 프레임:

  • Active: 시장을 이길 수 있다고 믿고 능동적으로 종목 선택/타이밍 조절
  • Passive: 시장을 이기기 어렵다고 인정하고 인덱스 추종

CRL 프레임:

  • Active = 변수에 개입 ($do$)
  • Passive = 변수를 관측만 (conditioning)
  • 최적 전략 = Mixed Policy — 어떤 차원에서 개입하고 어떤 차원을 관측하는가의 최적 조합

이 재구성의 핵심 통찰: "active or passive"가 아니라 "where to be active"가 진정한 질문이다.

5.4.2 데이터가 말하는 것

2025년 Morningstar Active/Passive Barometer 데이터:

  • 대형주(US Large Cap): 10년간 active 펀드의 8%만 passive 대비 초과수익 → 이 영역에서는 관측(passive)이 최적에 가까움
  • 채권(Fixed Income): active 관리자의 47%가 벤치마크 초과 → 이 영역에서는 개입(active)의 가치가 더 높음
  • 신흥국/소형주: active 성공률이 상대적으로 높음 → 정보 비효율 시장에서 개입의 가치가 증가

CRL 해석: 시장의 인과 구조(효율성, 정보 비대칭, 유동성)가 최적 개입 범위를 결정한다. 효율적 시장에서는 관측이 최적이고, 비효율적 시장에서는 개입이 더 큰 가치를 창출한다.

5.4.3 팩터 수준의 Active-Passive 분해

더 세밀한 수준에서, 각 팩터에 대해 개입/관측 결정을 내릴 수 있다:

팩터 인과 구조 특성 최적 전략 근거
시장 베타 높은 효율성, 낮은 정보 비대칭 관측 (패시브 노출) 베타 프리미엄은 개입 없이 수확 가능
밸류 행동 편향에 인과적 기반 선택적 개입 과잉반응의 인과 메커니즘 활용
모멘텀 레짐 의존적, 크래시 위험 조건부 개입 레짐 관측 후 조건부 노출 조절
저변동성 레버리지 제약의 인과적 결과 개입 구조적 요인이 지속적 프리미엄 생성
퀄리티 기업 펀더멘털에 인과적 기반 관측 선별 비용 대비 프리미엄이 불안정

이 분석은 SCM-MAB의 POMIS 알고리즘으로 형식화할 수 있다. 각 팩터를 변수 노드로, 팩터 간 인과 관계를 간선으로 표현하고, 어떤 팩터 노출에 능동적으로 개입하고 어떤 팩터는 자연스러운 노출(관측)로 둘 것인지를 결정한다.


5.5 Online RL for Mixed Policy Scopes

5.5.1 Zhang & Bareinboim (2022): 온라인 학습

Zhang & Bareinboim (2022, NeurIPS)은 mixed policy scope에서의 온라인 RL을 연구했다.

핵심 결과: 에이전트가 적응적으로 개입 범위를 조정할 수 있을 때, 고정된 범위의 정책보다 더 효율적으로 최적 정책에 수렴한다.

금융 해석: 시장 레짐에 따라 "어디에 active할지"를 동적으로 조정하는 전략이 고정된 active/passive 배분보다 우수하다.

$$\pi^*_t = \arg\max_{\pi \in \Pi_{mix}} \mathbb{E}\left[\sum_{\tau=t}^{T} \gamma^{\tau-t} R_\tau \mid \pi, s_t\right]$$

여기서 $\Pi_{mix}$는 모든 가능한 mixed policy scope의 집합이며, 최적 정책은 시점 $t$에서의 상태에 따라 개입 범위를 동적으로 선택한다.

5.5.2 레짐 의존적 개입 전략

실무적으로, 레짐에 따른 개입 범위 조절:

레짐 개입 범위 근거
안정 성장 좁음 (소수 팩터만 능동 관리) 비용 절약, 분산투자 유지
고변동성 넓음 (적극적 리스크 관리) 리스크 팩터에 대한 개입 가치 증가
위기 매우 넓음 (전면 개입) 생존이 우선, 모든 노출 능동 관리
회복 선택적 확대 일부 팩터(모멘텀, 밸류)에 집중 개입

5.6 개입 비용과 최적 개입 빈도

5.6.1 개입 비용의 인과 모델링

금융에서 개입($do$)은 공짜가 아니다. 거래 비용, 시장 충격, 세금 등이 발생한다.

개입 비용을 포함한 보상 함수:

$$R_{net}(s, a) = R_{gross}(s, a) - C(a)$$

여기서 $C(a)$는 개입 비용 함수:

$$C(a) = \underbrace{c_1 \cdot |\Delta \mathbf{w}|}_{\text{비례 거래비용}} + \underbrace{c_2 \cdot |\Delta \mathbf{w}|^{3/2}}_{\text{시장 충격 (square-root law)}} + \underbrace{c_3 \cdot \mathbb{1}[\Delta \mathbf{w} \neq 0]}_{\text{고정 비용}}$$

5.6.2 개입의 정보 가치 (Value of Intervention)

각 변수에 대한 개입의 순 가치(net value)를 정의할 수 있다:

Definition 5.4 (Value of Intervention). 변수 $X_i$에 대한 개입의 순 가치:

$$\text{VoI}(X_i) = \underbrace{\mathbb{E}[Y \mid \pi^*_{do(X_i)}]}_{\text{개입 시 기대 보상}} - \underbrace{\mathbb{E}[Y \mid \pi^*_{obs(X_i)}]}_{\text{관측만 시 기대 보상}} - \underbrace{C(do(X_i))}_{\text{개입 비용}}$$

$\text{VoI}(X_i) > 0$이면 $X_i$에 개입하는 것이 순 이득이고, $\text{VoI}(X_i) \leq 0$이면 관측만 하는 것이 낫다.

5.6.3 최적 리밸런싱 빈도

개입 빈도(리밸런싱 주기)도 최적화 대상이다. DRL 기반 접근(PPO, A2C)으로 리밸런싱 주기를 학습하는 최신 연구(2025)에서는 에이전트가 리스크 회피 수준과 리밸런싱 간격을 동시에 학습한다:

$$a_t = (\lambda_t, \tau_t) \quad \text{where } \lambda_t = \text{risk aversion level}, \quad \tau_t = \text{rebalancing horizon}$$


5.7 실습: Structural Causal Bandit을 이용한 팩터 틸팅 전략

5.7.1 실습 개요

목표: 5개 팩터(Market, Value, Momentum, Low Vol, Quality)에 대해, 인과 구조를 활용하여 어떤 팩터에 능동적으로 노출을 조절(개입)하고 어떤 팩터는 시장 노출(관측)로 둘 것인지를 결정한다.

인과 그래프 설계:

MarketRegime → Value Premium
MarketRegime → Momentum Premium
MarketRegime → LowVol Premium
Value Premium → Portfolio Return
Momentum Premium → Portfolio Return
LowVol Premium → Portfolio Return
Quality Premium → Portfolio Return
InterestRate → Value Premium
InterestRate → LowVol Premium
Sentiment [unobserved] → Momentum Premium
Sentiment [unobserved] → Portfolio Return

5.7.2 POMIS 기반 분석

import networkx as nx
from itertools import combinations

# 인과 그래프 정의
G = nx.DiGraph()
G.add_edges_from([
    ('Regime', 'Value'), ('Regime', 'Momentum'), ('Regime', 'LowVol'),
    ('Rate', 'Value'), ('Rate', 'LowVol'),
    ('Value', 'Return'), ('Momentum', 'Return'), 
    ('LowVol', 'Return'), ('Quality', 'Return'),
    # 비관측 교란: Sentiment -> Momentum, Sentiment -> Return
])
# 비관측 교란은 양방향 간선(bidirected edge)으로 표현
unobserved_confounders = [('Momentum', 'Return')]  # Sentiment 경유

# 조작 가능 변수
manipulable = {'Value', 'Momentum', 'LowVol', 'Quality'}  
# Regime, Rate는 비조작

# 보상 변수
reward = 'Return'

# 관측 가능 컨텍스트
contexts = {'Regime', 'Rate'}

def identify_pomis(G, manipulable, reward, confounders):
    """POMIS 식별 (단순화 버전)"""
    pomis = []
    for size in range(1, len(manipulable) + 1):
        for subset in combinations(manipulable, size):
            # do-calculus 기반 식별가능성 확인
            # (실제 구현은 ID algorithm 필요)
            if is_possibly_optimal(G, subset, reward, confounders):
                pomis.append(subset)
    return minimize(pomis)  # 최소 집합으로 축소

# 결과: POMIS 후보
# 예상 결과:
# 1. do(Value, LowVol) + observe(Momentum | Regime)
#    → Value/LowVol에 개입, Momentum은 비관측 교란으로 인해 관측이 안전
# 2. do(Value, LowVol, Quality) + observe(Momentum | Regime)  
#    → Quality 추가 개입이 순 이득인지 VoI로 판단

5.7.3 결과 해석

POMIS 분석의 핵심 발견:

  1. Momentum 팩터: 비관측 교란(시장 심리)이 존재하므로, Momentum에 직접 개입($do$)하는 것은 위험. 레짐을 관측한 후 조건부로 노출 조절이 안전한 전략.
  2. Value, Low Vol 팩터: 인과 경로가 명확하고 비관측 교란이 적으므로, 능동적 개입이 정당화됨. 금리 변화에 대한 민감도를 인과적으로 관리.
  3. Quality 팩터: VoI 분석에서 개입 비용 대비 순 가치가 불안정. 레짐에 따라 개입 여부를 전환하는 동적 전략이 최적.
  4. Market Beta: 비조작. 패시브 노출이 최적.

핵심 요약 (Key Takeaways)

  • SCM-MAB 프레임워크는 "어디에 개입할 것인가"를 인과 구조에 기반하여 체계적으로 결정하는 도구다. 인과 구조를 무시하면 무한 데이터로도 최적 정책에 수렴 불가.
  • POMIS 알고리즘은 최소한의 건전하고 완전한 개입 집합을 식별하여, 탐색 효율을 수십 배 향상시킨다.
  • Mixed Policy는 관측과 개입을 최적으로 혼합하며, 최적 범위는 인과 그래프의 위상적 속성에 의해 결정된다. 완전 개입도, 순수 관측도 일반적으로 최적이 아니다.
  • Active vs Passive 논쟁을 CRL로 재구성하면: "active or passive"가 아니라 *"where to be active"*가 진정한 질문이다. 시장 효율성, 정보 비대칭, 인과 구조가 최적 개입 범위를 결정한다.
  • 비조작 변수(시장 레짐, 금리)는 관측 컨텍스트로 활용하고, 조작 가능 변수(팩터 노출, 헤지 비율)에 선택적으로 개입하는 것이 최적 전략의 일반적 형태다.
  • 개입 비용(거래 비용, 시장 충격)은 Value of Intervention 분석에 포함되어야 하며, 최적 리밸런싱 빈도도 학습 대상이다.

더 읽을거리

  1. Lee, S. & Bareinboim, E. (2018). Structural Causal Bandits: Where to Intervene? NeurIPS. — SCM-MAB과 POMIS의 원논문.
  2. Lee, S. & Bareinboim, E. (2019). Structural Causal Bandits with Non-Manipulable Variables. AAAI. — 비조작 변수로의 확장.
  3. Lee, S. & Bareinboim, E. (2020). Characterizing Optimal Mixed Policies: Where to Intervene, What to Observe. NeurIPS. — Mixed policy의 완전한 특성화.
  4. Zhang, J. & Bareinboim, E. (2022). Online Reinforcement Learning for Mixed Policy Scopes. NeurIPS. — 적응적 개입 범위의 온라인 학습.
  5. Bareinboim, E., Forney, A. & Pearl, J. (2015). Bandits with Unobserved Confounders: A Causal Approach. NeurIPS. — 비관측 교란 하의 밴딧 문제, CRL의 초기 연구.