Chapter 5. Task 2 — When and Where to Intervene: 정책 공간 정제
"Whenever the underlying causal model is not taken into account, the standard strategies may lead to suboptimal policies, regardless of the number of interventions performed."
— Lee & Bareinboim (2018)
5.1 문제 정의: 개입의 대상과 범위
5.1.1 CRL Task 2의 핵심 질문
Task 2 (When and Where to Intervene). SCM $\mathcal{M}$이 인과 그래프 $G$ 위에 부과하는 위상적 제약(topological constraints)에 기반하여, 정책 공간 $do(\Pi(\mathbf{X}))$를 정제할 $\mathcal{L}_2$의 부분집합을 식별하라.
이것은 금융에서 가장 실무적인 질문으로 번역된다:
- 어떤 변수에 능동적으로 개입(intervention)하고, 어떤 변수는 수동적으로 관측(observation)할 것인가?
- 모든 팩터를 동시에 조작하는 것이 최적인가, 아니면 일부만 조작하는 것이 나은가?
- 개입 비용(거래 비용, 시장 충격)을 고려할 때 최적 개입 범위는?
5.1.2 금융에서의 "개입"과 "관측"
금융 의사결정에서 개입과 관측의 구분은 실질적이다:
| 개입 ($do$) | 관측 (Conditioning) | |
|---|---|---|
| 정의 | 변수를 강제로 설정 | 변수를 측정하고 조건화 |
| 비용 | 거래 비용, 시장 충격, 슬리피지 | 데이터 비용만 (상대적 저렴) |
| 금융 예시 | 특정 팩터에 능동적 노출 조절 | 시장 레짐을 모니터링만 |
| 포트폴리오 리밸런싱 실행 | 변동성 지표 관측 | |
| 헤지 포지션 구축 | 신용 스프레드 추적 | |
| 중앙은행의 금리 변경 | GDP 성장률 관측 | |
| 인과 효과 | $P(Y \mid do(X=x))$ | $P(Y \mid X=x)$ |
핵심 통찰: 모든 변수에 개입하는 것이 항상 최적이 아니다. 인과 구조에 따라, 일부 변수는 관측만으로 충분하고, 일부 변수에의 개입은 오히려 해로울 수 있다.
5.2 Structural Causal Bandits: 이론적 기초
5.2.1 SCM-MAB 프레임워크
Lee & Bareinboim (2018, NeurIPS)은 인과 구조를 활용한 의사결정 프레임워크인 Structural Causal Multi-Armed Bandit (SCM-MAB)을 도입했다.
Definition 5.1 (SCM-MAB). SCM-MAB은 다음으로 구성된다:
- SCM $\mathcal{M} = \langle \mathbf{U}, \mathbf{V}, \mathbf{F}, P(\mathbf{U}) \rangle$과 대응 인과 그래프 $G$
- 보상 변수 $Y \in \mathbf{V}$
- "팔(arm)" = $\mathbf{V}$의 부분집합에 대한 개입 $do(\mathbf{X} = \mathbf{x})$
- 에이전트는 각 라운드에서 하나의 팔(개입)을 선택하고, 보상 $Y$를 관측
표준 MAB vs SCM-MAB의 핵심 차이:
표준 MAB에서 각 팔은 독립적 보상 분포를 갖는다. 그러나 SCM-MAB에서는 팔들의 보상 분포가 인과 구조에 의해 비자명하게 연결되어 있다. 이 연결 구조를 활용하면 탐색 효율이 극적으로 향상된다.
5.2.2 핵심 결과: 인과 구조 무시의 대가
Theorem 5.1 (Lee & Bareinboim, 2018). 인과 구조를 무시하고 모든 변수에 동시 개입하거나, 모든 변수 부분집합에 개입하는 표준 전략은, 어떤 인과 모델에서는 아무리 많은 개입을 수행해도 최적 정책에 수렴하지 못할 수 있다.
이 결과는 충격적이다. 무한한 데이터가 있어도, 인과 구조를 모르면 최적 행동을 찾을 수 없다는 의미다.
직관적 설명: 비관측 교란변수가 존재할 때, 변수 $X$에 직접 개입하는 것과, $X$의 부모 $Z$에 개입하여 $X$를 간접적으로 변화시키는 것은 다른 보상 분포를 유도한다. 인과 그래프 없이는 이 차이를 식별할 수 없다.
5.2.3 POMIS: 최적 개입 집합의 식별
Lee & Bareinboim은 인과 구조로부터 Possibly-Optimal Minimal Intervention Sets (POMIS)를 식별하는 알고리즘을 개발했다:
Definition 5.2 (POMIS). 인과 그래프 $G$가 주어졌을 때, POMIS는 에이전트가 최대 기대 보상을 달성하기 위해 반드시 탐색해야 하는 최소한의, 건전하고(sound), 완전한(complete) 개입 집합이다.
POMIS 알고리즘의 입력/출력:
- 입력: 인과 그래프 $G$, 보상 변수 $Y$
- 출력: 에이전트가 탐색해야 할 개입 집합들의 최소 목록
핵심 속성:
- 건전성(Soundness): 최적 개입은 반드시 POMIS에 포함
- 완전성(Completeness): POMIS 외의 개입은 최적이 될 수 없음
- 최소성(Minimality): 불필요한 개입이 제거됨
실증적으로, POMIS 기반 전략은 인과 구조를 무시하는 표준 MAB 대비 수십 배 빠른 수렴을 달성한다.
5.2.4 비조작 변수의 확장
Lee & Bareinboim (2019, AAAI)은 모든 변수가 조작 가능하지 않은 경우로 확장했다.
Non-Manipulable Variables. 일부 변수는 직접 개입이 불가능하다. 예: 비만($X$)에 직접 개입할 수 없지만, 탄산음료 소비($Z$)에는 개입 가능.
금융에서 비조작 변수의 예시:
| 비조작 변수 | 이유 | 대안적 개입 경로 |
|---|---|---|
| 시장 레짐 | 개별 투자자가 변경 불가 | 레짐 감지 후 노출 조절 |
| 금리 수준 | 중앙은행만 변경 가능 | 금리 민감도(Duration) 조절 |
| 지정학적 리스크 | 외생적 | 지역 배분, 헤지 비율 조절 |
| 시장 유동성 | 구조적 요인 | 매매 타이밍, 주문 크기 조절 |
| 기업 실적 | 기업 내부 결정 | 종목 선택, 노출 비중 조절 |
비조작 변수를 포함한 POMIS 알고리즘은, 직접 개입 불가능한 변수를 관측(context)으로 활용하면서, 조작 가능한 변수의 최적 개입을 식별한다.
5.3 Mixed Policy: 관측과 개입의 최적 조합
5.3.1 Mixed Policy의 정의
Lee & Bareinboim (2020, NeurIPS)은 관측과 개입을 혼합하는 정책의 최적화를 연구했다.
Definition 5.3 (Mixed Policy). 변수 집합 $\mathbf{V} = {V_1, \ldots, V_n}$이 주어졌을 때, mixed policy $\pi_{mix}$는 각 변수에 대해:
- 개입(Intervene): $V_i$를 $do(V_i = v_i)$로 강제 설정하거나
- 관측(Observe): $V_i$를 측정하여 조건으로 사용
하는 결정을 내린다. 정책의 범위(scope)는 어떤 변수에 개입하고 어떤 변수를 관측하는지의 조합이다.
정책 범위의 스펙트럼:
$$\underbrace{\text{순수 관측}}_{\text{모든 변수 관측}} \longleftrightarrow \underbrace{\text{Mixed Policy}}_{\text{일부 개입 + 일부 관측}} \longleftrightarrow \underbrace{\text{완전 개입}}_{\text{모든 변수 개입}}$$
5.3.2 최적 Mixed Policy의 특성
Theorem 5.2 (Lee & Bareinboim, 2020). 인과 그래프 $G$가 주어졌을 때, 최적 mixed policy의 범위(어떤 변수에 개입하고 어떤 변수를 관측하는가)를 완전히 특성화(characterize)할 수 있다.
핵심 결과:
- 완전 개입이 항상 최적이 아니다: 일부 변수에 개입하지 않고 관측만 하는 것이 더 나은 경우가 있다.
- 순수 관측도 항상 최적이 아니다: 적어도 일부 변수에의 개입이 필요한 경우가 있다.
- 최적 범위는 인과 구조에 의해 결정된다: 인과 그래프의 위상적 속성이 최적 개입 대상을 결정한다.
5.3.3 금융에서의 최적 Mixed Policy
이를 금융 포트폴리오 관리에 직접 매핑하면:
변수 분류:
$$\mathbf{V} = \underbrace{\mathbf{X}_{act}}_{\text{능동 관리}} \cup \underbrace{\mathbf{X}_{obs}}_{\text{수동 관측}} \cup \underbrace{\mathbf{X}_{fix}}_{\text{비조작}}$$
| 변수 | 개입/관측 결정 | 금융 예시 |
|---|---|---|
| $\mathbf{X}_{act}$ (능동 관리) | $do(X_i = x_i)$ — 적극적으로 노출 조절 | 밸류 팩터 틸트, 듀레이션 관리 |
| $\mathbf{X}_{obs}$ (수동 관측) | $X_j$ 관측 후 조건부 행동 | 시장 레짐 모니터링, VIX 추적 |
| $\mathbf{X}_{fix}$ (비조작) | 개입 불가, 관측만 | GDP 성장률, 지정학적 리스크 |
최적 포트폴리오 정책:
$$\pi^_{mix}(a \mid s) = \pi^\left(do(\mathbf{X}{act} = \mathbf{x}{act}) \mid \mathbf{X}{obs} = \mathbf{x}{obs}, \mathbf{X}{fix} = \mathbf{x}{fix}\right)$$
이것은 "시장 레짐($\mathbf{X}{obs}$)을 관측하고, 매크로 환경($\mathbf{X}{fix}$)을 참고하여, 팩터 노출($\mathbf{X}_{act}$)을 능동적으로 조절하라"는 전략이다.
5.4 Active vs Passive의 인과적 재구성
5.4.1 전통적 Active-Passive 논쟁의 한계
금융 산업에서 가장 오래된 논쟁 중 하나인 "active vs passive" 논쟁은, CRL 관점에서 완전히 새로운 프레임으로 재구성된다.
전통적 프레임:
- Active: 시장을 이길 수 있다고 믿고 능동적으로 종목 선택/타이밍 조절
- Passive: 시장을 이기기 어렵다고 인정하고 인덱스 추종
CRL 프레임:
- Active = 변수에 개입 ($do$)
- Passive = 변수를 관측만 (conditioning)
- 최적 전략 = Mixed Policy — 어떤 차원에서 개입하고 어떤 차원을 관측하는가의 최적 조합
이 재구성의 핵심 통찰: "active or passive"가 아니라 "where to be active"가 진정한 질문이다.
5.4.2 데이터가 말하는 것
2025년 Morningstar Active/Passive Barometer 데이터:
- 대형주(US Large Cap): 10년간 active 펀드의 8%만 passive 대비 초과수익 → 이 영역에서는 관측(passive)이 최적에 가까움
- 채권(Fixed Income): active 관리자의 47%가 벤치마크 초과 → 이 영역에서는 개입(active)의 가치가 더 높음
- 신흥국/소형주: active 성공률이 상대적으로 높음 → 정보 비효율 시장에서 개입의 가치가 증가
CRL 해석: 시장의 인과 구조(효율성, 정보 비대칭, 유동성)가 최적 개입 범위를 결정한다. 효율적 시장에서는 관측이 최적이고, 비효율적 시장에서는 개입이 더 큰 가치를 창출한다.
5.4.3 팩터 수준의 Active-Passive 분해
더 세밀한 수준에서, 각 팩터에 대해 개입/관측 결정을 내릴 수 있다:
| 팩터 | 인과 구조 특성 | 최적 전략 | 근거 |
|---|---|---|---|
| 시장 베타 | 높은 효율성, 낮은 정보 비대칭 | 관측 (패시브 노출) | 베타 프리미엄은 개입 없이 수확 가능 |
| 밸류 | 행동 편향에 인과적 기반 | 선택적 개입 | 과잉반응의 인과 메커니즘 활용 |
| 모멘텀 | 레짐 의존적, 크래시 위험 | 조건부 개입 | 레짐 관측 후 조건부 노출 조절 |
| 저변동성 | 레버리지 제약의 인과적 결과 | 개입 | 구조적 요인이 지속적 프리미엄 생성 |
| 퀄리티 | 기업 펀더멘털에 인과적 기반 | 관측 | 선별 비용 대비 프리미엄이 불안정 |
이 분석은 SCM-MAB의 POMIS 알고리즘으로 형식화할 수 있다. 각 팩터를 변수 노드로, 팩터 간 인과 관계를 간선으로 표현하고, 어떤 팩터 노출에 능동적으로 개입하고 어떤 팩터는 자연스러운 노출(관측)로 둘 것인지를 결정한다.
5.5 Online RL for Mixed Policy Scopes
5.5.1 Zhang & Bareinboim (2022): 온라인 학습
Zhang & Bareinboim (2022, NeurIPS)은 mixed policy scope에서의 온라인 RL을 연구했다.
핵심 결과: 에이전트가 적응적으로 개입 범위를 조정할 수 있을 때, 고정된 범위의 정책보다 더 효율적으로 최적 정책에 수렴한다.
금융 해석: 시장 레짐에 따라 "어디에 active할지"를 동적으로 조정하는 전략이 고정된 active/passive 배분보다 우수하다.
$$\pi^*_t = \arg\max_{\pi \in \Pi_{mix}} \mathbb{E}\left[\sum_{\tau=t}^{T} \gamma^{\tau-t} R_\tau \mid \pi, s_t\right]$$
여기서 $\Pi_{mix}$는 모든 가능한 mixed policy scope의 집합이며, 최적 정책은 시점 $t$에서의 상태에 따라 개입 범위를 동적으로 선택한다.
5.5.2 레짐 의존적 개입 전략
실무적으로, 레짐에 따른 개입 범위 조절:
| 레짐 | 개입 범위 | 근거 |
|---|---|---|
| 안정 성장 | 좁음 (소수 팩터만 능동 관리) | 비용 절약, 분산투자 유지 |
| 고변동성 | 넓음 (적극적 리스크 관리) | 리스크 팩터에 대한 개입 가치 증가 |
| 위기 | 매우 넓음 (전면 개입) | 생존이 우선, 모든 노출 능동 관리 |
| 회복 | 선택적 확대 | 일부 팩터(모멘텀, 밸류)에 집중 개입 |
5.6 개입 비용과 최적 개입 빈도
5.6.1 개입 비용의 인과 모델링
금융에서 개입($do$)은 공짜가 아니다. 거래 비용, 시장 충격, 세금 등이 발생한다.
개입 비용을 포함한 보상 함수:
$$R_{net}(s, a) = R_{gross}(s, a) - C(a)$$
여기서 $C(a)$는 개입 비용 함수:
$$C(a) = \underbrace{c_1 \cdot |\Delta \mathbf{w}|}_{\text{비례 거래비용}} + \underbrace{c_2 \cdot |\Delta \mathbf{w}|^{3/2}}_{\text{시장 충격 (square-root law)}} + \underbrace{c_3 \cdot \mathbb{1}[\Delta \mathbf{w} \neq 0]}_{\text{고정 비용}}$$
5.6.2 개입의 정보 가치 (Value of Intervention)
각 변수에 대한 개입의 순 가치(net value)를 정의할 수 있다:
Definition 5.4 (Value of Intervention). 변수 $X_i$에 대한 개입의 순 가치:
$$\text{VoI}(X_i) = \underbrace{\mathbb{E}[Y \mid \pi^*_{do(X_i)}]}_{\text{개입 시 기대 보상}} - \underbrace{\mathbb{E}[Y \mid \pi^*_{obs(X_i)}]}_{\text{관측만 시 기대 보상}} - \underbrace{C(do(X_i))}_{\text{개입 비용}}$$
$\text{VoI}(X_i) > 0$이면 $X_i$에 개입하는 것이 순 이득이고, $\text{VoI}(X_i) \leq 0$이면 관측만 하는 것이 낫다.
5.6.3 최적 리밸런싱 빈도
개입 빈도(리밸런싱 주기)도 최적화 대상이다. DRL 기반 접근(PPO, A2C)으로 리밸런싱 주기를 학습하는 최신 연구(2025)에서는 에이전트가 리스크 회피 수준과 리밸런싱 간격을 동시에 학습한다:
$$a_t = (\lambda_t, \tau_t) \quad \text{where } \lambda_t = \text{risk aversion level}, \quad \tau_t = \text{rebalancing horizon}$$
5.7 실습: Structural Causal Bandit을 이용한 팩터 틸팅 전략
5.7.1 실습 개요
목표: 5개 팩터(Market, Value, Momentum, Low Vol, Quality)에 대해, 인과 구조를 활용하여 어떤 팩터에 능동적으로 노출을 조절(개입)하고 어떤 팩터는 시장 노출(관측)로 둘 것인지를 결정한다.
인과 그래프 설계:
MarketRegime → Value Premium
MarketRegime → Momentum Premium
MarketRegime → LowVol Premium
Value Premium → Portfolio Return
Momentum Premium → Portfolio Return
LowVol Premium → Portfolio Return
Quality Premium → Portfolio Return
InterestRate → Value Premium
InterestRate → LowVol Premium
Sentiment [unobserved] → Momentum Premium
Sentiment [unobserved] → Portfolio Return
5.7.2 POMIS 기반 분석
import networkx as nx
from itertools import combinations
# 인과 그래프 정의
G = nx.DiGraph()
G.add_edges_from([
('Regime', 'Value'), ('Regime', 'Momentum'), ('Regime', 'LowVol'),
('Rate', 'Value'), ('Rate', 'LowVol'),
('Value', 'Return'), ('Momentum', 'Return'),
('LowVol', 'Return'), ('Quality', 'Return'),
# 비관측 교란: Sentiment -> Momentum, Sentiment -> Return
])
# 비관측 교란은 양방향 간선(bidirected edge)으로 표현
unobserved_confounders = [('Momentum', 'Return')] # Sentiment 경유
# 조작 가능 변수
manipulable = {'Value', 'Momentum', 'LowVol', 'Quality'}
# Regime, Rate는 비조작
# 보상 변수
reward = 'Return'
# 관측 가능 컨텍스트
contexts = {'Regime', 'Rate'}
def identify_pomis(G, manipulable, reward, confounders):
"""POMIS 식별 (단순화 버전)"""
pomis = []
for size in range(1, len(manipulable) + 1):
for subset in combinations(manipulable, size):
# do-calculus 기반 식별가능성 확인
# (실제 구현은 ID algorithm 필요)
if is_possibly_optimal(G, subset, reward, confounders):
pomis.append(subset)
return minimize(pomis) # 최소 집합으로 축소
# 결과: POMIS 후보
# 예상 결과:
# 1. do(Value, LowVol) + observe(Momentum | Regime)
# → Value/LowVol에 개입, Momentum은 비관측 교란으로 인해 관측이 안전
# 2. do(Value, LowVol, Quality) + observe(Momentum | Regime)
# → Quality 추가 개입이 순 이득인지 VoI로 판단
5.7.3 결과 해석
POMIS 분석의 핵심 발견:
- Momentum 팩터: 비관측 교란(시장 심리)이 존재하므로, Momentum에 직접 개입($do$)하는 것은 위험. 레짐을 관측한 후 조건부로 노출 조절이 안전한 전략.
- Value, Low Vol 팩터: 인과 경로가 명확하고 비관측 교란이 적으므로, 능동적 개입이 정당화됨. 금리 변화에 대한 민감도를 인과적으로 관리.
- Quality 팩터: VoI 분석에서 개입 비용 대비 순 가치가 불안정. 레짐에 따라 개입 여부를 전환하는 동적 전략이 최적.
- Market Beta: 비조작. 패시브 노출이 최적.
핵심 요약 (Key Takeaways)
- SCM-MAB 프레임워크는 "어디에 개입할 것인가"를 인과 구조에 기반하여 체계적으로 결정하는 도구다. 인과 구조를 무시하면 무한 데이터로도 최적 정책에 수렴 불가.
- POMIS 알고리즘은 최소한의 건전하고 완전한 개입 집합을 식별하여, 탐색 효율을 수십 배 향상시킨다.
- Mixed Policy는 관측과 개입을 최적으로 혼합하며, 최적 범위는 인과 그래프의 위상적 속성에 의해 결정된다. 완전 개입도, 순수 관측도 일반적으로 최적이 아니다.
- Active vs Passive 논쟁을 CRL로 재구성하면: "active or passive"가 아니라 *"where to be active"*가 진정한 질문이다. 시장 효율성, 정보 비대칭, 인과 구조가 최적 개입 범위를 결정한다.
- 비조작 변수(시장 레짐, 금리)는 관측 컨텍스트로 활용하고, 조작 가능 변수(팩터 노출, 헤지 비율)에 선택적으로 개입하는 것이 최적 전략의 일반적 형태다.
- 개입 비용(거래 비용, 시장 충격)은 Value of Intervention 분석에 포함되어야 하며, 최적 리밸런싱 빈도도 학습 대상이다.
더 읽을거리
- Lee, S. & Bareinboim, E. (2018). Structural Causal Bandits: Where to Intervene? NeurIPS. — SCM-MAB과 POMIS의 원논문.
- Lee, S. & Bareinboim, E. (2019). Structural Causal Bandits with Non-Manipulable Variables. AAAI. — 비조작 변수로의 확장.
- Lee, S. & Bareinboim, E. (2020). Characterizing Optimal Mixed Policies: Where to Intervene, What to Observe. NeurIPS. — Mixed policy의 완전한 특성화.
- Zhang, J. & Bareinboim, E. (2022). Online Reinforcement Learning for Mixed Policy Scopes. NeurIPS. — 적응적 개입 범위의 온라인 학습.
- Bareinboim, E., Forney, A. & Pearl, J. (2015). Bandits with Unobserved Confounders: A Causal Approach. NeurIPS. — 비관측 교란 하의 밴딧 문제, CRL의 초기 연구.
'금융연구 > 인과강화학습' 카테고리의 다른 글
| Chapter 7. Task 4 — Generalizability & Robustness: 전이가능성과 구조적 불변성 (0) | 2026.04.01 |
|---|---|
| Chapter 6. Task 3 — Counterfactual Decision-Making: 반사실적 의사결정 (0) | 2026.04.01 |
| Chapter 4. Task 1 — Causal Offline-to-Online Learning: 일반화된 정책 학습 (0) | 2026.04.01 |
| Chapter 3. 강화학습의 수리적 기초 (RL Foundations) (0) | 2026.04.01 |
| Chapter 2. 인과추론의 수리적 기초 (Causal Inference Foundations) (1) | 2026.04.01 |