금융연구/인과강화학습

Chapter 9. Task 6 — Causal Imitation Learning: 보상 비관측 하의 정책 학습

hertzalpha 2026. 4. 1. 14:41

Chapter 9. Task 6 — Causal Imitation Learning: 보상 비관측 하의 정책 학습

"'Monkey see monkey do' — naïve imitation without understanding a system's underlying mechanics can lead to poor outcomes."
— Kumor, Zhang & Bareinboim (2021)

9.1 문제 정의: 보상 없이 전문가로부터 학습

9.1.1 CRL Task 6의 위치

Task 6 (Causal Imitation Learning). 부분 관측 가능한 $\mathcal{L}_1$ 데이터(전문가의 행동 궤적)로부터, 보상 함수를 모르는 상태에서 $\mathcal{L}_2$-정책을 구성하라.

이 문제는 금융에서 극도로 보편적이다. 성공적인 펀드매니저, 트레이더, 중앙은행의 행동은 관측할 수 있지만, 그들의 보상 함수(투자 철학, 리스크 선호, 목적함수)는 비관측이다. 이들의 행동을 모방하여 효과적인 전략을 학습하고자 하지만, 핵심적 문제가 있다: 전문가가 보는 정보와 우리가 보는 정보가 다를 수 있다.

9.1.2 Imitation Learning의 두 가지 접근

접근	방법	핵심 가정	한계
Behavior Cloning (BC)	상태→행동 매핑을 지도학습으로 직접 학습	전문가의 관측 = 모방자의 관측	비관측 교란 시 편향
Inverse RL (IRL)	전문가 행동이 최적인 보상 함수를 먼저 추정, 그 보상으로 RL 학습	전문가가 최적 정책 실행	비관측 교란 시 보상 함수 오추정

두 접근 모두의 공통 한계: 전문가가 사용하는 공변량(covariates)이 완전히 관측된다고 가정. 금융에서 이 가정은 거의 항상 위반된다 — 전문가의 사적 정보, 직관, 내부 리서치 등이 행동에 영향을 미치지만 관측되지 않는다.

9.1.3 비관측 교란 하의 모방의 위험

예시: 드론 촬영으로 고속도로 운전 모방

Ruan et al. (2023)의 예시를 금융으로 번역:

전문가 트레이더가 다양한 시장 상황에서 매매하는 거래 로그(궤적)가 있다
트레이더는 시장 데이터($Z$: 가격, 거래량) 외에 비관측 정보($U$: 내부 리서치 메모, 동료와의 대화, 직관)를 기반으로 결정한다
$U$는 트레이더의 행동($X$)과 시장 결과($Y$) 모두에 영향을 미친다

이 상황에서 단순 Behavior Cloning:

$$\hat{\pi}_{BC}(x \mid z) = P(X = x \mid Z = z) \quad (\text{관측 조건부})$$

이것은 $P(X \mid Z)$를 학습하지만, 비관측 $U$가 $X$와 $Z$ 모두에 영향을 미치면 $P(X \mid Z) \neq P(X \mid do(Z))$이다. 즉, 관측된 상태-행동 매핑은 인과적으로 올바르지 않다.

9.2 Causal Imitation Learning의 이론적 기초

9.2.1 Zhang, Kumor & Bareinboim (2020): 행동 클로닝의 인과적 확장

Theorem 9.1 (Imitability Criterion, Zhang et al., 2020). 인과 그래프 $G$와 관측 데이터가 주어졌을 때, 모방의 실현가능성(imitability)을 판정하는 필요충분 그래프 기준(complete graphical criterion)이 존재한다.

이 기준은 다음을 결정한다:

모방자가 전문가의 성과를 재현할 수 있는가? (imitability)
재현이 가능하다면, 어떤 변수를 조정(adjustment)해야 하는가?
재현이 불가능하다면, 어떤 비관측 교란이 원인인가?

금융 해석: "이 트레이더의 거래 패턴을 관측 가능한 시장 데이터만으로 재현할 수 있는가, 아니면 비관측 정보 없이는 불가능한가?"

9.2.2 Kumor, Zhang & Bareinboim (2021): 순차적 확장

Sequential Causal Imitation Learning. 단일 결정이 아닌 순차적 결정(MDP) 환경에서의 인과적 모방을 다룬다.

순차적 환경에서의 추가 도전:

시점 $t$의 비관측 교란이 미래 시점 $t+1, t+2, \ldots$의 상태와 행동에 전파
누적 교란 편향: 시간이 지남에 따라 모방 오차가 누적 (compounding error)
전문가의 결정 규칙이 시간에 따라 변할 수 있음

Theorem 9.2 (Sequential Imitability, Kumor et al., 2021). 순차적 환경에서의 인과적 모방 가능성을 판정하는 필요충분 그래프 기준이 존재하며, 가능한 경우 모방자가 전문가의 성과를 매칭하는 정책을 학습하는 절차가 제공된다.

9.2.3 Ruan, Zhang, Di & Bareinboim (2023): IRL로의 확장

Ruan et al. (2023, ICLR)은 행동 클로닝에서 Inverse Reinforcement Learning으로 확장:

Causal IRL. 비관측 교란이 존재하는 상황에서, 전문가 시연으로부터 보상 함수를 추정하고 이를 기반으로 모방 정책을 학습.

핵심 기여:

새로운 그래프 조건: 모방자와 전문가의 상태-행동 공간이 불일치하고, 비관측 교란이 존재해도 효과적 모방이 가능한 조건을 식별
전문가 초과 가능성: 보상 함수의 모수적(parametric) 형태를 알면, 모방 정책이 전문가보다 우수할 수 있음 — 전문가가 비관측 교란으로 인해 최적이 아닐 때
기존 IRL 알고리즘과의 호환: Causal IRL은 기존 MWAL, GAIL 등을 비관측 교란 환경에서 사용할 수 있도록 확장

Causal IRL의 정전 방정식(canonical equation):

$$\pi^*_{imitator} = \arg\max_\pi \mathbb{E}_{do(\pi)}\left[\sum_t \gamma^t r(s_t, a_t)\right]$$

subject to:

$$r^* = \arg\max_r \mathbb{E}_{P^{do}(\text{expert})}\left[\sum_t \gamma^t r(s_t, a_t)\right] - \max_\pi \mathbb{E}_{do(\pi)}\left[\sum_t \gamma^t r(s_t, a_t)\right]$$

핵심: $P^{do}(\text{expert})$는 전문가의 개입적(interventional) 분포이며, 비관측 교란의 영향을 제거한 것이다. 이것이 표준 IRL과의 근본적 차이 — 표준 IRL은 관측적 분포 $P(\text{expert})$를 사용하여 교란 편향에 노출된다.

9.2.4 Ruan et al. (2024): 부분 식별 접근

Ruan et al. (2024, NeurIPS)은 비관측 교란으로 인해 정확한 모방이 불가능한 경우를 다룬다:

Partial Identification for Causal IL. 비관측 교란이 심하여 점 식별이 불가능할 때, 전문가 성과의 경계(bounds)를 도출하고, 이 경계 내에서 최선의 모방 정책을 학습.

이 접근은 Ch.4의 부분 식별/경계 분석과 동일한 철학을 따르며, 완벽한 모방 대신 보장 가능한 성과 하한을 추구한다.

9.3 금융에서의 Causal Imitation Learning

9.3.1 기관투자자의 거래 패턴 역추론

문제: 성공적인 기관투자자(예: 워런 버핏, 레이 달리오)의 공개된 포지션 데이터(13F filing)로부터 투자 철학을 역추론할 수 있는가?

관측 가능한 데이터:

분기별 포지션 변화 (13F)
시장 상태 변수 (가격, 변동성, 매크로 지표)
산업/섹터 분포

비관측 요인:

투자 위원회 내부 토론
리서치 팀의 분석 결과
리스크 한도 및 규제 제약
개인적 확신/직관

Causal IL 적용:

Step 1: 인과 그래프 구성

MarketState → InvestorAction
PrivateResearch [unobserved] → InvestorAction  
PrivateResearch [unobserved] → FutureReturn
RiskConstraints [unobserved] → InvestorAction
InvestorAction → FutureReturn

Step 2: Imitability 판정

비관측 교란($\text{PrivateResearch}$, $\text{RiskConstraints}$)이 존재하므로, 단순 행동 클로닝은 편향된다. 그래프 기준으로 imitability를 판정하고, 가능하면 backdoor adjustment를 적용.

Step 3: Causal IRL로 보상 함수 추정

$$r^*(\text{state}, \text{action}) \approx \mathbf{w} \cdot \boldsymbol{\phi}(\text{state}, \text{action})$$

여기서 $\boldsymbol{\phi}$는 특성 벡터(수익률, 리스크, 유동성, 밸류에이션 등), $\mathbf{w}$는 학습할 가중치.

9.3.2 중앙은행 행동 모방: 통화정책의 암묵적 보상 함수

문제: Fed/BOK의 금리 결정 패턴으로부터 암묵적 보상 함수(= 정책 반응함수)를 추정.

관측 가능	비관측
금리 결정 (행동)	내부 경제 전망 모델
매크로 데이터 (상태)	위원회 내 의견 분포
성명서 텍스트	정치적 압력
시장 반응 (결과)	비공식 커뮤니케이션

Taylor Rule은 중앙은행 행동의 가장 단순한 모방이다:

$$i_t = r^* + \pi_t + 0.5(\pi_t - \pi^) + 0.5(y_t - y^)$$

그러나 이것은 비관측 교란을 무시한 단순 행동 클로닝에 해당한다. Causal IRL은 비관측 요인을 고려한 더 정교한 반응함수를 학습할 수 있다.

9.3.3 마켓메이커의 숨겨진 인센티브 구조

문제: 마켓메이커의 호가 설정 행동으로부터 그들의 인센티브/보상 구조를 역추론.

마켓메이커의 행동($\delta^{bid}, \delta^{ask}$)은 관측 가능하지만, 그들의 실제 보상 함수는:

$$R_{MM} = \underbrace{\text{Spread Income}}_{\text{관측 가능}} - \underbrace{\text{Inventory Risk}}_{\text{부분 관측}} - \underbrace{\text{Adverse Selection Cost}}_{\text{비관측}}$$

역선택 비용은 비관측 교란이며, 정보거래자의 존재에 의존한다. Causal IRL은 이 비관측 성분을 포함한 전체 보상 구조를 추정할 수 있다.

9.4 Behavior Cloning vs Causal IRL: 금융 비교

9.4.1 편향 비교

방법	비관측 교란 처리	금융에서의 결과
단순 BC	무시	전문가의 정보 우위를 재현 불가 → 성과 저하
인과적 BC	그래프 기준으로 조정	관측 가능 교란은 보정, 비관측은 경계 도출
표준 IRL	무시	보상 함수 오추정 → 비최적 정책
Causal IRL	$P^{do}$ 기반 보상 추정	교란 보정된 보상 → 전문가 매칭 또는 초과 가능

9.4.2 전문가 초과(Outperformance)의 가능성

Causal IRL의 놀라운 결과: 모방자가 전문가를 초과할 수 있다.

이것이 가능한 이유: 전문가가 비관측 교란($U$)의 영향으로 최적이 아닌 행동을 하는 경우, Causal IRL은 $U$의 교란 효과를 보정하여 전문가보다 나은 정책을 학습할 수 있다.

금융 예시: 트레이더가 행동 편향(손실 회피, 처분 효과)에 의해 비최적 매매를 하는 경우, Causal IRL은 이 편향을 식별하고 보정하여 편향 없는 전략을 학습할 수 있다.

조건: 보상 함수의 모수적 형태에 대한 사전 지식이 필요.

9.5 기존 IRL 알고리즘의 인과적 확장

9.5.1 MWAL의 인과적 확장

Multiplicative Weights Apprenticeship Learning (MWAL):

표준 MWAL: 전문가의 관측적 특성 기대치를 매칭

$$\mathbb{E}_{\pi^*}[\boldsymbol{\phi}(s, a)] \approx \mathbb{E}_{\pi_E^{obs}}[\boldsymbol{\phi}(s, a)]$$

Causal MWAL: 전문가의 개입적 특성 기대치를 매칭

$$\mathbb{E}_{do(\pi^*)}[\boldsymbol{\phi}(s, a)] \approx \mathbb{E}_{do(\pi_E)}[\boldsymbol{\phi}(s, a)]$$

$\mathbb{E}_{do(\pi_E)}$는 인과적으로 보정된 기대치로, backdoor adjustment 등을 통해 관측 데이터로부터 추정.

9.5.2 GAIL의 인과적 확장

Generative Adversarial Imitation Learning (GAIL):

표준 GAIL의 목적함수:

$$\min_\pi \max_D \mathbb{E}_{\pi}[\log D(s, a)] + \mathbb{E}_{\pi_E^{obs}}[\log(1 - D(s, a))]$$

Causal GAIL: 판별자가 인과적으로 보정된 전문가 분포와 비교

$$\min_\pi \max_D \mathbb{E}_{do(\pi)}[\log D(s, a)] + \mathbb{E}_{do(\pi_E)}[\log(1 - D(s, a))]$$

9.6 실습: 기관투자자 거래 데이터로부터의 Causal IRL

9.6.1 실습 개요

목표: 가상의 기관투자자 거래 데이터에서 투자 보상 함수를 역추론하고, 비관측 교란을 보정한 모방 전략을 학습.

9.6.2 Python 구현 스케치

import numpy as np

class CausalIRL:
    """비관측 교란을 고려한 Inverse RL"""

    def __init__(self, causal_graph, features):
        self.G = causal_graph
        self.features = features  # phi(s, a)

    def estimate_do_distribution(self, expert_data, adjustment_set):
        """Backdoor adjustment로 do-분포 추정"""
        # P(a|do(s)) = sum_z P(a|s,z) P(z)
        do_probs = {}
        for z_val in adjustment_set.unique():
            conditional = expert_data.query(f'Z == {z_val}')
            marginal_z = len(conditional) / len(expert_data)
            do_probs[z_val] = {
                'conditional': conditional.groupby(['s', 'a']).size(),
                'weight': marginal_z
            }
        return do_probs

    def causal_feature_expectation(self, expert_data, adjustment_set):
        """인과적으로 보정된 특성 기대치"""
        do_dist = self.estimate_do_distribution(expert_data, adjustment_set)
        feature_exp = np.zeros(len(self.features))
        for z_val, info in do_dist.items():
            for (s, a), count in info['conditional'].items():
                phi = self.compute_features(s, a)
                feature_exp += phi * count * info['weight']
        return feature_exp / expert_data.shape[0]

    def learn_reward(self, expert_data, adjustment_set, 
                     n_iterations=100):
        """MWAL 기반 보상 함수 학습"""
        # 인과적 특성 기대치
        mu_expert = self.causal_feature_expectation(
            expert_data, adjustment_set
        )

        # 반복적 보상 학습
        w = np.ones(len(self.features)) / len(self.features)
        for i in range(n_iterations):
            # 현재 보상으로 최적 정책 계산
            r = lambda s, a: w @ self.compute_features(s, a)
            pi = self.solve_mdp(r)

            # 학습된 정책의 특성 기대치
            mu_pi = self.policy_feature_expectation(pi)

            # 가중치 업데이트 (multiplicative weights)
            w *= np.exp(mu_expert - mu_pi)
            w /= w.sum()

        return w  # 추정된 보상 가중치

    def evaluate_imitability(self):
        """그래프 기준으로 모방 가능성 판정"""
        # Zhang et al. (2020)의 완전 기준 적용
        # 비관측 교란의 위치와 조정 가능성 확인
        pass

# 실행
causal_irl = CausalIRL(
    causal_graph=market_dag,
    features=['return', 'volatility', 'drawdown', 'turnover']
)

# 모방 가능성 판정
imitability = causal_irl.evaluate_imitability()

# 보상 함수 학습
reward_weights = causal_irl.learn_reward(
    expert_data=institutional_trading_log,
    adjustment_set=['market_regime', 'sector']
)

print("추정된 보상 가중치:")
for feat, w in zip(causal_irl.features, reward_weights):
    print(f"  {feat}: {w:.3f}")

9.6.3 결과 해석

보상 가중치 해석 예시:

특성	추정 가중치	해석
return	0.35	수익 추구는 보통 수준
volatility	-0.40	변동성 회피가 가장 강함
drawdown	-0.20	낙폭 제한도 중시
turnover	-0.05	거래 비용은 경미한 패널티

이 결과는 "이 기관투자자는 수익 극대화보다 변동성 최소화를 더 중시하는 보수적 투자 철학을 가지고 있다"로 해석된다. 이러한 보상 구조의 역추론은 전문가의 명시적 진술 없이도 데이터에서 추출 가능하다.

핵심 요약 (Key Takeaways)

Causal Imitation Learning은 전문가의 보상 함수를 모르는 상태에서, 비관측 교란이 있는 시연 데이터로부터 효과적 정책을 학습하는 프레임워크다.
Imitability Criterion (Zhang et al., 2020)은 비관측 교란 하에서 모방의 실현가능성을 판정하는 완전한 필요충분 그래프 기준을 제공한다.
Sequential Causal IL (Kumor et al., 2021)은 순차적 MDP 환경으로의 확장으로, 누적 교란 편향 문제를 해결한다.
Causal IRL (Ruan et al., 2023)은 기존 IRL 알고리즘(MWAL, GAIL)을 비관측 교란 환경에서 사용 가능하게 확장하며, 전문가를 초과하는 정책도 학습 가능하다 (전문가가 편향에 의해 비최적일 때).
Partial Identification (Ruan et al., 2024)은 정확한 모방이 불가능한 경우 성과 경계를 도출하여, 보장 가능한 최소 성과를 추구한다.
금융 적용: 기관투자자 투자 철학 역추론, 중앙은행 반응함수 추정, 마켓메이커 인센티브 구조 학습.
Causal IRL은 $P^{do}$(개입적 분포)를 사용하여 표준 IRL의 교란 편향을 보정하며, 기존 알고리즘과의 호환성이 핵심 실무적 장점이다.

더 읽을거리

Zhang, J., Kumor, D. & Bareinboim, E. (2020). Causal Imitation Learning with Unobserved Confounders. NeurIPS. — 인과적 행동 클로닝의 원논문, 완전 imitability 기준.
Kumor, D., Zhang, J. & Bareinboim, E. (2021). Sequential Causal Imitation Learning with Unobserved Confounders. NeurIPS. — 순차적 환경으로의 확장.
Ruan, K., Zhang, J., Di, X. & Bareinboim, E. (2023). Causal Imitation Learning via Inverse Reinforcement Learning. ICLR. — IRL로의 확장, 전문가 초과 가능성.
Ruan, K., Zhang, J., Di, X. & Bareinboim, E. (2024). Causal Imitation for Markov Decision Processes: A Partial Identification Approach. NeurIPS. — 부분 식별 접근.
Ho, J. & Ermon, S. (2016). Generative Adversarial Imitation Learning. NeurIPS. — GAIL 원논문 (Causal GAIL의 기반).
Abbeel, P. & Ng, A. (2004). Apprenticeship Learning via Inverse Reinforcement Learning. ICML. — IRL의 고전적 기초.

'금융연구 > 인과강화학습' 카테고리의 다른 글

Chapter 11. Task 8 — Causal Reward Shaping: 수정된 보상을 통한 학습 (0)	2026.04.01
Chapter 10. Task 7 — Causal Curriculum Learning: 수정된 환경에서의 학습 (0)	2026.04.01
Chapter 8. Task 5 — Learning Causal Models: 인과 구조 발견 (0)	2026.04.01
Chapter 7. Task 4 — Generalizability & Robustness: 전이가능성과 구조적 불변성 (0)	2026.04.01
Chapter 6. Task 3 — Counterfactual Decision-Making: 반사실적 의사결정 (0)	2026.04.01

현재글Chapter 9. Task 6 — Causal Imitation Learning: 보상 비관측 하의 정책 학습

hertzalpha 님의 블로그

hertzalpha 님의 블로그 입니다.

Today :
Yesterday :

hertzalpha 님의 블로그