금융연구/인과강화학습

Chapter 11. Task 8 — Causal Reward Shaping: 수정된 보상을 통한 학습

hertzalpha 2026. 4. 1. 14:45

Chapter 11. Task 8 — Causal Reward Shaping: 수정된 보상을 통한 학습

"The design of a good shaping function is less well understood in principle and thus often relies on domain expertise and manual design."
— Li, Zhang & Bareinboim (2025)

11.1 문제 정의: 보상 설계의 근본적 난제

11.1.1 CRL Task 8의 위치

Task 8 (Causal Reward Shaping). 교란된 오프라인 데이터셋으로부터 학습된 보상을 사용하여 $\mathcal{L}_2$-정책을 구성하라.

RL에서 보상 함수는 에이전트의 행동을 결정하는 가장 근본적인 요소다. 그러나 금융에서 "올바른" 보상 함수를 설계하는 것은 극히 어렵다:

단순 수익률? 위험조정수익? 최대낙폭 제한? ESG 스코어?
보상이 지연되고(delayed) 복합적(composite)이다
과거 데이터에서 추정한 보상은 교란 편향을 포함할 수 있다

11.1.2 Reward Shaping의 기본 개념

Reward Shaping은 원래 보상 $R$에 추가적 시그널 $F$를 더하여 학습을 가속하는 기법이다:

$$R'(s, a, s') = R(s, a, s') + F(s, a, s')$$

여기서 $F$는 shaping function으로, 에이전트를 유망한 방향으로 유도한다.

핵심 요건: shaping이 최적 정책을 변경하지 않아야 한다. 잘못된 shaping은 비최적 정책으로 수렴시킨다.

11.1.3 Potential-Based Reward Shaping (PBRS)

Ng, Harada & Russell (1999)의 PBRS는 최적 정책 불변성을 보장하는 유일한 shaping 형태:

Theorem 11.1 (PBRS). shaping function이 다음 형태이면 최적 정책이 보존된다:

$$F(s, a, s') = \gamma \Phi(s') - \Phi(s)$$

여기서 $\Phi: \mathcal{S} \rightarrow \mathbb{R}$은 잠재 함수(potential function)이다.

직관: $\Phi(s)$가 높은 상태로 이동하면 보너스, 낮은 상태로 이동하면 페널티. 그러나 에피소드 전체에서 잠재 함수의 기여가 상쇄되므로 최적 정책은 불변.

이상적 잠재 함수: $\Phi(s) = V^*(s)$ (최적 가치 함수)이면, shaping 효과가 최대화된다. 에이전트가 "어떤 상태가 가치 있는지"에 대한 사전 지식을 갖게 되어 탐색이 극적으로 가속.

문제: $V^(s)$를 안다면 RL이 필요 없다. 실무에서는 $V^$의 근사치를 사용해야 하며, 이 근사가 어디서 오는가가 핵심이다.

11.2 교란된 오프라인 데이터에서의 자동 보상 설계

11.2.1 Li, Zhang & Bareinboim (2025, ICML)의 핵심 결과

이 논문은 CRL Task 8의 가장 최근이자 가장 완성된 이론적 결과다.

핵심 아이디어: 교란된 오프라인 데이터(CMDP)에서 인과적 가치 함수 상한(upper bound)을 추정하고, 이를 PBRS의 잠재 함수로 사용한다.

Theorem 11.2 (Causal Reward Shaping, Li et al., 2025). CMDP에서, 인과적 상태 가치 상한 $\overline{V}(s)$를 잠재 함수로 사용한 PBRS:

$$F(s, a, s') = \gamma \overline{V}(s') - \overline{V}(s)$$

이 shaping을 UCB 원리 기반 model-free 학습자에 적용하면, shaping 없는 학습자보다 더 나은 gap-dependent regret bound를 달성한다.

핵심 기여:

자동화: 도메인 전문가의 수동 설계 없이, 오프라인 데이터로부터 자동으로 shaping function을 구성
교란 강건: 오프라인 데이터에 비관측 교란이 있어도 유효한 상한을 사용
이론적 보장: PBRS + model-free learning에서의 최초의 gap-dependent regret bound
보수적 낙관주의: 인과적 상한은 "conservative optimistic" 추정 — 실제 최적 가치보다 크거나 같으므로 탐색을 안전하게 유도

11.2.2 알고리즘 구조

Step 1: 오프라인 데이터에서 인과적 가치 상한 추정

CMDP에서의 가치 함수 경계(Ch.4 복습):

$$\underline{V}^{\pi}(s; \Gamma) \leq V^{\pi}(s) \leq \overline{V}^{\pi}(s; \Gamma)$$

상한 $\overline{V}(s)$를 모든 정책에 대해 최대화:

$$\overline{V}^*(s) = \max_\pi \overline{V}^{\pi}(s; \Gamma)$$

이것은 "교란의 최선의 경우"에서의 최적 가치이며, 실제 $V^*(s)$의 상한이 된다.

Step 2: PBRS 잠재 함수 구성

$$\Phi(s) = \overline{V}^*(s)$$

Step 3: 온라인 학습에 적용

$$R'_t = R_t + \gamma \overline{V}^*(S_{t+1}) - \overline{V}^*(S_t)$$

이 shaped reward로 표준 Q-learning/UCB 알고리즘을 실행.

11.2.3 Regret 분석

Theorem 11.3 (Regret Bound, Li et al., 2025). Causal PBRS를 적용한 Q-UCB 알고리즘의 regret:

$$\text{Regret}(K) \leq \tilde{O}\left(\frac{SAH^3}{\Delta_{min}} + H^2 \epsilon_{shape}\right)$$

여기서 $S$는 상태 수, $A$는 행동 수, $H$는 horizon, $\Delta_{min}$은 최소 gap, $\epsilon_{shape}$는 shaping function의 근사 오차.

shaping 없는 Q-UCB와 비교:

$$\text{Regret}_{no\text{-}shape}(K) \leq \tilde{O}\left(\frac{SAH^3}{\Delta_{min}}\right)$$

$\epsilon_{shape}$가 충분히 작으면 (= 인과적 상한이 $V^*$에 가까우면), shaping된 알고리즘이 더 빠르게 수렴.

11.3 금융 보상 함수 설계의 난제

11.3.1 금융 보상의 다차원성

금융에서 "보상"은 단일 지표가 아니라 다차원적 목적의 균형이다:

보상 성분	수학적 표현	중요도	시간 지연
수익률	$r_t = \ln(V_{t+1}/V_t)$	높음	즉각적
위험	$-\lambda \sigma_t^2$ 또는 $-\lambda \text{CVaR}_t$	높음	중기
최대낙폭	$-\alpha \text{MDD}_t$	높음	장기
거래 비용	$-c \cdot	\Delta \mathbf{w}_t	$
유동성 비용	$-\beta \cdot \text{Impact}_t$	중간	즉각적
회전율 패널티	$-\kappa \cdot \text{Turnover}_t$	낮음-중간	즉각적
ESG 점수	$+\eta \cdot \text{ESG}_t$	가변적	장기

11.3.2 지연 보상 (Delayed Reward) 문제

금융의 가장 근본적 보상 설계 난제 중 하나:

장기 투자의 보상 귀인: 오늘의 매수 결정이 3년 후의 수익에 기여 — 어떻게 귀인?
레짐 의존적 지연: 위기 시 보상 지연이 더 길어짐
다중 행동의 복합 효과: 여러 시점의 결정이 복합적으로 최종 결과에 기여

PBRS의 금융적 가치: 잠재 함수 $\Phi(s)$가 "이 시장 상태가 장기적으로 얼마나 유리한가"의 사전 추정을 제공하여, 지연 보상의 탐색 어려움을 완화.

11.3.3 교란된 과거 데이터에서의 보상 편향

과거 거래 데이터로부터 보상 함수를 학습할 때의 교란 문제:

예시: 과거 데이터에서 특정 팩터 노출 후 높은 수익이 관측되었다. 이것이:

진정한 알파: 팩터 노출의 인과 효과 → 보상에 반영해야 함
교란된 허위 연관: 비관측 요인(트레이더의 사적 정보)이 팩터 선택과 수익 모두에 영향 → 보상에 반영하면 편향

Causal Reward Shaping은 인과적 상한을 사용하여 이 구분을 수행한다: 교란의 최선의 경우에도 안전한 보상만 shaping에 활용.

11.4 인과적 알파의 분리

11.4.1 알파의 인과적 분해

투자 알파를 인과적으로 분해:

$$\text{Total Return} = \underbrace{\alpha_{causal}}_{\text{인과적 알파}} + \underbrace{\alpha_{spurious}}_{\text{교란에 의한 허위 알파}} + \underbrace{\beta \cdot R_m}_{\text{시장 수익}} + \underbrace{\epsilon}_{\text{고유 리스크}}$$

$\alpha_{causal}$: 전략의 진정한 인과 효과 — $do(\text{Strategy})$에 의한 초과수익
$\alpha_{spurious}$: 비관측 교란에 의해 전략과 수익이 함께 움직이는 허위 연관 — $P(R \mid \text{Strategy}) - P(R \mid do(\text{Strategy}))$의 차이

Causal Reward Shaping은 $\alpha_{causal}$만을 보상에 반영하고, $\alpha_{spurious}$를 제거하는 효과를 갖는다.

11.4.2 팩터 프리미엄의 인과적 보상 분해

각 팩터 프리미엄을 인과적 성분과 허위 성분으로 분리:

$$\text{FactorPremium}_k = \underbrace{E[R \mid do(\text{Factor}_k = \text{high})] - E[R \mid do(\text{Factor}_k = \text{low})]}_{\text{인과적 프리미엄}} + \underbrace{\text{Confounding Bias}}_{\text{교란 편향}}$$

인과적 프리미엄만을 보상 shaping에 반영하면, 에이전트가 진정한 팩터 노출에서 학습하고, 허위 상관에 기반한 행동을 회피한다.

11.5 행동재무학적 편향 보정

11.5.1 행동 편향의 인과 모델링

투자자의 행동 편향을 비관측 교란으로 모델링:

$$U_{bias} \rightarrow A_t \quad (\text{편향이 매매 결정에 영향})$$

$$U_{bias} \rightarrow \text{Perceived}(R_t) \quad (\text{편향이 수익 인지에 영향})$$

주요 편향의 인과적 효과:

편향	보상에 대한 교란 효과	Causal Shaping의 보정
손실 회피	손실을 과대 가중 → 보수적 전략 편향	인과적 보상에서 비대칭 제거
처분 효과	이익 조기 실현, 손실 보유 → 왜곡된 수익 패턴	체결 시점과 수익의 교란 보정
과신	과도한 거래 → 거래 비용 과소평가	진정한 비용 효과의 인과적 추정
앵커링	임의 기준점에 수익 기대 고정 → 왜곡된 보상 인지	시장 구조에 기반한 인과적 보상

11.5.2 편향 보정된 보상

$$R_{debiased}(s, a) = R_{observed}(s, a) - \hat{B}(s, a)$$

여기서 $\hat{B}(s, a)$는 행동 편향에 의한 보상 왜곡의 추정치. 인과적으로:

$$\hat{B}(s, a) = E[R \mid S=s, A=a] - E[R \mid S=s, do(A=a)]$$

이것은 관측적 보상과 개입적 보상의 차이 = 교란 편향.

11.6 다목적 보상의 인과적 구성

11.6.1 Shaped Reward Function 설계

금융 RL을 위한 인과적 shaped reward:

$$R_{shaped}(s, a, s') = \underbrace{R_{raw}(s, a)}_{\text{원래 보상}} + \underbrace{\gamma \Phi(s') - \Phi(s)}_{\text{PBRS}} + \underbrace{\lambda_{risk} \cdot \text{RiskPenalty}(s, a)}_{\text{리스크 제약}}$$

각 성분의 역할:

$R_{raw}$: 실현 수익률 (즉각적 피드백)
$\Phi$: 인과적 상태 가치 상한 (장기 가치의 사전 지식)
$\text{RiskPenalty}$: 리스크 한도 위반 시 패널티

11.6.2 인과적 Differential Sharpe Ratio

Moody & Saffell (2001)의 Differential Sharpe Ratio를 인과적으로 확장:

표준:

$$D_t = \frac{B_{t-1}\Delta A_t - \frac{1}{2}A_{t-1}\Delta B_t}{(B_{t-1} - A_{t-1}^2)^{3/2}}$$

여기서 $A_t$는 수익률의 지수이동평균, $B_t$는 수익률 제곱의 지수이동평균.

인과적 확장: $A_t$와 $B_t$를 인과적으로 보정된 수익률(교란 제거)로 계산하여, 교란에 의한 Sharpe 과대추정을 방지.

11.7 실습: 팩터 프리미엄의 인과적 보상 분해

11.7.1 실습 개요

목표: 5개 팩터의 관측된 프리미엄을 인과적 성분과 교란 성분으로 분해하고, 인과적 프리미엄만을 보상으로 사용하는 RL 에이전트와 관측적 보상을 사용하는 에이전트를 비교.

11.7.2 Python 구현 스케치

import numpy as np

class CausalRewardShaper:
    """교란된 오프라인 데이터에서 인과적 보상 구성"""

    def __init__(self, offline_data, causal_graph, gamma_cf=2.0):
        self.data = offline_data
        self.G = causal_graph
        self.gamma_cf = gamma_cf  # 교란 감도 파라미터

    def estimate_causal_value_bounds(self, states):
        """인과적 가치 함수 상한/하한 추정"""
        V_upper = {}
        V_lower = {}
        for s in states:
            # CMDP 경계 추정 (Ch.4의 방법론)
            v_obs = self._observed_value(s)
            # 교란 보정
            correction = self._confounding_correction(s, self.gamma_cf)
            V_upper[s] = v_obs + correction
            V_lower[s] = v_obs - correction
        return V_upper, V_lower

    def construct_potential(self, states):
        """PBRS 잠재 함수 구성"""
        V_upper, _ = self.estimate_causal_value_bounds(states)
        return V_upper  # 보수적 낙관주의

    def shaped_reward(self, s, a, s_next, r_raw, gamma=0.99):
        """인과적 shaped reward 계산"""
        Phi = self.construct_potential(self.data.states)
        pbrs = gamma * Phi.get(s_next, 0) - Phi.get(s, 0)
        return r_raw + pbrs

    def decompose_factor_premium(self, factor, adjustment_set):
        """팩터 프리미엄의 인과적 분해"""
        # 관측적 프리미엄
        obs_premium = self._observed_premium(factor)

        # 인과적 프리미엄 (backdoor adjustment)
        causal_premium = self._causal_premium(
            factor, adjustment_set
        )

        # 교란 편향
        confounding_bias = obs_premium - causal_premium

        return {
            'observed': obs_premium,
            'causal': causal_premium,
            'bias': confounding_bias,
            'bias_ratio': confounding_bias / obs_premium
        }

# 실행
shaper = CausalRewardShaper(
    offline_data=historical_factor_data,
    causal_graph=factor_dag,
    gamma_cf=2.0
)

# 팩터 프리미엄 분해
for factor in ['Value', 'Momentum', 'LowVol', 'Quality', 'Size']:
    result = shaper.decompose_factor_premium(
        factor, adjustment_set=['MarketRegime', 'Liquidity']
    )
    print(f"{factor}:")
    print(f"  관측 프리미엄: {result['observed']:.2%}")
    print(f"  인과 프리미엄: {result['causal']:.2%}")
    print(f"  교란 편향: {result['bias']:.2%} ({result['bias_ratio']:.0%})")

11.7.3 기대 결과

팩터	관측 프리미엄	인과 프리미엄	교란 편향	편향 비율
Value	4.2%	3.1%	1.1%	26%
Momentum	6.8%	3.5%	3.3%	49%
LowVol	2.5%	2.0%	0.5%	20%
Quality	3.0%	1.2%	1.8%	60%
Size	2.0%	0.8%	1.2%	60%

해석: Momentum과 Quality의 관측 프리미엄 중 상당 부분(49-60%)이 교란에 의한 것으로, 이 팩터에 대한 인과적 보상 shaping이 특히 중요. LowVol은 교란 비율이 낮아 관측 프리미엄이 상대적으로 신뢰 가능.

핵심 요약 (Key Takeaways)

Causal Reward Shaping은 교란된 오프라인 데이터에서 자동으로 보상 함수를 구성하여, RL 학습을 가속하면서 최적 정책 불변성을 보장한다.
PBRS (Potential-Based Reward Shaping)는 최적 정책 불변성을 보장하는 유일한 형태이며, 잠재 함수 $\Phi(s) = \overline{V}^*(s)$ (인과적 가치 상한)를 사용한다.
Li, Zhang & Bareinboim (2025, ICML)은 CMDP에서 인과적 상한을 잠재 함수로 사용하는 최초의 gap-dependent regret bound를 제공한다.
금융 보상의 다차원성 (수익, 위험, 낙폭, 비용, ESG)과 지연 보상 문제를 PBRS가 완화한다 — 잠재 함수가 장기 가치의 사전 추정을 제공.
인과적 알파 분리: 관측된 팩터 프리미엄을 인과적 성분($\alpha_{causal}$)과 교란 성분($\alpha_{spurious}$)으로 분해하여, 진정한 알파만을 보상에 반영.
행동 편향 보정: 손실 회피, 처분 효과 등을 비관측 교란으로 모델링하고, 인과적 보상에서 편향을 제거.
보수적 낙관주의(conservative optimism): 인과적 상한은 교란의 최선 경우를 반영하므로, 탐색을 과도하게 억제하지 않으면서도 교란에 안전한 가이드를 제공.

더 읽을거리

Li, M., Zhang, J. & Bareinboim, E. (2025). Automatic Reward Shaping from Confounded Offline Data. ICML. — Causal Reward Shaping의 이론적 기초.
Ng, A., Harada, D. & Russell, S. (1999). Policy Invariance Under Reward Transformations: Theory and Application to Reward Shaping. ICML. — PBRS의 원논문.
Devlin, S. & Kudenko, D. (2012). Dynamic Potential-Based Reward Shaping. AAMAS. — 동적 잠재 함수.
Moody, J. & Saffell, M. (2001). Learning to Trade via Direct Reinforcement. IEEE Trans. Neural Networks, 12(4). — Differential Sharpe Ratio.
Wiewiora, E. et al. (2003). Principled Methods for Advising Reinforcement Learning Agents. ICML. — 보상 shaping과 가치 함수 초기화의 관계.

'금융연구 > 인과강화학습' 카테고리의 다른 글

Chapter 12. Task 9 — Causal Game Theory: 다중 에이전트 환경의 균형 (0)	2026.04.01
Chapter 10. Task 7 — Causal Curriculum Learning: 수정된 환경에서의 학습 (0)	2026.04.01
Chapter 9. Task 6 — Causal Imitation Learning: 보상 비관측 하의 정책 학습 (0)	2026.04.01
Chapter 8. Task 5 — Learning Causal Models: 인과 구조 발견 (0)	2026.04.01
Chapter 7. Task 4 — Generalizability & Robustness: 전이가능성과 구조적 불변성 (0)	2026.04.01

현재글Chapter 11. Task 8 — Causal Reward Shaping: 수정된 보상을 통한 학습

hertzalpha 님의 블로그

hertzalpha 님의 블로그 입니다.

reinforcementlearning, 벤처캐피탈 # 세콰이어, OffPolicyLearning, PE # M&A # 인수합병 # 딜, 상태추정 #신호처리 #베이즈추론 #칼만필터 #칼만스무딩, FinancialAI, 사모주식, PMI #MA #통합관리 #글로벌표준 #BCG #McKinsey #변화관리 #시너지 #애자일 #문화통합, PE # M&A # 인수합병 # 딜 # 사모펀드 # 사모주식, causalinference, PE #M&A딜 #사모펀드 #사모주식 #대체투자, 인과투자, OfflineRL, Buyout #PE #M&A딜 #인수합병 #사모펀드 #사모주식, 강화학습, 금융AI, 인과추론, 일본 기타 #일본 여성기타리스트 # 일본 메탈기타리스트 # 일본 록 기타리스트, 오프라인강화학습, # #인과추론 #CausalInference #오프라인강화학습 #OfflineRL #OffPolicyLearning #금융AI #FinancialAI #MDP #인과적강화학습 #CausalRL #포트폴리오최적화 #퀀트 #머신러닝 #DeepLearning #AlgoTrading,

Today :
Yesterday :

일	월	화	수	목	금	토
	1	2	3	4	5	6
7	8	9	10	11	12	13
14	15	16	17	18	19	20
21	22	23	24	25	26	27
28	29	30

hertzalpha 님의 블로그