Chapter 11. Task 8 — Causal Reward Shaping: 수정된 보상을 통한 학습
"The design of a good shaping function is less well understood in principle and thus often relies on domain expertise and manual design."
— Li, Zhang & Bareinboim (2025)
11.1 문제 정의: 보상 설계의 근본적 난제
11.1.1 CRL Task 8의 위치
Task 8 (Causal Reward Shaping). 교란된 오프라인 데이터셋으로부터 학습된 보상을 사용하여 $\mathcal{L}_2$-정책을 구성하라.
RL에서 보상 함수는 에이전트의 행동을 결정하는 가장 근본적인 요소다. 그러나 금융에서 "올바른" 보상 함수를 설계하는 것은 극히 어렵다:
- 단순 수익률? 위험조정수익? 최대낙폭 제한? ESG 스코어?
- 보상이 지연되고(delayed) 복합적(composite)이다
- 과거 데이터에서 추정한 보상은 교란 편향을 포함할 수 있다
11.1.2 Reward Shaping의 기본 개념
Reward Shaping은 원래 보상 $R$에 추가적 시그널 $F$를 더하여 학습을 가속하는 기법이다:
$$R'(s, a, s') = R(s, a, s') + F(s, a, s')$$
여기서 $F$는 shaping function으로, 에이전트를 유망한 방향으로 유도한다.
핵심 요건: shaping이 최적 정책을 변경하지 않아야 한다. 잘못된 shaping은 비최적 정책으로 수렴시킨다.
11.1.3 Potential-Based Reward Shaping (PBRS)
Ng, Harada & Russell (1999)의 PBRS는 최적 정책 불변성을 보장하는 유일한 shaping 형태:
Theorem 11.1 (PBRS). shaping function이 다음 형태이면 최적 정책이 보존된다:
$$F(s, a, s') = \gamma \Phi(s') - \Phi(s)$$
여기서 $\Phi: \mathcal{S} \rightarrow \mathbb{R}$은 잠재 함수(potential function)이다.
직관: $\Phi(s)$가 높은 상태로 이동하면 보너스, 낮은 상태로 이동하면 페널티. 그러나 에피소드 전체에서 잠재 함수의 기여가 상쇄되므로 최적 정책은 불변.
이상적 잠재 함수: $\Phi(s) = V^*(s)$ (최적 가치 함수)이면, shaping 효과가 최대화된다. 에이전트가 "어떤 상태가 가치 있는지"에 대한 사전 지식을 갖게 되어 탐색이 극적으로 가속.
문제: $V^(s)$를 안다면 RL이 필요 없다. 실무에서는 $V^$의 근사치를 사용해야 하며, 이 근사가 어디서 오는가가 핵심이다.
11.2 교란된 오프라인 데이터에서의 자동 보상 설계
11.2.1 Li, Zhang & Bareinboim (2025, ICML)의 핵심 결과
이 논문은 CRL Task 8의 가장 최근이자 가장 완성된 이론적 결과다.
핵심 아이디어: 교란된 오프라인 데이터(CMDP)에서 인과적 가치 함수 상한(upper bound)을 추정하고, 이를 PBRS의 잠재 함수로 사용한다.
Theorem 11.2 (Causal Reward Shaping, Li et al., 2025). CMDP에서, 인과적 상태 가치 상한 $\overline{V}(s)$를 잠재 함수로 사용한 PBRS:
$$F(s, a, s') = \gamma \overline{V}(s') - \overline{V}(s)$$
이 shaping을 UCB 원리 기반 model-free 학습자에 적용하면, shaping 없는 학습자보다 더 나은 gap-dependent regret bound를 달성한다.
핵심 기여:
- 자동화: 도메인 전문가의 수동 설계 없이, 오프라인 데이터로부터 자동으로 shaping function을 구성
- 교란 강건: 오프라인 데이터에 비관측 교란이 있어도 유효한 상한을 사용
- 이론적 보장: PBRS + model-free learning에서의 최초의 gap-dependent regret bound
- 보수적 낙관주의: 인과적 상한은 "conservative optimistic" 추정 — 실제 최적 가치보다 크거나 같으므로 탐색을 안전하게 유도
11.2.2 알고리즘 구조
Step 1: 오프라인 데이터에서 인과적 가치 상한 추정
CMDP에서의 가치 함수 경계(Ch.4 복습):
$$\underline{V}^{\pi}(s; \Gamma) \leq V^{\pi}(s) \leq \overline{V}^{\pi}(s; \Gamma)$$
상한 $\overline{V}(s)$를 모든 정책에 대해 최대화:
$$\overline{V}^*(s) = \max_\pi \overline{V}^{\pi}(s; \Gamma)$$
이것은 "교란의 최선의 경우"에서의 최적 가치이며, 실제 $V^*(s)$의 상한이 된다.
Step 2: PBRS 잠재 함수 구성
$$\Phi(s) = \overline{V}^*(s)$$
Step 3: 온라인 학습에 적용
$$R'_t = R_t + \gamma \overline{V}^*(S_{t+1}) - \overline{V}^*(S_t)$$
이 shaped reward로 표준 Q-learning/UCB 알고리즘을 실행.
11.2.3 Regret 분석
Theorem 11.3 (Regret Bound, Li et al., 2025). Causal PBRS를 적용한 Q-UCB 알고리즘의 regret:
$$\text{Regret}(K) \leq \tilde{O}\left(\frac{SAH^3}{\Delta_{min}} + H^2 \epsilon_{shape}\right)$$
여기서 $S$는 상태 수, $A$는 행동 수, $H$는 horizon, $\Delta_{min}$은 최소 gap, $\epsilon_{shape}$는 shaping function의 근사 오차.
shaping 없는 Q-UCB와 비교:
$$\text{Regret}_{no\text{-}shape}(K) \leq \tilde{O}\left(\frac{SAH^3}{\Delta_{min}}\right)$$
$\epsilon_{shape}$가 충분히 작으면 (= 인과적 상한이 $V^*$에 가까우면), shaping된 알고리즘이 더 빠르게 수렴.
11.3 금융 보상 함수 설계의 난제
11.3.1 금융 보상의 다차원성
금융에서 "보상"은 단일 지표가 아니라 다차원적 목적의 균형이다:
| 보상 성분 | 수학적 표현 | 중요도 | 시간 지연 |
|---|---|---|---|
| 수익률 | $r_t = \ln(V_{t+1}/V_t)$ | 높음 | 즉각적 |
| 위험 | $-\lambda \sigma_t^2$ 또는 $-\lambda \text{CVaR}_t$ | 높음 | 중기 |
| 최대낙폭 | $-\alpha \text{MDD}_t$ | 높음 | 장기 |
| 거래 비용 | $-c \cdot | \Delta \mathbf{w}_t | $ |
| 유동성 비용 | $-\beta \cdot \text{Impact}_t$ | 중간 | 즉각적 |
| 회전율 패널티 | $-\kappa \cdot \text{Turnover}_t$ | 낮음-중간 | 즉각적 |
| ESG 점수 | $+\eta \cdot \text{ESG}_t$ | 가변적 | 장기 |
11.3.2 지연 보상 (Delayed Reward) 문제
금융의 가장 근본적 보상 설계 난제 중 하나:
- 장기 투자의 보상 귀인: 오늘의 매수 결정이 3년 후의 수익에 기여 — 어떻게 귀인?
- 레짐 의존적 지연: 위기 시 보상 지연이 더 길어짐
- 다중 행동의 복합 효과: 여러 시점의 결정이 복합적으로 최종 결과에 기여
PBRS의 금융적 가치: 잠재 함수 $\Phi(s)$가 "이 시장 상태가 장기적으로 얼마나 유리한가"의 사전 추정을 제공하여, 지연 보상의 탐색 어려움을 완화.
11.3.3 교란된 과거 데이터에서의 보상 편향
과거 거래 데이터로부터 보상 함수를 학습할 때의 교란 문제:
예시: 과거 데이터에서 특정 팩터 노출 후 높은 수익이 관측되었다. 이것이:
- 진정한 알파: 팩터 노출의 인과 효과 → 보상에 반영해야 함
- 교란된 허위 연관: 비관측 요인(트레이더의 사적 정보)이 팩터 선택과 수익 모두에 영향 → 보상에 반영하면 편향
Causal Reward Shaping은 인과적 상한을 사용하여 이 구분을 수행한다: 교란의 최선의 경우에도 안전한 보상만 shaping에 활용.
11.4 인과적 알파의 분리
11.4.1 알파의 인과적 분해
투자 알파를 인과적으로 분해:
$$\text{Total Return} = \underbrace{\alpha_{causal}}_{\text{인과적 알파}} + \underbrace{\alpha_{spurious}}_{\text{교란에 의한 허위 알파}} + \underbrace{\beta \cdot R_m}_{\text{시장 수익}} + \underbrace{\epsilon}_{\text{고유 리스크}}$$
- $\alpha_{causal}$: 전략의 진정한 인과 효과 — $do(\text{Strategy})$에 의한 초과수익
- $\alpha_{spurious}$: 비관측 교란에 의해 전략과 수익이 함께 움직이는 허위 연관 — $P(R \mid \text{Strategy}) - P(R \mid do(\text{Strategy}))$의 차이
Causal Reward Shaping은 $\alpha_{causal}$만을 보상에 반영하고, $\alpha_{spurious}$를 제거하는 효과를 갖는다.
11.4.2 팩터 프리미엄의 인과적 보상 분해
각 팩터 프리미엄을 인과적 성분과 허위 성분으로 분리:
$$\text{FactorPremium}_k = \underbrace{E[R \mid do(\text{Factor}_k = \text{high})] - E[R \mid do(\text{Factor}_k = \text{low})]}_{\text{인과적 프리미엄}} + \underbrace{\text{Confounding Bias}}_{\text{교란 편향}}$$
인과적 프리미엄만을 보상 shaping에 반영하면, 에이전트가 진정한 팩터 노출에서 학습하고, 허위 상관에 기반한 행동을 회피한다.
11.5 행동재무학적 편향 보정
11.5.1 행동 편향의 인과 모델링
투자자의 행동 편향을 비관측 교란으로 모델링:
$$U_{bias} \rightarrow A_t \quad (\text{편향이 매매 결정에 영향})$$
$$U_{bias} \rightarrow \text{Perceived}(R_t) \quad (\text{편향이 수익 인지에 영향})$$
주요 편향의 인과적 효과:
| 편향 | 보상에 대한 교란 효과 | Causal Shaping의 보정 |
|---|---|---|
| 손실 회피 | 손실을 과대 가중 → 보수적 전략 편향 | 인과적 보상에서 비대칭 제거 |
| 처분 효과 | 이익 조기 실현, 손실 보유 → 왜곡된 수익 패턴 | 체결 시점과 수익의 교란 보정 |
| 과신 | 과도한 거래 → 거래 비용 과소평가 | 진정한 비용 효과의 인과적 추정 |
| 앵커링 | 임의 기준점에 수익 기대 고정 → 왜곡된 보상 인지 | 시장 구조에 기반한 인과적 보상 |
11.5.2 편향 보정된 보상
$$R_{debiased}(s, a) = R_{observed}(s, a) - \hat{B}(s, a)$$
여기서 $\hat{B}(s, a)$는 행동 편향에 의한 보상 왜곡의 추정치. 인과적으로:
$$\hat{B}(s, a) = E[R \mid S=s, A=a] - E[R \mid S=s, do(A=a)]$$
이것은 관측적 보상과 개입적 보상의 차이 = 교란 편향.
11.6 다목적 보상의 인과적 구성
11.6.1 Shaped Reward Function 설계
금융 RL을 위한 인과적 shaped reward:
$$R_{shaped}(s, a, s') = \underbrace{R_{raw}(s, a)}_{\text{원래 보상}} + \underbrace{\gamma \Phi(s') - \Phi(s)}_{\text{PBRS}} + \underbrace{\lambda_{risk} \cdot \text{RiskPenalty}(s, a)}_{\text{리스크 제약}}$$
각 성분의 역할:
- $R_{raw}$: 실현 수익률 (즉각적 피드백)
- $\Phi$: 인과적 상태 가치 상한 (장기 가치의 사전 지식)
- $\text{RiskPenalty}$: 리스크 한도 위반 시 패널티
11.6.2 인과적 Differential Sharpe Ratio
Moody & Saffell (2001)의 Differential Sharpe Ratio를 인과적으로 확장:
표준:
$$D_t = \frac{B_{t-1}\Delta A_t - \frac{1}{2}A_{t-1}\Delta B_t}{(B_{t-1} - A_{t-1}^2)^{3/2}}$$
여기서 $A_t$는 수익률의 지수이동평균, $B_t$는 수익률 제곱의 지수이동평균.
인과적 확장: $A_t$와 $B_t$를 인과적으로 보정된 수익률(교란 제거)로 계산하여, 교란에 의한 Sharpe 과대추정을 방지.
11.7 실습: 팩터 프리미엄의 인과적 보상 분해
11.7.1 실습 개요
목표: 5개 팩터의 관측된 프리미엄을 인과적 성분과 교란 성분으로 분해하고, 인과적 프리미엄만을 보상으로 사용하는 RL 에이전트와 관측적 보상을 사용하는 에이전트를 비교.
11.7.2 Python 구현 스케치
import numpy as np
class CausalRewardShaper:
"""교란된 오프라인 데이터에서 인과적 보상 구성"""
def __init__(self, offline_data, causal_graph, gamma_cf=2.0):
self.data = offline_data
self.G = causal_graph
self.gamma_cf = gamma_cf # 교란 감도 파라미터
def estimate_causal_value_bounds(self, states):
"""인과적 가치 함수 상한/하한 추정"""
V_upper = {}
V_lower = {}
for s in states:
# CMDP 경계 추정 (Ch.4의 방법론)
v_obs = self._observed_value(s)
# 교란 보정
correction = self._confounding_correction(s, self.gamma_cf)
V_upper[s] = v_obs + correction
V_lower[s] = v_obs - correction
return V_upper, V_lower
def construct_potential(self, states):
"""PBRS 잠재 함수 구성"""
V_upper, _ = self.estimate_causal_value_bounds(states)
return V_upper # 보수적 낙관주의
def shaped_reward(self, s, a, s_next, r_raw, gamma=0.99):
"""인과적 shaped reward 계산"""
Phi = self.construct_potential(self.data.states)
pbrs = gamma * Phi.get(s_next, 0) - Phi.get(s, 0)
return r_raw + pbrs
def decompose_factor_premium(self, factor, adjustment_set):
"""팩터 프리미엄의 인과적 분해"""
# 관측적 프리미엄
obs_premium = self._observed_premium(factor)
# 인과적 프리미엄 (backdoor adjustment)
causal_premium = self._causal_premium(
factor, adjustment_set
)
# 교란 편향
confounding_bias = obs_premium - causal_premium
return {
'observed': obs_premium,
'causal': causal_premium,
'bias': confounding_bias,
'bias_ratio': confounding_bias / obs_premium
}
# 실행
shaper = CausalRewardShaper(
offline_data=historical_factor_data,
causal_graph=factor_dag,
gamma_cf=2.0
)
# 팩터 프리미엄 분해
for factor in ['Value', 'Momentum', 'LowVol', 'Quality', 'Size']:
result = shaper.decompose_factor_premium(
factor, adjustment_set=['MarketRegime', 'Liquidity']
)
print(f"{factor}:")
print(f" 관측 프리미엄: {result['observed']:.2%}")
print(f" 인과 프리미엄: {result['causal']:.2%}")
print(f" 교란 편향: {result['bias']:.2%} ({result['bias_ratio']:.0%})")
11.7.3 기대 결과
| 팩터 | 관측 프리미엄 | 인과 프리미엄 | 교란 편향 | 편향 비율 |
|---|---|---|---|---|
| Value | 4.2% | 3.1% | 1.1% | 26% |
| Momentum | 6.8% | 3.5% | 3.3% | 49% |
| LowVol | 2.5% | 2.0% | 0.5% | 20% |
| Quality | 3.0% | 1.2% | 1.8% | 60% |
| Size | 2.0% | 0.8% | 1.2% | 60% |
해석: Momentum과 Quality의 관측 프리미엄 중 상당 부분(49-60%)이 교란에 의한 것으로, 이 팩터에 대한 인과적 보상 shaping이 특히 중요. LowVol은 교란 비율이 낮아 관측 프리미엄이 상대적으로 신뢰 가능.
핵심 요약 (Key Takeaways)
- Causal Reward Shaping은 교란된 오프라인 데이터에서 자동으로 보상 함수를 구성하여, RL 학습을 가속하면서 최적 정책 불변성을 보장한다.
- PBRS (Potential-Based Reward Shaping)는 최적 정책 불변성을 보장하는 유일한 형태이며, 잠재 함수 $\Phi(s) = \overline{V}^*(s)$ (인과적 가치 상한)를 사용한다.
- Li, Zhang & Bareinboim (2025, ICML)은 CMDP에서 인과적 상한을 잠재 함수로 사용하는 최초의 gap-dependent regret bound를 제공한다.
- 금융 보상의 다차원성 (수익, 위험, 낙폭, 비용, ESG)과 지연 보상 문제를 PBRS가 완화한다 — 잠재 함수가 장기 가치의 사전 추정을 제공.
- 인과적 알파 분리: 관측된 팩터 프리미엄을 인과적 성분($\alpha_{causal}$)과 교란 성분($\alpha_{spurious}$)으로 분해하여, 진정한 알파만을 보상에 반영.
- 행동 편향 보정: 손실 회피, 처분 효과 등을 비관측 교란으로 모델링하고, 인과적 보상에서 편향을 제거.
- 보수적 낙관주의(conservative optimism): 인과적 상한은 교란의 최선 경우를 반영하므로, 탐색을 과도하게 억제하지 않으면서도 교란에 안전한 가이드를 제공.
더 읽을거리
- Li, M., Zhang, J. & Bareinboim, E. (2025). Automatic Reward Shaping from Confounded Offline Data. ICML. — Causal Reward Shaping의 이론적 기초.
- Ng, A., Harada, D. & Russell, S. (1999). Policy Invariance Under Reward Transformations: Theory and Application to Reward Shaping. ICML. — PBRS의 원논문.
- Devlin, S. & Kudenko, D. (2012). Dynamic Potential-Based Reward Shaping. AAMAS. — 동적 잠재 함수.
- Moody, J. & Saffell, M. (2001). Learning to Trade via Direct Reinforcement. IEEE Trans. Neural Networks, 12(4). — Differential Sharpe Ratio.
- Wiewiora, E. et al. (2003). Principled Methods for Advising Reinforcement Learning Agents. ICML. — 보상 shaping과 가치 함수 초기화의 관계.
'금융연구 > 인과강화학습' 카테고리의 다른 글
| Chapter 12. Task 9 — Causal Game Theory: 다중 에이전트 환경의 균형 (0) | 2026.04.01 |
|---|---|
| Chapter 10. Task 7 — Causal Curriculum Learning: 수정된 환경에서의 학습 (0) | 2026.04.01 |
| Chapter 9. Task 6 — Causal Imitation Learning: 보상 비관측 하의 정책 학습 (0) | 2026.04.01 |
| Chapter 8. Task 5 — Learning Causal Models: 인과 구조 발견 (0) | 2026.04.01 |
| Chapter 7. Task 4 — Generalizability & Robustness: 전이가능성과 구조적 불변성 (0) | 2026.04.01 |