금융연구/인과강화학습

Chapter 3. 강화학습의 수리적 기초 (RL Foundations)

hertzalpha 2026. 4. 1. 10:42

Chapter 3. 강화학습의 수리적 기초 (RL Foundations)

"The decisions a trader makes are not one-time events but evolve over time. Every decision impacts the next."
— Yves J. Hilpisch

3.1 Markov Decision Process (MDP) 프레임워크

3.1.1 MDP의 형식적 정의

강화학습(RL)의 수학적 기초는 Markov Decision Process (MDP)이다.

Definition 3.1 (Markov Decision Process). MDP는 5-tuple $\mathcal{M} = \langle \mathcal{S}, \mathcal{A}, P, R, \gamma \rangle$로 정의된다:

$\mathcal{S}$: 상태 공간(State Space). 에이전트가 관측할 수 있는 환경의 모든 가능한 상태 집합.
$\mathcal{A}$: 행동 공간(Action Space). 에이전트가 선택할 수 있는 모든 행동의 집합.
$P: \mathcal{S} \times \mathcal{A} \times \mathcal{S} \rightarrow [0,1]$: 전이 확률(Transition Probability). $P(s' \mid s, a) = \Pr(S_{t+1} = s' \mid S_t = s, A_t = a)$.
$R: \mathcal{S} \times \mathcal{A} \rightarrow \mathbb{R}$: 보상 함수(Reward Function). $R(s, a) = \mathbb{E}[R_t \mid S_t = s, A_t = a]$.
$\gamma \in [0, 1)$: 할인율(Discount Factor). 미래 보상의 현재 가치 가중.

MDP의 핵심 가정은 Markov 성질이다:

$$\Pr(S_{t+1} \mid S_t, A_t, S_{t-1}, A_{t-1}, \ldots) = \Pr(S_{t+1} \mid S_t, A_t)$$

미래 상태는 현재 상태와 행동만에 의존하며, 과거 이력에는 의존하지 않는다.

3.1.2 금융 MDP: 구성 요소의 설계

금융 문제를 MDP로 모델링하는 것은 단순히 수학적 매핑이 아니라, 도메인 지식을 요구하는 설계 결정(design decision)이다.

상태 공간 $\mathcal{S}$:

금융 MDP의 상태는 일반적으로 다음을 포함한다:

$$s_t = \left( \mathbf{p}_t, \mathbf{v}_t, \boldsymbol{\sigma}_t, \mathbf{w}_t, \mathbf{z}_t \right)$$

구성 요소	기호	예시
가격 정보	$\mathbf{p}_t$	OHLCV, 수익률 시계열, 기술적 지표
거래량 정보	$\mathbf{v}_t$	거래량, 호가 스프레드, LOB 깊이
변동성	$\boldsymbol{\sigma}_t$	실현변동성, 내재변동성(VIX), GARCH 추정
포트폴리오 상태	$\mathbf{w}_t$	현재 자산 비중, 보유 포지션, 현금 비율
매크로/외부 신호	$\mathbf{z}_t$	금리, 신용 스프레드, 심리 지표, 뉴스 임베딩

상태 설계의 핵심 난제:

차원의 저주: $n$개 자산 × $d$개 특성 → $\mathcal{S} \subset \mathbb{R}^{n \times d}$의 고차원성
부분 관측성: 시장 심리, 내부 정보 등 비관측 상태 → POMDP (Section 3.6)
비정상성: 상태 분포 자체가 시간에 따라 변화 → 레짐 전환

행동 공간 $\mathcal{A}$:

금융 문제	행동 공간 유형	예시
포트폴리오 배분	연속, 다차원	$a_t = (w_1, \ldots, w_n) \in \Delta^{n-1}$ (simplex)
주문 집행	연속	$a_t = q_t$ (이번 기간 체결 수량)
마켓메이킹	연속, 2차원	$a_t = (\delta^{bid}_t, \delta^{ask}_t)$ (호가 오프셋)
옵션 헤징	연속	$a_t = \delta_t$ (헤지 비율)
이산적 매매	이산	$a_t \in {\text{buy}, \text{hold}, \text{sell}}$

포트폴리오 배분의 경우, 행동은 simplex 제약 하의 가중치 벡터다:

$$a_t = \mathbf{w}_t \in \Delta^{n-1} = \left\{ \mathbf{w} \in \mathbb{R}^n_+ : \sum_{i=1}^n w_i = 1 \right\}$$

공매도 허용 시 $\mathbf{w} \in \mathbb{R}^n$, $\sum_i w_i = 1$ (음수 허용).

보상 함수 $R(s, a)$:

보상 설계는 금융 RL에서 가장 중요하면서도 가장 어려운 결정이다.

보상 함수	수식	특성
로그 수익률	$R_t = \ln\left(\frac{V_{t+1}}{V_t}\right)$	단순, 시간 가산적, 레버리지에 민감
Differential Sharpe Ratio	$R_t = \frac{\partial \text{SR}_t}{\partial \eta}$	위험조정, 온라인 추정 가능
리스크 패널티 수익	$R_t = r_t - \lambda \sigma_t^2$	$\lambda$: 위험회피 계수
최대낙폭 패널티	$R_t = r_t - \alpha \cdot \text{MDD}_t$	극단 손실 회피
다목적 보상	$R_t = r_t - \lambda_1 \sigma_t^2 - \lambda_2 c_t$	$c_t$: 거래 비용

최근 연구(RA-DRL, 2025)는 복수의 보상 함수로 훈련된 에이전트를 앙상블하여 robust한 정책을 학습하는 접근을 제안한다.

할인율 $\gamma$:

$$\gamma \in [0, 1)$$

$\gamma \approx 1$: 장기 투자 (연기금, SWF). 먼 미래 보상도 중시.
$\gamma \approx 0$: 초단기 트레이딩 (HFT). 즉각적 이익에 집중.
금융에서 $\gamma$는 시간선호(time preference)와 리스크 할인을 모두 반영한다.

실무적으로, 일별 MDP에서 $\gamma = 0.99$는 약 100일의 유효 시계(effective horizon)를 의미하며, 이는 약 5개월 투자 기간에 해당한다.

3.1.3 Markov 성질의 금융적 타당성

Markov 성질은 금융에서 강한 가정이다. 시장에는 분명히 장기 기억(long memory)과 경로 의존성(path dependency)이 존재한다:

모멘텀/평균회귀 효과: 과거 수익률 패턴이 미래에 영향
레짐 지속성: 현재 레짐이 과거 이력의 함수
투자자 행동: 앵커링, 처분효과 등 이력 의존적 편향

이에 대한 실무적 대응:

상태 확장(State Augmentation): 과거 $k$ 기간의 정보를 상태에 포함 → $s_t = (o_t, o_{t-1}, \ldots, o_{t-k+1})$
RNN/LSTM 기반 상태 인코딩: 시계열 특성을 잠재 상태로 압축
POMDP 프레임워크: 관측과 잠재 상태를 분리하여 모델링 (Section 3.6)

3.2 Value Function과 Bellman Equation

3.2.1 State Value Function

Definition 3.2 (State Value Function). 정책 $\pi$ 하에서 상태 $s$의 가치:

$$V^{\pi}(s) = \mathbb{E}_{\pi}\left[\sum_{t=0}^{\infty} \gamma^t R(S_t, A_t) \mid S_0 = s\right]$$

이것은 "상태 $s$에서 시작하여 정책 $\pi$를 따를 때 기대되는 누적 할인 보상"이다.

금융 해석: 현재 시장 상태 $s$에서 전략 $\pi$를 지속적으로 실행할 때의 기대 누적 수익의 현재가치.

3.2.2 Action-Value Function (Q-Function)

Definition 3.3 (Action-Value Function). 정책 $\pi$ 하에서 상태 $s$에서 행동 $a$를 취한 후의 가치:

$$Q^{\pi}(s, a) = \mathbb{E}_{\pi}\left[\sum_{t=0}^{\infty} \gamma^t R(S_t, A_t) \mid S_0 = s, A_0 = a\right]$$

$V^{\pi}$와 $Q^{\pi}$의 관계:

$$V^{\pi}(s) = \sum_{a \in \mathcal{A}} \pi(a \mid s) , Q^{\pi}(s, a)$$

연속 행동 공간에서:

$$V^{\pi}(s) = \int_{\mathcal{A}} \pi(a \mid s) , Q^{\pi}(s, a) , da$$

3.2.3 Bellman Equation

가치 함수는 재귀적 구조를 갖는다. 이것이 Bellman 방정식이다.

Theorem 3.1 (Bellman Expectation Equation).

$$V^{\pi}(s) = \sum_{a} \pi(a \mid s) \left[ R(s, a) + \gamma \sum_{s'} P(s' \mid s, a) \, V^{\pi}(s') \right]$$

$$Q^{\pi}(s, a) = R(s, a) + \gamma \sum_{s'} P(s' \mid s, a) \sum_{a'} \pi(a' \mid s') , Q^{\pi}(s', a')$$

금융 해석: 오늘의 전략 가치 = 오늘의 즉각 보상 + 할인된 내일의 전략 가치. 이는 금융의 현금흐름 할인(DCF) 개념과 동형(isomorphic)이다.

3.2.4 Bellman Optimality Equation

최적 정책 $\pi^*$에 대응하는 최적 가치 함수:

Theorem 3.2 (Bellman Optimality Equation).

$$V^*(s) = \max_{a \in \mathcal{A}} \left[ R(s, a) + \gamma \sum_{s'} P(s' \mid s, a) \, V^*(s') \right]$$

$$Q^(s, a) = R(s, a) + \gamma \sum_{s'} P(s' \mid s, a) , \max_{a'} Q^(s', a')$$

최적 정책은 $Q^*$로부터 직접 유도된다:

$$\pi^(s) = \arg\max_{a \in \mathcal{A}} Q^(s, a)$$

금융에서의 Bellman 최적성: "현재 시장 상태에서 어떤 거래를 해야 장기적 누적 수익이 최대화되는가?"는 정확히 Bellman 최적성 방정식의 금융 번역이다.

3.2.5 Advantage Function

정책 개선에서 핵심적 역할을 하는 이점 함수(Advantage Function):

Definition 3.4 (Advantage Function).
$$A^{\pi}(s, a) = Q^{\pi}(s, a) - V^{\pi}(s)$$

$A^{\pi}(s, a) > 0$이면 행동 $a$가 정책 $\pi$의 평균보다 우수하고, $A^{\pi}(s, a) < 0$이면 열등하다.

금융 해석: "이 특정 거래가 현재 전략의 평균적 기대치를 얼마나 초과/미달하는가?" — 이는 알파($\alpha$) 개념과 유사하다. 정책의 기대 성과가 벤치마크(= $V^{\pi}$)이고, 특정 행동의 초과 성과가 이점($A^{\pi}$)이다.

3.3 정책 최적화 알고리즘

3.3.1 알고리즘 분류 체계

RL 알고리즘은 크게 세 가지 패러다임으로 분류된다:

패러다임	학습 대상	대표 알고리즘	금융 적합성
Value-based	$Q^*(s, a)$	DQN, Double DQN, Dueling DQN	이산 행동 (매수/보유/매도)
Policy-based	$\pi_\theta(a \mid s)$	REINFORCE, PPO, TRPO	연속 행동 (포트폴리오 가중치)
Actor-Critic	$\pi_\theta + V_\phi$	A2C, A3C, SAC, TD3	연속 + 안정성 요구

3.3.2 Value-Based Methods

Q-Learning:

$$Q(s_t, a_t) \leftarrow Q(s_t, a_t) + \alpha \left[ r_t + \gamma \max_{a'} Q(s_{t+1}, a') - Q(s_t, a_t) \right]$$

Deep Q-Network (DQN): 신경망 $Q_\theta(s, a)$로 Q-함수 근사. 두 가지 핵심 기법:

Experience Replay: 과거 경험 $(s, a, r, s')$을 버퍼에 저장하고 랜덤 샘플링 → 데이터 상관 제거
Target Network: 별도의 타겟 네트워크 $Q_{\theta^-}$로 안정적 업데이트

금융에서의 한계: DQN은 이산 행동 공간에 적합하나, 포트폴리오 배분은 연속 공간이므로 직접 적용이 어렵다. 행동 공간 이산화는 차원의 저주를 야기한다.

3.3.3 Policy Gradient Methods

정책을 파라미터 $\theta$로 직접 매개변수화하고, 보상을 최대화하는 방향으로 업데이트한다.

Theorem 3.3 (Policy Gradient Theorem, Sutton et al., 2000).

$$\nabla_\theta J(\theta) = \mathbb{E}_{\pi_\theta}\left[\nabla_\theta \log \pi_\theta(a \mid s) \, Q^{\pi_\theta}(s, a)\right]$$

여기서 $J(\theta) = \mathbb{E}_{\pi_\theta}\left[\sum_t \gamma^t R_t\right]$은 정책의 목적함수다.

REINFORCE 알고리즘:

$$\theta \leftarrow \theta + \alpha \sum_{t=0}^{T} \nabla_\theta \log \pi_\theta(a_t \mid s_t) , G_t$$

여기서 $G_t = \sum_{k=0}^{T-t} \gamma^k r_{t+k}$는 시점 $t$ 이후의 누적 할인 보상(return).

분산 감소를 위해 baseline $b(s)$를 도입:

$$\nabla_\theta J(\theta) = \mathbb{E}_{\pi_\theta}\left[\nabla_\theta \log \pi_\theta(a \mid s) \left(Q^{\pi_\theta}(s, a) - b(s)\right)\right]$$

$b(s) = V^{\pi}(s)$를 사용하면 Advantage $A^{\pi}(s, a)$를 활용한 업데이트가 된다.

3.3.4 Actor-Critic Methods

Actor(정책)와 Critic(가치함수)을 동시에 학습하는 프레임워크다.

Proximal Policy Optimization (PPO):

금융 RL에서 가장 널리 사용되는 알고리즘 중 하나. 핵심 아이디어는 정책 업데이트의 크기를 제한하여 안정성을 보장하는 것이다.

$$L^{CLIP}(\theta) = \mathbb{E}_t \left[\min\left(r_t(\theta) \hat{A}_t, \, \text{clip}(r_t(\theta), 1-\epsilon, 1+\epsilon) \hat{A}_t\right)\right]$$

여기서 $r_t(\theta) = \frac{\pi_\theta(a_t \mid s_t)}{\pi_{\theta_{old}}(a_t \mid s_t)}$는 정책 비율(policy ratio), $\hat{A}_t$는 추정된 이점 함수, $\epsilon$은 클리핑 파라미터(보통 0.1–0.2).

Soft Actor-Critic (SAC):

최대 엔트로피 프레임워크를 결합한 알고리즘으로, 탐색(exploration)과 활용(exploitation)의 균형을 자동으로 조절한다.

$$\pi^* = \arg\max_\pi \sum_t \mathbb{E}_\pi\left[\gamma^t \left(R(s_t, a_t) + \alpha \mathcal{H}(\pi(\cdot \mid s_t))\right)\right]$$

여기서 $\mathcal{H}(\pi(\cdot \mid s_t)) = -\sum_a \pi(a \mid s_t) \log \pi(a \mid s_t)$는 정책의 엔트로피, $\alpha$는 온도 파라미터.

금융에서의 SAC의 장점:

엔트로피 항이 과도한 집중 투자(concentration risk)를 자연스럽게 억제
연속 행동 공간에서 안정적 학습
레짐 전환 시 탐색 유지로 적응력 향상

Twin Delayed DDPG (TD3):

DDPG의 개선판으로, 세 가지 기법을 추가:

Twin Q-Networks: 두 개의 critic 중 최소값 사용 → Q값 과대추정 방지
Delayed Policy Updates: critic을 actor보다 더 자주 업데이트 → 안정성
Target Policy Smoothing: 타겟 행동에 노이즈 추가 → 탐색 강화

금융 포트폴리오 최적화에서 TD3는 거래 비용과 리스크 제약을 포함한 확장된 Markowitz 보상 함수와 결합하여 우수한 성과를 보인다.

3.4 Off-Policy vs On-Policy Learning

3.4.1 기본 구분

	On-Policy	Off-Policy
정의	학습하는 정책 = 데이터 생성 정책	학습하는 정책 ≠ 데이터 생성 정책
대표 알고리즘	SARSA, PPO, A2C	Q-Learning, DQN, SAC, TD3
데이터 효율성	낮음 (새 정책마다 새 데이터 필요)	높음 (과거 데이터 재사용 가능)
금융 적합성	시뮬레이션 환경에서 유리	과거 거래 데이터 활용에 필수적

금융에서 off-policy learning이 특히 중요한 이유:

실험 비용: 실시장에서의 탐색은 실제 손실을 야기한다
데이터 활용: 수십 년의 과거 거래 로그를 활용할 수 있다
안전성: 과거 데이터로 정책을 평가한 후 배포할 수 있다

3.4.2 Importance Sampling

Off-policy learning의 핵심 도구는 중요도 샘플링(Importance Sampling, IS)이다.

행동 정책(behavior policy) $\mu$로 수집된 데이터로 평가 정책(evaluation policy) $\pi_e$의 가치를 추정하려면:

$$V^{\pi_e}(s) = \mathbb{E}_{\mu}\left[\prod_{t=0}^{T} \frac{\pi_e(a_t \mid s_t)}{\mu(a_t \mid s_t)} \sum_{t=0}^{T} \gamma^t r_t\right]$$

여기서 $\rho_t = \frac{\pi_e(a_t \mid s_t)}{\mu(a_t \mid s_t)}$는 중요도 비율(importance ratio)이다.

금융에서의 IS 문제: 중요도 비율의 곱 $\prod_{t=0}^T \rho_t$은 horizon $T$가 길어지면 분산이 기하급수적으로 폭발한다. 이는 금융의 장기 전략 평가에서 IS의 직접 적용을 어렵게 만든다.

3.4.3 Doubly Robust Estimator

분산 폭발 문제에 대한 대응으로, 이중 강건 추정량(Doubly Robust Estimator, DR)이 개발되었다 (Jiang & Li, 2016):

$$\hat{V}_{DR}(\pi_e) = \frac{1}{n}\sum_{i=1}^{n}\left[\hat{V}(s_i) + \frac{\pi_e(a_i \mid s_i)}{\mu(a_i \mid s_i)}\left(r_i + \gamma \hat{V}(s_i') - \hat{Q}(s_i, a_i)\right)\right]$$

이 추정량은 이중 강건성(doubly robust)을 갖는다:

$\hat{Q}$가 정확하면, IS 비율이 부정확해도 일치추정
IS 비율이 정확하면, $\hat{Q}$가 부정확해도 일치추정
둘 중 하나만 올바르면 전체 추정이 일치

금융 함의: 이중 강건 추정량은 백테스트(행동 정책 $\mu$의 데이터)에서 새 전략(평가 정책 $\pi_e$)의 성과를 추정할 때, 모델 오류와 분포 이동에 대한 강건성을 제공한다.

3.5 Deep RL의 핵심 아키텍처

3.5.1 함수 근사와 신경망

고차원 금융 상태 공간에서 테이블 형태의 가치 함수는 불가능하므로, 신경망으로 근사한다:

$$Q_\theta(s, a) \approx Q^(s, a), \quad \pi_\theta(a \mid s) \approx \pi^(a \mid s)$$

금융 RL에서 사용되는 주요 아키텍처:

아키텍처	특성	금융 적용
MLP	범용, 단순	기본 포트폴리오 배분
CNN	공간적 패턴	가격 차트 이미지 분석, LOB 스냅샷
LSTM/GRU	시계열 의존성	시장 상태 인코딩, 레짐 추적
Transformer	장거리 의존성, 어텐션	다자산 관계 모델링, 뉴스 통합
GNN	그래프 구조	자산 간 관계 네트워크, 인과 그래프 인코딩

3.5.2 금융 특화 아키텍처 설계

Task-Context Mutual Actor-Critic (TC-MAC): 포트폴리오 관리에서 각 자산의 로컬 특성(task)과 포트폴리오 전체의 글로벌 컨텍스트를 동시에 인코딩하고, 상호정보량 최대화를 통해 최적 정책을 학습한다.

Modular Portfolio Learning System (MPLS): 감성 분석, 변동성 예측, 구조적 의존성 모델링 등 전문 모듈의 시그널을 어텐션 기반 의사결정 프레임워크에서 융합한다. PPO, DQN, DDPG, SAC를 통합 평가한 최초의 체계적 비교 연구(2025)에서 레짐별 알고리즘 적합성의 차이를 확인했다.

Behaviorally Informed DRL (BBAPT): 행동재무학의 손실회피(loss aversion)와 과신(overconfidence) 편향을 actor-critic 구조에 직접 통합한 프레임워크. 레짐 의존적 편향 임계값으로 포지션 크기를 조절하되, 기저 RL 정책은 거래 방향을 결정한다.

3.6 금융 RL의 핵심 도전과 한계

3.6.1 비정상성 (Non-Stationarity)

금융 시장의 전이 확률 $P(s' \mid s, a)$와 보상 분포 $R(s, a)$는 시간에 따라 변한다. 이는 MDP의 정상성(stationarity) 가정을 위반한다.

레짐 전환(regime switching)을 명시적으로 모델링하는 접근:

$$P(s_{t+1} \mid s_t, a_t) = \sum_{k=1}^{K} P(z_t = k \mid s_t) , P_k(s_{t+1} \mid s_t, a_t)$$

여기서 $z_t \in {1, \ldots, K}$는 레짐 변수, $P_k$는 레짐 $k$에서의 전이 확률.

3.6.2 부분 관측성 (Partial Observability)

시장의 진정한 상태는 관측 불가능하다. 투자자는 가격, 거래량 등 관측(observation) $o_t$만 접근할 수 있다.

Definition 3.5 (POMDP). 부분 관측 MDP는 7-tuple $\langle \mathcal{S}, \mathcal{A}, P, R, \gamma, \Omega, O \rangle$:

$\Omega$: 관측 공간
$O: \mathcal{S} \times \mathcal{A} \rightarrow \Delta(\Omega)$: 관측 함수

금융 POMDP에서의 비관측 상태 예시:

다른 시장 참가자의 의도와 포지션
내부자 정보
시장 심리의 정확한 수준
유동성의 진정한 깊이

인과추론과의 연결: POMDP의 비관측 상태는 SCM의 비관측 교란변수(unobserved confounders)와 밀접히 대응된다. Zhang & Bareinboim (2016)의 "MDP with Unobserved Confounders"는 정확히 이 연결을 형식화하며, CRL의 핵심 출발점이 된다.

3.6.3 시장 충격과 반사적 환경 (Reflexivity)

대부분의 RL은 에이전트의 행동이 환경에 미미한 영향을 미친다고 가정한다. 그러나 금융에서:

시장 충격(Market Impact): 대규모 주문이 가격을 움직인다. $P(s' \mid s, a)$가 행동 $a$의 크기에 비선형적으로 의존.
반사성(Reflexivity): 에이전트의 전략이 시장 구조를 변형시킨다. Soros의 반사성 이론.
다중 에이전트 효과: 동일 전략을 여러 에이전트가 채택하면 알파가 소멸(crowding).

이는 MDP의 정상 환경 가정을 위반하며, 다중 에이전트 RL (MARL) 또는 게임 이론적 프레임워크로의 확장을 요구한다 (Ch.12).

3.6.4 탐색 비용과 안전성

RL 일반	금융 RL
탐색 실패 = 게임 패배	탐색 실패 = 실제 금전 손실
환경 리셋 가능	시장 리셋 불가
무한 시행 가능	자본 제약, 규제 제약
보상 즉각적	보상 지연, 비용 복합적

안전한 탐색을 위한 접근:

시뮬레이션 우선: 시뮬레이터에서 충분히 학습 후 실전 배포
Conservative Policy: 행동 정책에 안전 제약 추가
Offline RL: 과거 데이터만으로 학습 (탐색 없음)
인과적 가드레일: CRL의 구조적 제약을 활용한 안전한 정책 공간 정의

3.6.5 설명가능성과 규제

금융 규제는 AI 의사결정의 설명가능성(explainability)과 감사가능성(auditability)을 요구한다.

MiFID II (유럽): 알고리즘 트레이딩의 투명성 요구
SEC (미국): 자동화 시스템의 리스크 관리 의무
금융위원회 (한국): AI 투자자문의 적합성 원칙

블랙박스 Deep RL은 이 요건을 충족하기 어렵다. 인과적 RL이 제공하는 구조적 설명("이 행동은 X 때문에 Y에 영향을 미친다")은 규제 대응의 핵심 도구가 된다.

3.7 RL과 인과추론의 근본적 연결

이 절에서는 Ch.2의 인과추론과 본 챕터의 RL이 어떻게 동일한 빌딩 블록 위에 서 있는지를 명시한다.

3.7.1 MDP를 SCM으로 표현하기

모든 MDP는 자연스럽게 SCM으로 표현할 수 있다:

$$\text{MDP} \quad \mathcal{M}_{RL} = \langle \mathcal{S}, \mathcal{A}, P, R, \gamma \rangle$$

에 대응하는 SCM:

$$S_{t+1} = f_S(S_t, A_t, U_{S,t}), \quad R_t = f_R(S_t, A_t, U_{R,t}), \quad A_t = \pi(S_t, U_{A,t})$$

여기서 $U_{S,t}, U_{R,t}, U_{A,t}$는 각각의 외생 노이즈다.

인과 그래프:

$$S_t \rightarrow A_t \rightarrow S_{t+1} \rightarrow A_{t+1} \rightarrow \cdots$$

$$S_t \rightarrow R_t, \quad A_t \rightarrow R_t$$

3.7.2 표준 RL이 놓치는 것

표준 RL은 위 SCM에서 암묵적으로 다음을 가정한다:

비관측 교란 부재: $U_{A,t}$와 $U_{S,t}$가 독립 → 행동과 상태 사이에 비관측 공통원인이 없다
완전 관측: $S_t$가 완전히 관측된다
정상 환경: $f_S$가 시간에 따라 변하지 않는다

금융에서 이 세 가정은 모두 위반될 수 있다:

가정	위반 상황	결과
비관측 교란 부재	시장 심리가 거래(행동)와 가격(상태) 모두에 영향	Off-policy 추정 편향
완전 관측	내부 정보, 다른 참가자의 포지션 비관측	최적성 상실
정상 환경	레짐 전환, 구조 변화	학습된 정책의 무효화

3.7.3 CRL이 필요한 이유: 구체적 사례

사례: Off-Policy 평가에서의 교란 편향

과거 트레이딩 로그(행동 정책 $\mu$)에서 새 전략(평가 정책 $\pi_e$)의 성과를 추정하는 OPE 문제를 생각하자. 표준 IS 추정량:

$$\hat{V}_{IS}(\pi_e) = \frac{1}{n}\sum_{i=1}^{n} \prod_{t=0}^{T} \frac{\pi_e(a_t^{(i)} \mid s_t^{(i)})}{\mu(a_t^{(i)} \mid s_t^{(i)})} G^{(i)}$$

이 추정이 유효하려면 $\mu(a \mid s) > 0$ for all $(s, a)$ where $\pi_e(a \mid s) > 0$ (support 조건)과 함께, 비관측 교란 부재 가정이 필요하다.

그러나 금융에서 과거 트레이더의 행동 $a_t$는 비관측 변수(시장 심리, 내부 미팅 결과 등) $U_t$의 영향을 받았을 수 있다. 이 $U_t$가 미래 상태 $S_{t+1}$에도 영향을 미치면, $A_t$와 $S_{t+1}$ 사이에 비관측 교란이 존재하고, 표준 OPE는 편향된다.

이것이 정확히 CRL Task 1 (Ch.4)의 문제이며, 인과적 OPE — Confounding-Robust Off-Policy Evaluation — 이 필요한 이유다.

3.8 금융 RL의 현주소: 오픈소스 생태계와 벤치마크

3.8.1 주요 프레임워크

프레임워크	특성	지원 환경
FinRL	End-to-end 금융 RL 파이프라인	주식, 암호화폐, 포트폴리오
FinRL-Meta	데이터 처리 + 시뮬레이션 환경	다자산, LOB 데이터
TensorTrade	모듈형 거래 환경	커스텀 전략 구성
Stable-Baselines3	범용 RL 라이브러리	커스텀 환경과 결합 필요
RLlib	분산 RL, MARL 지원	대규모 실험

3.8.2 FinRL Contests (2023–2025) 시사점

FinRL 대회 시리즈(200+ 참가자)의 주요 관찰:

앙상블 방법이 단일 RL 에이전트의 정책 불안정성을 효과적으로 해소
LLM 기반 시그널(FinRL-DeepSeek)이 전통적 OHLCV 시그널을 보완하여 수익률 개선
그러나 최대 낙폭(MDD) 관리는 여전히 핵심 과제 — LLM 시그널이 수익률은 높이지만 하방 리스크 통제에는 한계

3.8.3 학계에서 실무로의 전환

CFA Institute (2025)는 금융에서 RL 채택의 세 가지 핵심 권고를 제시했다:

예측에서 정책으로 전환: RL은 비용, 시장 충격, 피드백 루프를 고려한 순차적 의사결정을 최적화한다
Offline→Sim→Online 파이프라인: 과거 데이터로 학습, 시뮬레이터로 검증, 실전 배포의 3단계
IRL로 숨겨진 목적 발견: Inverse RL은 관측된 행동 뒤의 암묵적 보상 함수를 추정한다

핵심 요약 (Key Takeaways)

MDP $\langle \mathcal{S}, \mathcal{A}, P, R, \gamma \rangle$는 금융 순차적 의사결정의 자연스러운 프레임워크이나, 상태/행동/보상의 설계가 도메인 지식을 요구하는 핵심 결정이다.
Bellman 방정식은 가치 함수의 재귀적 구조를 정의하며, DCF 모델과 동형이다. Advantage function은 알파의 RL 대응물이다.
Policy Gradient, PPO, SAC, TD3는 연속 행동 공간(포트폴리오 가중치)에 적합한 핵심 알고리즘이다.
Off-policy learning은 금융에서 특히 중요하다 — 과거 데이터 활용, 안전한 평가, 탐색 비용 절감. Doubly Robust Estimator가 분산과 편향에 대한 이중 강건성을 제공한다.
금융 RL의 핵심 도전: 비정상성, 부분 관측성, 시장 충격, 탐색 비용, 설명가능성.
MDP는 SCM의 특수 사례이며, 표준 RL의 세 가지 암묵적 가정(비관측 교란 부재, 완전 관측, 정상 환경)은 금융에서 모두 위반될 수 있다. 이것이 CRL이 필요한 근본적 이유다.

더 읽을거리

Sutton, R.S. & Barto, A.G. (2018). Reinforcement Learning: An Introduction. 2nd Edition. MIT Press. — RL의 정전(canonical text), 무료 온라인 제공.
Bai, Y. et al. (2025). A Review of Reinforcement Learning in Financial Applications. Annual Review of Statistics and Its Application, 12:209-232. — 금융 RL의 포괄적 리뷰와 메타 분석.
CFA Institute (2025). Chapter 6: RL and IRL — A Practitioner's Guide for Investment Management. — 실무자 관점의 RL/IRL 가이드.
Zhang, J. & Bareinboim, E. (2016). Markov Decision Processes with Unobserved Confounders: A Causal Approach. Technical Report R-23, CausalAI Lab. — MDP와 인과추론의 접점, CRL의 출발점.
Hilpisch, Y.J. (2024). Reinforcement Learning for Finance. O'Reilly. — 파이썬 기반 금융 RL 실무서.

'금융연구 > 인과강화학습' 카테고리의 다른 글

Chapter 6. Task 3 — Counterfactual Decision-Making: 반사실적 의사결정 (0)	2026.04.01
Chapter 5. Task 2 — When and Where to Intervene: 정책 공간 정제 (1)	2026.04.01
Chapter 4. Task 1 — Causal Offline-to-Online Learning: 일반화된 정책 학습 (0)	2026.04.01
Chapter 2. 인과추론의 수리적 기초 (Causal Inference Foundations) (1)	2026.04.01
Chapter 1. 왜 금융에 인과적 강화학습인가? (0)	2026.04.01

현재글Chapter 3. 강화학습의 수리적 기초 (RL Foundations)

hertzalpha 님의 블로그

hertzalpha 님의 블로그 입니다.

PE #M&A딜 #사모펀드 #사모주식 #대체투자, Buyout #PE #M&A딜 #인수합병 #사모펀드 #사모주식, 오프라인강화학습, reinforcementlearning, FinancialAI, PE # M&A # 인수합병 # 딜, 사모주식, 인과투자, OfflineRL, 강화학습, OffPolicyLearning, causalinference, PE # M&A # 인수합병 # 딜 # 사모펀드 # 사모주식, 금융AI, 인과추론, PMI #MA #통합관리 #글로벌표준 #BCG #McKinsey #변화관리 #시너지 #애자일 #문화통합, # #인과추론 #CausalInference #오프라인강화학습 #OfflineRL #OffPolicyLearning #금융AI #FinancialAI #MDP #인과적강화학습 #CausalRL #포트폴리오최적화 #퀀트 #머신러닝 #DeepLearning #AlgoTrading, 일본 기타 #일본 여성기타리스트 # 일본 메탈기타리스트 # 일본 록 기타리스트, 벤처캐피탈 # 세콰이어, 상태추정 #신호처리 #베이즈추론 #칼만필터 #칼만스무딩,

Today :
Yesterday :

« 2026/07 »
일	월	화	수	목	금	토
			1	2	3	4
5	6	7	8	9	10	11
12	13	14	15	16	17	18
19	20	21	22	23	24	25
26	27	28	29	30	31