Chapter 10. Task 7 — Causal Curriculum Learning: 수정된 환경에서의 학습
"The critical assumption of invariant optimal decision rules does not necessarily hold when the underlying environment contains unobserved confounders."
— Li, Zhang & Bareinboim (2024)
10.1 문제 정의: 학습 환경의 인과적 설계
10.1.1 CRL Task 7의 위치
Task 7 (Causal Curriculum Learning). 타겟 과업의 SCM에 개입하여, 최적 타겟 $\mathcal{L}_2$-정책의 학습을 가속화하는 하위 과업(subtask) 시퀀스를 설계하라.
Curriculum Learning(교육과정 학습)의 기본 아이디어는 인간의 학습과 유사하다: 쉬운 문제부터 시작하여 점진적으로 어려운 문제로 나아간다. RL에서 이는 단순한 환경에서 먼저 학습하고, 점차 복잡한 환경으로 전이하는 것이다.
그러나 핵심적 질문이 있다: 어떤 단순화가 "좋은" 단순화이고, 어떤 단순화가 잘못된 습관을 야기하는가?
10.1.2 금융에서의 Curriculum Learning 동기
금융 RL 에이전트의 훈련은 다음과 같은 이유로 curriculum이 필요하다:
- 복잡성의 저주: 실제 시장은 수천 종목, 다양한 자산 클래스, 복잡한 상호작용을 포함
- 탐색 비용: 실시장에서의 시행착오는 실제 손실 야기
- 레짐 다양성: 강세장, 약세장, 위기, 회복 등 다양한 레짐을 순차적으로 경험해야 함
- 비정상성: 한 번에 모든 시장 상황을 커버하는 것이 불가능
직관적 커리큘럼 설계:
Stage 1: 단일 자산, 거래 비용 없음, 정상 변동성
↓
Stage 2: 소수 자산, 소규모 거래 비용
↓
Stage 3: 다수 자산, 현실적 거래 비용, 정상 변동성
↓
Stage 4: 다수 자산, 현실적 비용, 고변동성 레짐
↓
Stage 5: 전체 시장, 모든 마찰, 위기 시나리오 포함이 직관적 설계의 문제: 각 단계의 "단순화"가 타겟 과업의 최적 정책과 정렬(align)되는지 보장이 없다. 잘못된 단순화는 에이전트가 실제 환경에서 유해한 행동 패턴을 학습하게 만들 수 있다.
10.2 Causally Aligned Curriculum Learning의 이론
10.2.1 핵심 문제: Misaligned Source Tasks
Definition 10.1 (Aligned vs Misaligned Source Task). 소스 과업 $\mathcal{T}_s$가 타겟 과업 $\mathcal{T}_t$와 정렬(aligned)되려면, 소스에서 학습한 최적 결정 규칙이 타겟에서도 최적이어야 한다. 그렇지 않으면 비정렬(misaligned)이다.
비정렬의 위험: 소스 과업에서 완벽히 학습한 에이전트가 타겟 과업에서 오히려 성과가 악화될 수 있다.
금융 예시: 거래 비용이 없는 시뮬레이터에서 학습한 에이전트는 "빈번한 리밸런싱"을 최적으로 학습한다. 그러나 실제 시장에서는 거래 비용으로 인해 이 전략이 최악이 된다. 거래 비용 없는 환경은 비정렬 소스 과업이다.
10.2.2 Li, Zhang & Bareinboim (2024, ICLR)의 핵심 결과
Theorem 10.1 (Causal Alignment Condition). SCM 프레임워크에서, 소스 과업의 인과적 정렬(causal alignment)을 판정하는 충분 그래프 조건이 존재한다.
구체적으로:
- 타겟 과업을 SCM $\mathcal{M}_T = \langle \mathbf{U}, \mathbf{V}, \mathbf{F}_T, P(\mathbf{U}) \rangle$로 형식화
- 소스 과업을 타겟 SCM의 일부 구조함수를 수정($do$)하여 생성:
$$\mathcal{M}S^{(k)} = \mathcal{M}_T \mid{do(\Delta^{(k)})}$$
여기서 $\Delta^{(k)}$는 $k$-번째 소스 과업에서 수정되는 변수/메커니즘의 집합.
- 정렬 조건: $\Delta^{(k)}$에 포함된 변수들이 인과 그래프에서 최적 정책에 영향을 미치지 않는 위치에 있으면, 소스 과업은 정렬됨.
10.2.3 Editable States
Definition 10.2 (Editable States, Li et al., 2024). 변수 집합 $\Delta$가 행동 변수 $\mathbf{X}$에 대해 편집 가능(editable)하다면, $\Delta$에 속한 변수의 초기값을 수정해도 최적 결정 규칙이 변하지 않는다.
편집 가능한 상태를 수정하면 → 정렬된 소스 과업
편집 불가능한 상태를 수정하면 → 비정렬 위험
핵심 기여:
- 비정렬 소스 과업 탐지: 인과 그래프를 분석하여 비정렬 위험이 있는 소스 과업을 사전에 식별하는 알고리즘
- 정렬된 소스 과업 구성: 편집 가능한 상태만을 수정하여 정렬이 보장되는 소스 과업을 자동 생성하는 알고리즘
- Augmentation 절차: 기존 curriculum learning 알고리즘에 정렬 보장을 추가하는 일반적 증강(augmentation) 절차
10.2.4 비관측 교란의 역할
비관측 교란($U$)이 존재하면 정렬 판단이 더 어려워진다:
- 비관측 $U$가 소스와 타겟에서 다르게 작용할 수 있음
- 소스에서 관측되지 않는 교란이 타겟에서 최적 정책을 변경할 수 있음
- 표면적으로 정렬된 것처럼 보이는 소스 과업이 실제로는 비정렬
이것이 "인과적" curriculum learning이 필수적인 이유: 인과 구조를 고려하지 않으면, 커리큘럼이 오히려 학습을 방해할 수 있다.
10.3 금융에서의 Causal Curriculum 설계
10.3.1 환경 수정의 인과적 분류
금융 시뮬레이션 환경에서 수정할 수 있는 요소를 인과적으로 분류:
| 수정 요소 | 편집 가능 여부 | 정렬 위험 | 근거 |
|---|---|---|---|
| 초기 자본 | 편집 가능 | 낮음 | 최적 배분 비율은 자본 규모에 불변 (비례적 전략) |
| 자산 수 | 주의 필요 | 중간 | 분산투자 효과가 비선형적으로 변화 |
| 거래 비용 | 편집 불가 | 높음 | 비용 구조가 최적 거래 빈도를 근본적으로 변경 |
| 변동성 수준 | 주의 필요 | 중간 | 레짐에 따라 최적 노출이 다를 수 있으나, 방향은 불변 가능 |
| 시장 충격 | 편집 불가 | 높음 | 충격 모델이 최적 주문 크기를 결정 |
| 관측 노이즈 | 편집 가능 | 낮음 | 노이즈 감소가 최적 행동 방향을 바꾸지 않음 |
| 시간 해상도 | 주의 필요 | 중간 | 일봉 vs 분봉에서 최적 전략이 다를 수 있음 |
| 상관 구조 | 편집 불가 | 높음 | 자산 간 관계가 분산투자 전략을 결정 |
10.3.2 정렬된 커리큘럼 설계 원칙
인과적으로 안전한 금융 커리큘럼의 원칙:
원칙 1: 비용 구조를 단순화하지 마라.
거래 비용, 시장 충격, 슬리피지는 최적 전략에 근본적으로 영향을 미치므로, 처음부터 현실적 수준으로 포함해야 한다. 이들을 제거하면 비정렬 소스 과업이 된다.
원칙 2: 복잡성은 "편집 가능한" 차원에서 점진적으로 증가시켜라.
- 초기 자본: 작게 시작 → 점진적 확대 (정렬 안전)
- 자산 수: 소수 → 다수 (방향적 정렬이 유지되는 범위에서)
- 관측 노이즈: 낮게 시작 → 현실적 수준으로 증가
원칙 3: 레짐 다양성은 커리큘럼 후반에 도입하되, 각 레짐의 인과 구조를 명시하라.
안정 레짐에서 기본 전략을 학습한 후, 위기 레짐을 도입할 때 어떤 인과 메커니즘이 변하는지(Selection Diagram의 $S$-노드)를 명시하고, 불변 메커니즘은 전이하도록 설계.
10.3.3 인과적으로 정렬된 5단계 커리큘럼
Stage 1: 기본 학습
- 소수 자산 (5개), 현실적 거래 비용
- 안정 시장 레짐만
- 목표: 기본적 리스크-수익 트레이드오프 학습
Stage 2: 자산 확장
- 중간 규모 (20개), 현실적 비용
- 안정 레짐
- 목표: 분산투자, 상관 관계 활용 학습
- 정렬 확인: 자산 수 증가는 편집 가능 (배분 비율 불변)
Stage 3: 변동성 확장
- 20개 자산, 현실적 비용
- 안정 + 고변동성 레짐 교대
- 목표: 레짐 감지, 적응적 노출 조절
- 정렬 확인: 변동성 변화의 인과 메커니즘 명시
Stage 4: 위기 도입
- 20개 자산, 현실적 비용 + 유동성 제약
- 안정 + 고변동성 + 위기 레짐
- 목표: 테일리스크 관리, 유동성 위기 대응
- 정렬 확인: 유동성 제약의 인과 효과 검증
Stage 5: 전체 환경
- 대규모 (100+ 자산), 모든 마찰
- 모든 레짐 포함, 비관측 교란 존재
- 목표: 실전 배포 가능한 강건한 정책10.4 Causal-Paced Deep RL
10.4.1 최신 발전: CP-DRL
Li et al. (2024)의 이론을 기반으로, 최신 연구(2025)는 Causal-Paced Deep RL (CP-DRL)을 제안한다:
핵심 아이디어: 과업 간의 인과적 차이(causal difference)를 궤적 데이터로부터 추정하고, 이 구조적 시그널을 사용하여 교사(teacher)가 학생(student) 에이전트에게 점진적으로 새로운 과업을 노출하는 커리큘럼을 구성.
$$d_{causal}(\mathcal{T}_s, \mathcal{T}_t) = \sum_{V_i \in \mathbf{V}} \mathbb{1}\left[f_i^{(\mathcal{T}_s)} \neq f_i^{(\mathcal{T}_t)}\right]$$
인과적 거리가 작은 소스 과업부터 시작하여 점진적으로 증가:
$$\text{Curriculum}: \mathcal{T}_{s_1} \rightarrow \mathcal{T}_{s_2} \rightarrow \cdots \rightarrow \mathcal{T}_T$$
where $d_{causal}(\mathcal{T}{s_1}, \mathcal{T}_T) \leq d{causal}(\mathcal{T}_{s_2}, \mathcal{T}_T) \leq \cdots$
10.4.2 금융에서의 인과적 과업 거리
금융에서 과업 간 인과적 거리를 측정하는 방법:
| 환경 변경 | 인과적 거리 | 커리큘럼 순서 |
|---|---|---|
| 노이즈 감소만 | 0 (편집 가능) | 초기 (Stage 1) |
| 자산 수 증가 | 낮음 | 초기-중기 |
| 변동성 레짐 추가 | 중간 | 중기 |
| 유동성 제약 추가 | 중간-높음 | 후기 |
| 상관 구조 변경 | 높음 | 최후기 |
| 시장 충격 모델 변경 | 높음 | 최후기 |
10.5 환경 조작의 인과적 정당화
10.5.1 SCM 기반 환경 수정
커리큘럼의 각 단계를 SCM에 대한 개입으로 형식화:
$$\mathcal{M}{curriculum}^{(k)} = \mathcal{M}{target} \mid_{do(\Delta^{(k)} = \delta^{(k)})}$$
예를 들어, Stage 1에서 변동성을 고정($\sigma = \sigma_0$)하는 것은:
$$\mathcal{M}^{(1)} = \mathcal{M}{target} \mid{do(\sigma = \sigma_0)}$$
이 개입이 최적 정책을 보존하는지는 인과 그래프에서 $\sigma$의 위치와 행동 변수에 대한 경로에 의해 결정된다.
10.5.2 정렬 검증 절차
각 커리큘럼 단계의 정렬을 검증하는 실무 절차:
Step 1: 타겟 환경의 인과 그래프 $G_T$ 구축
Step 2: 소스 환경의 수정 집합 $\Delta^{(k)}$ 명시
Step 3: Li et al.의 그래프 조건으로 정렬 판정:
- $\Delta^{(k)}$에 속한 변수가 행동 변수의 최적 결정에 영향을 미치는 경로 상에 있는가?
- 비관측 교란이 $\Delta^{(k)}$를 통해 최적 정책을 변경하는가?
Step 4: 비정렬로 판정되면, $\Delta^{(k)}$를 축소하거나 다른 편집 가능한 변수로 대체
10.6 Sim-to-Real Transfer의 인과적 프레임워크
10.6.1 시뮬레이터와 실시장의 Gap
금융 RL의 가장 큰 실무적 도전 중 하나는 Sim-to-Real Gap — 시뮬레이터에서 학습한 정책이 실시장에서 작동하지 않는 문제.
이것은 정확히 커리큘럼의 최종 단계: 시뮬레이션 환경(소스)에서 실시장(타겟)으로의 전이 문제이며, Ch.7의 Transportability와 본 챕터의 Causal Alignment가 동시에 적용된다.
시뮬레이터와 실시장의 Selection Diagram:
| 차이 ($S$-노드) | 시뮬레이터 | 실시장 | 정렬 영향 |
|---|---|---|---|
| 시장 충격 | 단순화 또는 부재 | 비선형, 규모 의존적 | 비정렬 위험 높음 |
| 다른 참가자 | 고정 또는 단순 모델 | 적응적, 전략적 | 비정렬 위험 높음 |
| 유동성 | 무한 또는 고정 | 시간 가변, 이벤트 의존 | 중간 위험 |
| 데이터 지연 | 없음 | 실시간 지연 존재 | 낮음 (편집 가능) |
| 슬리피지 | 고정 비율 | 확률적, 상태 의존 | 중간 위험 |
10.6.2 인과적 Sim-to-Real 파이프라인
Sim (정렬 확인된 커리큘럼)
→ Paper Trading (제한적 실시장 데이터로 정렬 재확인)
→ Live (소규모, 모니터링 집중)
→ Full Deployment (인과 구조 드리프트 감시)각 전환 단계에서:
- Selection Diagram으로 소스-타겟 차이 명시
- Transport formula로 성과 예측
- 실 데이터와 예측 비교로 정렬 검증
- 비정렬 탐지 시 커리큘럼 재설계
10.7 실습: 단계적 시장 복잡성 증가를 통한 트레이딩 에이전트 훈련
10.7.1 실습 개요
목표: 5단계 인과적 커리큘럼으로 포트폴리오 RL 에이전트를 훈련하고, 정렬된 커리큘럼 vs 비정렬 커리큘럼의 성과 차이를 확인.
10.7.2 Python 구현 스케치
class CausalCurriculum:
"""인과적으로 정렬된 커리큘럼 생성기"""
def __init__(self, target_scm, causal_graph):
self.target = target_scm
self.G = causal_graph
def is_editable(self, variables, action_vars):
"""편집 가능 여부 판정 (Li et al. 2024)"""
for v in variables:
# v를 수정했을 때 최적 행동이 변하는지 그래프 분석
if self._affects_optimal_policy(v, action_vars):
return False
return True
def create_aligned_stage(self, modifications):
"""정렬된 소스 과업 생성"""
aligned_mods = {}
for var, value in modifications.items():
if self.is_editable([var], self.target.action_vars):
aligned_mods[var] = value
else:
print(f"Warning: {var} 수정은 비정렬 위험 — 제외")
return self.target.intervene(aligned_mods)
def build_curriculum(self):
"""5단계 커리큘럼 구성"""
stages = []
# Stage 1: 노이즈 감소 (편집 가능)
stages.append(self.create_aligned_stage({
'observation_noise': 0.5, # 절반 노이즈
'n_assets': 5
}))
# Stage 2: 자산 확장 (편집 가능 확인)
stages.append(self.create_aligned_stage({
'observation_noise': 0.8,
'n_assets': 20
}))
# Stage 3: 변동성 확장
stages.append(self.create_aligned_stage({
'n_assets': 20,
'volatility_regime': ['low', 'medium']
}))
# Stage 4: 위기 도입
stages.append(self.create_aligned_stage({
'n_assets': 20,
'volatility_regime': ['low', 'medium', 'crisis'],
'liquidity_constraint': True
}))
# Stage 5: 전체 환경 (타겟)
stages.append(self.target)
return stages
# 실행
curriculum = CausalCurriculum(target_env, market_dag)
stages = curriculum.build_curriculum()
# 단계별 훈련
agent = PPOAgent(state_dim, action_dim)
for i, stage_env in enumerate(stages):
print(f"Stage {i+1} 훈련 시작...")
agent.train(stage_env, n_episodes=1000)
# 타겟 환경에서 중간 평가
eval_result = agent.evaluate(target_env, n_episodes=100)
print(f" 타겟 Sharpe: {eval_result['sharpe']:.2f}")
10.7.3 비교 실험 설계
| 커리큘럼 유형 | 설계 | 기대 결과 |
|---|---|---|
| No Curriculum | 처음부터 전체 환경에서 훈련 | 느린 수렴, 불안정 |
| Naive Curriculum | 거래비용 0 → 점진 도입 | 초기 빠르나 비정렬로 최종 성과 저하 |
| Causal Curriculum | 편집 가능 변수만 수정 | 안정적 수렴, 최종 성과 우수 |
| Random Curriculum | 무작위 환경 순서 | 불안정, 비효율적 |
핵심 요약 (Key Takeaways)
- Causal Curriculum Learning은 타겟 과업의 SCM에 개입하여 소스 과업 시퀀스를 설계하되, 최적 결정 규칙의 불변성(정렬)을 보장하는 프레임워크다.
- 비정렬(Misalignment)의 위험: 인과 구조를 무시한 환경 단순화(예: 거래 비용 제거)는 실제로 학습을 방해하여, 커리큘럼 없이 학습하는 것보다 나쁜 결과를 초래할 수 있다.
- Li, Zhang & Bareinboim (2024, ICLR)은 정렬 판정을 위한 충분 그래프 조건, 비정렬 과업 탐지 알고리즘, 정렬된 소스 과업 구성 알고리즘을 제공한다.
- Editable States: 수정해도 최적 정책이 변하지 않는 변수 집합. 이들만 수정하면 정렬이 보장된다.
- 금융 적용에서 거래 비용, 시장 충격, 상관 구조는 편집 불가 (비정렬 위험 높음), 초기 자본, 관측 노이즈, 자산 수는 편집 가능 (정렬 안전)한 경향.
- Sim-to-Real Gap은 커리큘럼의 최종 단계 문제이며, Selection Diagram과 Transport Formula로 체계적으로 분석 가능.
- CP-DRL (Causal-Paced Deep RL)은 궤적 데이터에서 인과적 과업 거리를 추정하여 커리큘럼을 자동 구성하는 최신 접근.
더 읽을거리
- Li, M., Zhang, J. & Bareinboim, E. (2024). Causally Aligned Curriculum Learning. ICLR. — 인과적 커리큘럼의 이론적 기초.
- Narvekar, S. et al. (2020). Curriculum Learning for Reinforcement Learning Domains: A Framework and Survey. JMLR, 21(181):1-50. — 커리큘럼 RL의 포괄적 서베이.
- Bengio, Y. et al. (2009). Curriculum Learning. ICML. — 커리큘럼 학습의 원논문.
- Dennis, M. et al. (2020). Emergent Complexity and Zero-shot Transfer via Unsupervised Environment Design. NeurIPS. — 환경 설계의 자동화.
- Parker-Holder, J. et al. (2022). Evolving Curricula with Regret-Based Environment Design. ICML. — 후회 기반 커리큘럼.
'금융연구 > 인과강화학습' 카테고리의 다른 글
| Chapter 12. Task 9 — Causal Game Theory: 다중 에이전트 환경의 균형 (0) | 2026.04.01 |
|---|---|
| Chapter 11. Task 8 — Causal Reward Shaping: 수정된 보상을 통한 학습 (0) | 2026.04.01 |
| Chapter 9. Task 6 — Causal Imitation Learning: 보상 비관측 하의 정책 학습 (0) | 2026.04.01 |
| Chapter 8. Task 5 — Learning Causal Models: 인과 구조 발견 (0) | 2026.04.01 |
| Chapter 7. Task 4 — Generalizability & Robustness: 전이가능성과 구조적 불변성 (0) | 2026.04.01 |