금융연구/인과강화학습

Chapter 10. Task 7 — Causal Curriculum Learning: 수정된 환경에서의 학습

hertzalpha 2026. 4. 1. 14:43

Chapter 10. Task 7 — Causal Curriculum Learning: 수정된 환경에서의 학습


"The critical assumption of invariant optimal decision rules does not necessarily hold when the underlying environment contains unobserved confounders."
— Li, Zhang & Bareinboim (2024)


10.1 문제 정의: 학습 환경의 인과적 설계

10.1.1 CRL Task 7의 위치

Task 7 (Causal Curriculum Learning). 타겟 과업의 SCM에 개입하여, 최적 타겟 $\mathcal{L}_2$-정책의 학습을 가속화하는 하위 과업(subtask) 시퀀스를 설계하라.

Curriculum Learning(교육과정 학습)의 기본 아이디어는 인간의 학습과 유사하다: 쉬운 문제부터 시작하여 점진적으로 어려운 문제로 나아간다. RL에서 이는 단순한 환경에서 먼저 학습하고, 점차 복잡한 환경으로 전이하는 것이다.

그러나 핵심적 질문이 있다: 어떤 단순화가 "좋은" 단순화이고, 어떤 단순화가 잘못된 습관을 야기하는가?

10.1.2 금융에서의 Curriculum Learning 동기

금융 RL 에이전트의 훈련은 다음과 같은 이유로 curriculum이 필요하다:

  1. 복잡성의 저주: 실제 시장은 수천 종목, 다양한 자산 클래스, 복잡한 상호작용을 포함
  2. 탐색 비용: 실시장에서의 시행착오는 실제 손실 야기
  3. 레짐 다양성: 강세장, 약세장, 위기, 회복 등 다양한 레짐을 순차적으로 경험해야 함
  4. 비정상성: 한 번에 모든 시장 상황을 커버하는 것이 불가능

직관적 커리큘럼 설계:

Stage 1: 단일 자산, 거래 비용 없음, 정상 변동성
   ↓
Stage 2: 소수 자산, 소규모 거래 비용
   ↓
Stage 3: 다수 자산, 현실적 거래 비용, 정상 변동성
   ↓
Stage 4: 다수 자산, 현실적 비용, 고변동성 레짐
   ↓
Stage 5: 전체 시장, 모든 마찰, 위기 시나리오 포함

이 직관적 설계의 문제: 각 단계의 "단순화"가 타겟 과업의 최적 정책과 정렬(align)되는지 보장이 없다. 잘못된 단순화는 에이전트가 실제 환경에서 유해한 행동 패턴을 학습하게 만들 수 있다.


10.2 Causally Aligned Curriculum Learning의 이론

10.2.1 핵심 문제: Misaligned Source Tasks

Definition 10.1 (Aligned vs Misaligned Source Task). 소스 과업 $\mathcal{T}_s$가 타겟 과업 $\mathcal{T}_t$와 정렬(aligned)되려면, 소스에서 학습한 최적 결정 규칙이 타겟에서도 최적이어야 한다. 그렇지 않으면 비정렬(misaligned)이다.

비정렬의 위험: 소스 과업에서 완벽히 학습한 에이전트가 타겟 과업에서 오히려 성과가 악화될 수 있다.

금융 예시: 거래 비용이 없는 시뮬레이터에서 학습한 에이전트는 "빈번한 리밸런싱"을 최적으로 학습한다. 그러나 실제 시장에서는 거래 비용으로 인해 이 전략이 최악이 된다. 거래 비용 없는 환경은 비정렬 소스 과업이다.

10.2.2 Li, Zhang & Bareinboim (2024, ICLR)의 핵심 결과

Theorem 10.1 (Causal Alignment Condition). SCM 프레임워크에서, 소스 과업의 인과적 정렬(causal alignment)을 판정하는 충분 그래프 조건이 존재한다.

구체적으로:

  1. 타겟 과업을 SCM $\mathcal{M}_T = \langle \mathbf{U}, \mathbf{V}, \mathbf{F}_T, P(\mathbf{U}) \rangle$로 형식화
  2. 소스 과업을 타겟 SCM의 일부 구조함수를 수정($do$)하여 생성:

$$\mathcal{M}S^{(k)} = \mathcal{M}_T \mid{do(\Delta^{(k)})}$$

여기서 $\Delta^{(k)}$는 $k$-번째 소스 과업에서 수정되는 변수/메커니즘의 집합.

  1. 정렬 조건: $\Delta^{(k)}$에 포함된 변수들이 인과 그래프에서 최적 정책에 영향을 미치지 않는 위치에 있으면, 소스 과업은 정렬됨.

10.2.3 Editable States

Definition 10.2 (Editable States, Li et al., 2024). 변수 집합 $\Delta$가 행동 변수 $\mathbf{X}$에 대해 편집 가능(editable)하다면, $\Delta$에 속한 변수의 초기값을 수정해도 최적 결정 규칙이 변하지 않는다.

편집 가능한 상태를 수정하면 → 정렬된 소스 과업
편집 불가능한 상태를 수정하면 → 비정렬 위험

핵심 기여:

  1. 비정렬 소스 과업 탐지: 인과 그래프를 분석하여 비정렬 위험이 있는 소스 과업을 사전에 식별하는 알고리즘
  2. 정렬된 소스 과업 구성: 편집 가능한 상태만을 수정하여 정렬이 보장되는 소스 과업을 자동 생성하는 알고리즘
  3. Augmentation 절차: 기존 curriculum learning 알고리즘에 정렬 보장을 추가하는 일반적 증강(augmentation) 절차

10.2.4 비관측 교란의 역할

비관측 교란($U$)이 존재하면 정렬 판단이 더 어려워진다:

  • 비관측 $U$가 소스와 타겟에서 다르게 작용할 수 있음
  • 소스에서 관측되지 않는 교란이 타겟에서 최적 정책을 변경할 수 있음
  • 표면적으로 정렬된 것처럼 보이는 소스 과업이 실제로는 비정렬

이것이 "인과적" curriculum learning이 필수적인 이유: 인과 구조를 고려하지 않으면, 커리큘럼이 오히려 학습을 방해할 수 있다.


10.3 금융에서의 Causal Curriculum 설계

10.3.1 환경 수정의 인과적 분류

금융 시뮬레이션 환경에서 수정할 수 있는 요소를 인과적으로 분류:

수정 요소 편집 가능 여부 정렬 위험 근거
초기 자본 편집 가능 낮음 최적 배분 비율은 자본 규모에 불변 (비례적 전략)
자산 수 주의 필요 중간 분산투자 효과가 비선형적으로 변화
거래 비용 편집 불가 높음 비용 구조가 최적 거래 빈도를 근본적으로 변경
변동성 수준 주의 필요 중간 레짐에 따라 최적 노출이 다를 수 있으나, 방향은 불변 가능
시장 충격 편집 불가 높음 충격 모델이 최적 주문 크기를 결정
관측 노이즈 편집 가능 낮음 노이즈 감소가 최적 행동 방향을 바꾸지 않음
시간 해상도 주의 필요 중간 일봉 vs 분봉에서 최적 전략이 다를 수 있음
상관 구조 편집 불가 높음 자산 간 관계가 분산투자 전략을 결정

10.3.2 정렬된 커리큘럼 설계 원칙

인과적으로 안전한 금융 커리큘럼의 원칙:

원칙 1: 비용 구조를 단순화하지 마라.

거래 비용, 시장 충격, 슬리피지는 최적 전략에 근본적으로 영향을 미치므로, 처음부터 현실적 수준으로 포함해야 한다. 이들을 제거하면 비정렬 소스 과업이 된다.

원칙 2: 복잡성은 "편집 가능한" 차원에서 점진적으로 증가시켜라.

  • 초기 자본: 작게 시작 → 점진적 확대 (정렬 안전)
  • 자산 수: 소수 → 다수 (방향적 정렬이 유지되는 범위에서)
  • 관측 노이즈: 낮게 시작 → 현실적 수준으로 증가

원칙 3: 레짐 다양성은 커리큘럼 후반에 도입하되, 각 레짐의 인과 구조를 명시하라.

안정 레짐에서 기본 전략을 학습한 후, 위기 레짐을 도입할 때 어떤 인과 메커니즘이 변하는지(Selection Diagram의 $S$-노드)를 명시하고, 불변 메커니즘은 전이하도록 설계.

10.3.3 인과적으로 정렬된 5단계 커리큘럼

Stage 1: 기본 학습
  - 소수 자산 (5개), 현실적 거래 비용
  - 안정 시장 레짐만
  - 목표: 기본적 리스크-수익 트레이드오프 학습

Stage 2: 자산 확장
  - 중간 규모 (20개), 현실적 비용
  - 안정 레짐
  - 목표: 분산투자, 상관 관계 활용 학습
  - 정렬 확인: 자산 수 증가는 편집 가능 (배분 비율 불변)

Stage 3: 변동성 확장
  - 20개 자산, 현실적 비용
  - 안정 + 고변동성 레짐 교대
  - 목표: 레짐 감지, 적응적 노출 조절
  - 정렬 확인: 변동성 변화의 인과 메커니즘 명시

Stage 4: 위기 도입
  - 20개 자산, 현실적 비용 + 유동성 제약
  - 안정 + 고변동성 + 위기 레짐
  - 목표: 테일리스크 관리, 유동성 위기 대응
  - 정렬 확인: 유동성 제약의 인과 효과 검증

Stage 5: 전체 환경
  - 대규모 (100+ 자산), 모든 마찰
  - 모든 레짐 포함, 비관측 교란 존재
  - 목표: 실전 배포 가능한 강건한 정책

10.4 Causal-Paced Deep RL

10.4.1 최신 발전: CP-DRL

Li et al. (2024)의 이론을 기반으로, 최신 연구(2025)는 Causal-Paced Deep RL (CP-DRL)을 제안한다:

핵심 아이디어: 과업 간의 인과적 차이(causal difference)를 궤적 데이터로부터 추정하고, 이 구조적 시그널을 사용하여 교사(teacher)가 학생(student) 에이전트에게 점진적으로 새로운 과업을 노출하는 커리큘럼을 구성.

$$d_{causal}(\mathcal{T}_s, \mathcal{T}_t) = \sum_{V_i \in \mathbf{V}} \mathbb{1}\left[f_i^{(\mathcal{T}_s)} \neq f_i^{(\mathcal{T}_t)}\right]$$

인과적 거리가 작은 소스 과업부터 시작하여 점진적으로 증가:

$$\text{Curriculum}: \mathcal{T}_{s_1} \rightarrow \mathcal{T}_{s_2} \rightarrow \cdots \rightarrow \mathcal{T}_T$$

where $d_{causal}(\mathcal{T}{s_1}, \mathcal{T}_T) \leq d{causal}(\mathcal{T}_{s_2}, \mathcal{T}_T) \leq \cdots$

10.4.2 금융에서의 인과적 과업 거리

금융에서 과업 간 인과적 거리를 측정하는 방법:

환경 변경 인과적 거리 커리큘럼 순서
노이즈 감소만 0 (편집 가능) 초기 (Stage 1)
자산 수 증가 낮음 초기-중기
변동성 레짐 추가 중간 중기
유동성 제약 추가 중간-높음 후기
상관 구조 변경 높음 최후기
시장 충격 모델 변경 높음 최후기

10.5 환경 조작의 인과적 정당화

10.5.1 SCM 기반 환경 수정

커리큘럼의 각 단계를 SCM에 대한 개입으로 형식화:

$$\mathcal{M}{curriculum}^{(k)} = \mathcal{M}{target} \mid_{do(\Delta^{(k)} = \delta^{(k)})}$$

예를 들어, Stage 1에서 변동성을 고정($\sigma = \sigma_0$)하는 것은:

$$\mathcal{M}^{(1)} = \mathcal{M}{target} \mid{do(\sigma = \sigma_0)}$$

이 개입이 최적 정책을 보존하는지는 인과 그래프에서 $\sigma$의 위치와 행동 변수에 대한 경로에 의해 결정된다.

10.5.2 정렬 검증 절차

각 커리큘럼 단계의 정렬을 검증하는 실무 절차:

Step 1: 타겟 환경의 인과 그래프 $G_T$ 구축

Step 2: 소스 환경의 수정 집합 $\Delta^{(k)}$ 명시

Step 3: Li et al.의 그래프 조건으로 정렬 판정:

  • $\Delta^{(k)}$에 속한 변수가 행동 변수의 최적 결정에 영향을 미치는 경로 상에 있는가?
  • 비관측 교란이 $\Delta^{(k)}$를 통해 최적 정책을 변경하는가?

Step 4: 비정렬로 판정되면, $\Delta^{(k)}$를 축소하거나 다른 편집 가능한 변수로 대체


10.6 Sim-to-Real Transfer의 인과적 프레임워크

10.6.1 시뮬레이터와 실시장의 Gap

금융 RL의 가장 큰 실무적 도전 중 하나는 Sim-to-Real Gap — 시뮬레이터에서 학습한 정책이 실시장에서 작동하지 않는 문제.

이것은 정확히 커리큘럼의 최종 단계: 시뮬레이션 환경(소스)에서 실시장(타겟)으로의 전이 문제이며, Ch.7의 Transportability와 본 챕터의 Causal Alignment가 동시에 적용된다.

시뮬레이터와 실시장의 Selection Diagram:

차이 ($S$-노드) 시뮬레이터 실시장 정렬 영향
시장 충격 단순화 또는 부재 비선형, 규모 의존적 비정렬 위험 높음
다른 참가자 고정 또는 단순 모델 적응적, 전략적 비정렬 위험 높음
유동성 무한 또는 고정 시간 가변, 이벤트 의존 중간 위험
데이터 지연 없음 실시간 지연 존재 낮음 (편집 가능)
슬리피지 고정 비율 확률적, 상태 의존 중간 위험

10.6.2 인과적 Sim-to-Real 파이프라인

Sim (정렬 확인된 커리큘럼) 
  → Paper Trading (제한적 실시장 데이터로 정렬 재확인)
  → Live (소규모, 모니터링 집중)
  → Full Deployment (인과 구조 드리프트 감시)

각 전환 단계에서:

  1. Selection Diagram으로 소스-타겟 차이 명시
  2. Transport formula로 성과 예측
  3. 실 데이터와 예측 비교로 정렬 검증
  4. 비정렬 탐지 시 커리큘럼 재설계

10.7 실습: 단계적 시장 복잡성 증가를 통한 트레이딩 에이전트 훈련

10.7.1 실습 개요

목표: 5단계 인과적 커리큘럼으로 포트폴리오 RL 에이전트를 훈련하고, 정렬된 커리큘럼 vs 비정렬 커리큘럼의 성과 차이를 확인.

10.7.2 Python 구현 스케치

class CausalCurriculum:
    """인과적으로 정렬된 커리큘럼 생성기"""

    def __init__(self, target_scm, causal_graph):
        self.target = target_scm
        self.G = causal_graph

    def is_editable(self, variables, action_vars):
        """편집 가능 여부 판정 (Li et al. 2024)"""
        for v in variables:
            # v를 수정했을 때 최적 행동이 변하는지 그래프 분석
            if self._affects_optimal_policy(v, action_vars):
                return False
        return True

    def create_aligned_stage(self, modifications):
        """정렬된 소스 과업 생성"""
        aligned_mods = {}
        for var, value in modifications.items():
            if self.is_editable([var], self.target.action_vars):
                aligned_mods[var] = value
            else:
                print(f"Warning: {var} 수정은 비정렬 위험 — 제외")
        return self.target.intervene(aligned_mods)

    def build_curriculum(self):
        """5단계 커리큘럼 구성"""
        stages = []

        # Stage 1: 노이즈 감소 (편집 가능)
        stages.append(self.create_aligned_stage({
            'observation_noise': 0.5,  # 절반 노이즈
            'n_assets': 5
        }))

        # Stage 2: 자산 확장 (편집 가능 확인)
        stages.append(self.create_aligned_stage({
            'observation_noise': 0.8,
            'n_assets': 20
        }))

        # Stage 3: 변동성 확장
        stages.append(self.create_aligned_stage({
            'n_assets': 20,
            'volatility_regime': ['low', 'medium']
        }))

        # Stage 4: 위기 도입
        stages.append(self.create_aligned_stage({
            'n_assets': 20,
            'volatility_regime': ['low', 'medium', 'crisis'],
            'liquidity_constraint': True
        }))

        # Stage 5: 전체 환경 (타겟)
        stages.append(self.target)

        return stages

# 실행
curriculum = CausalCurriculum(target_env, market_dag)
stages = curriculum.build_curriculum()

# 단계별 훈련
agent = PPOAgent(state_dim, action_dim)
for i, stage_env in enumerate(stages):
    print(f"Stage {i+1} 훈련 시작...")
    agent.train(stage_env, n_episodes=1000)

    # 타겟 환경에서 중간 평가
    eval_result = agent.evaluate(target_env, n_episodes=100)
    print(f"  타겟 Sharpe: {eval_result['sharpe']:.2f}")

10.7.3 비교 실험 설계

커리큘럼 유형 설계 기대 결과
No Curriculum 처음부터 전체 환경에서 훈련 느린 수렴, 불안정
Naive Curriculum 거래비용 0 → 점진 도입 초기 빠르나 비정렬로 최종 성과 저하
Causal Curriculum 편집 가능 변수만 수정 안정적 수렴, 최종 성과 우수
Random Curriculum 무작위 환경 순서 불안정, 비효율적

핵심 요약 (Key Takeaways)

  • Causal Curriculum Learning은 타겟 과업의 SCM에 개입하여 소스 과업 시퀀스를 설계하되, 최적 결정 규칙의 불변성(정렬)을 보장하는 프레임워크다.
  • 비정렬(Misalignment)의 위험: 인과 구조를 무시한 환경 단순화(예: 거래 비용 제거)는 실제로 학습을 방해하여, 커리큘럼 없이 학습하는 것보다 나쁜 결과를 초래할 수 있다.
  • Li, Zhang & Bareinboim (2024, ICLR)은 정렬 판정을 위한 충분 그래프 조건, 비정렬 과업 탐지 알고리즘, 정렬된 소스 과업 구성 알고리즘을 제공한다.
  • Editable States: 수정해도 최적 정책이 변하지 않는 변수 집합. 이들만 수정하면 정렬이 보장된다.
  • 금융 적용에서 거래 비용, 시장 충격, 상관 구조는 편집 불가 (비정렬 위험 높음), 초기 자본, 관측 노이즈, 자산 수는 편집 가능 (정렬 안전)한 경향.
  • Sim-to-Real Gap은 커리큘럼의 최종 단계 문제이며, Selection Diagram과 Transport Formula로 체계적으로 분석 가능.
  • CP-DRL (Causal-Paced Deep RL)은 궤적 데이터에서 인과적 과업 거리를 추정하여 커리큘럼을 자동 구성하는 최신 접근.

더 읽을거리

  1. Li, M., Zhang, J. & Bareinboim, E. (2024). Causally Aligned Curriculum Learning. ICLR. — 인과적 커리큘럼의 이론적 기초.
  2. Narvekar, S. et al. (2020). Curriculum Learning for Reinforcement Learning Domains: A Framework and Survey. JMLR, 21(181):1-50. — 커리큘럼 RL의 포괄적 서베이.
  3. Bengio, Y. et al. (2009). Curriculum Learning. ICML. — 커리큘럼 학습의 원논문.
  4. Dennis, M. et al. (2020). Emergent Complexity and Zero-shot Transfer via Unsupervised Environment Design. NeurIPS. — 환경 설계의 자동화.
  5. Parker-Holder, J. et al. (2022). Evolving Curricula with Regret-Based Environment Design. ICML. — 후회 기반 커리큘럼.