금융연구/인과강화학습

Chapter 12. Task 9 — Causal Game Theory: 다중 에이전트 환경의 균형

hertzalpha 2026. 4. 1. 17:30

Chapter 12. Task 9 — Causal Game Theory: 다중 에이전트 환경의 균형

"Strategies following counterfactual rationality dominate strategies based on standard game theory."
— Maiti, Jain & Bareinboim (2025)

12.1 문제 정의: 교란된 환경에서의 다중 에이전트 균형

12.1.1 CRL Task 9의 위치

Task 9 (Causal Game Theory). 교란된 환경(confounded environments)에서 다중 에이전트 정책 학습의 균형을 찾아라.

Task 1–8이 단일 에이전트의 인과적 의사결정을 다뤘다면, Task 9는 다중 에이전트가 전략적으로 상호작용하는 환경을 인과적 렌즈로 분석한다.

금융 시장은 본질적으로 다중 에이전트 시스템이다. 기관투자자, 개인투자자, 마켓메이커, 고빈도 트레이더, 중앙은행 등이 각자의 목적함수를 추구하며 전략적으로 상호작용한다. 이 상호작용에는 비관측 교란(사적 정보, 시장 심리, 비공식 커뮤니케이션)이 보편적으로 존재한다.

12.1.2 표준 게임 이론의 한계

Nash 균형의 가정	금융 현실	한계
완전 합리성	행동 편향, 감정, 직관	비합리적 행동 설명 불가
공통 지식	비대칭 정보	사적 정보의 전략적 활용 미모델링
단일 수준 추론	다층적 인과 추론 가능	$\mathcal{L}_1$/$\mathcal{L}_2$/$\mathcal{L}_3$ 구분 없음
비관측 교란 부재	시장 심리, 내부 정보	교란이 균형에 미치는 영향 무시

12.2 Counterfactual Rationality: 이론적 기초

12.2.1 Maiti, Jain & Bareinboim (2025)의 프레임워크

이 연구는 게임 이론의 가장 근본적 개념인 합리성(rationality)을 인과적으로 재정의한다.

핵심 관찰: 인간의 의사결정에서 합리적 행동과 비합리적 행동 사이의 긴장(tension)은 오래된 문제다. 표준 게임 이론(von Neumann-Morgenstern, Nash)은 합리성을 전제하지만, 행동경제학(Kahneman, Thaler)은 체계적 비합리성을 문서화해 왔다. 이 논문은 이 긴장을 인과적 언어로 해소한다.

12.2.2 Pearl 인과 계층에서의 행동 유형

에이전트의 행동을 Pearl Causal Hierarchy (PCH)의 세 수준으로 분류:

$\mathcal{L}_1$ Actions (관측적): 에이전트가 환경을 관측하고, 자연적 성향(natural instinct)에 따라 행동. 비관측 요인 $U$에 의해 결정:

$$X_i \leftarrow f_{X_i}(U_i)$$

금융: 트레이더가 직관/감정에 따라 매매 (비합리적 행동 포함)

$\mathcal{L}_2$ Actions (개입적): 에이전트가 전략적으로 행동을 결정. 자연적 성향을 무시하고 계산된 최적 행동을 수행:

$$do(X_i = x_i^*) \quad \text{where } x_i^* = \arg\max_{x_i} \mathbb{E}[U_i(x_i, x_{-i})]$$

금융: 알고리즘 트레이딩이 계산된 최적 전략을 실행 (Nash 균형에 해당)

$\mathcal{L}_3$ Actions (반사실적): 에이전트가 자연적 성향을 관측하되, 이를 정보로 활용하여 반사실적으로 행동을 조정:

$$X_i = \begin{cases} x_{natural}(U_i) & \text{with some probability} \\ x_{strategic} & \text{otherwise} \end{cases}$$

금융: 트레이더가 자신의 직관($U_i$)을 인지하고, 이를 정보로 활용하여 전략적 결정을 보정

12.2.3 Counterfactual Rationality의 정의

Definition 12.1 (Counterfactual Rationality, Maiti et al., 2025). 에이전트가 자신의 비합리적 성향($U_i$)을 활용하여, 순수 합리적 전략($\mathcal{L}_2$)보다 우수한 결과를 달성할 수 있는 상태.

Theorem 12.1 (Dominance of Counterfactual Strategies). 반사실적 합리성에 기반한 전략은 표준 게임 이론의 전략을 지배(dominate)한다. 즉, $\mathcal{L}_3$ 전략은 $\mathcal{L}_2$ 전략보다 일반적으로 우월하다.

직관: Greedy Casino 예시에서, 순수 무작위화(RCT, $\mathcal{L}_2$)가 자연적 직관($\mathcal{L}_1$)보다 높은 기대 수익을 산출하지만, 반사실적 무작위화($\mathcal{L}_3$)는 자연적 편향을 정보로 활용하여 RCT마저 초과한다.

12.2.4 Counterfactual Nash Equilibrium

Definition 12.2 (Counterfactual Nash Equilibrium). Nash 균형의 개념을 반사실적 행동($\mathcal{L}_3$)으로 확장:

전략 프로파일 $\sigma^{\ast} = (\sigma_1^{\ast}, \ldots, \sigma_n^{\ast})$이 Counterfactual NE이려면, 어떤 에이전트 $i$도 $\sigma_i^{\ast}$에서 반사실적으로 일탈(deviate)하여 이득을 볼 수 없어야 한다.

표준 NE와의 차이: 일탈의 범위가 $\mathcal{L}_2$(개입적 행동)에서 $\mathcal{L}_3$(반사실적 행동)으로 확대된다. 에이전트가 자신의 자연적 성향을 활용하는 반사실적 일탈까지 고려해야 하므로, 균형 조건이 더 강하다.

12.3 Sequential Causal Games

최신 확장(2025-2026)은 순차적 게임으로의 일반화를 연구한다:

12.3.1 Sequential Causal Normal Form Games (S-CNFG)

Definition 12.3 (S-CMAS). Sequential Causal Multi-Agent System:

$$G = \langle \mathcal{M}, N, \mathbf{X}, Y, \preceq, I \rangle$$

$\mathcal{M}$: 기저 SCM
$N$: 에이전트 집합
$\mathbf{X}$: 각 에이전트의 행동 변수
$Y$: 보수(payoff) 변수
$\preceq$: 행동 순서 (Stackelberg 구조)
$I$: 정보 집합

12.3.2 인과적 추론의 전략적 우위와 한계

Sequential 설정에서의 핵심 발견:

Negative Result. 고전적 게임 이론의 균형 개념(Nash, 역진 귀납법)은 인과적 추론 이점과 양립 불가능하다. PCH 계층의 전략적 이점은 합리적 최적 반응(best response)으로부터의 이탈을 요구한다.

함의: 표준 균형 개념으로는 인과적으로 정교한 AI 에이전트의 행동을 예측할 수 없다. 새로운 균형 개념이 필요하다.

12.4 금융 시장의 다중 에이전트 구조

12.4.1 시장 참가자의 인과적 분류

참가자 유형	PCH 수준	행동 특성	비관측 교란
개인투자자	주로 $\mathcal{L}_1$	직관, 감정, 군중심리	심리적 편향, SNS 영향
패시브 펀드	$\mathcal{L}_1$	인덱스 추종, 규칙 기반	자금 유출입 패턴
액티브 펀드매니저	$\mathcal{L}_1 \sim \mathcal{L}_2$	리서치 기반 판단	내부 분석, 확신 수준
퀀트 펀드	$\mathcal{L}_2$	알고리즘 최적화	모델 사양, 리스크 한도
마켓메이커	$\mathcal{L}_2$	유동성 공급, 스프레드 관리	재고 포지션, 정보 흐름
HFT	$\mathcal{L}_2$	초단기 차익	레이턴시 이점, 데이터 접근
CRL 에이전트	$\mathcal{L}_3$	인과적 추론, 반사실 활용	— (비관측 교란을 명시적 처리)

12.4.2 시장 미시구조의 인과적 게임

호가창(LOB) 게임:

마켓메이커와 정보거래자의 상호작용을 Causal Game으로 모델링:

마켓메이커(MM): 호가 설정 ($\delta^{bid}, \delta^{ask}$)
정보거래자(IT): 매매 방향과 크기
비관측 교란: 정보거래자의 사적 정보 $U_{info}$

$$U_{info} \rightarrow A_{IT} \quad (\text{사적 정보가 거래 방향 결정})$$

$$U_{info} \rightarrow P_{future} \quad (\text{사적 정보가 미래 가격에 반영})$$

$$A_{MM}, A_{IT} \rightarrow P_{current} \quad (\text{양측의 행동이 현재 가격 결정})$$

MM의 역선택 문제: IT의 사적 정보($U_{info}$)를 직접 관측할 수 없지만, 주문 흐름 패턴에서 반사실적으로 정보를 추론할 수 있다.

$\mathcal{L}_3$ 전략: "이 주문 흐름이 정보거래자의 것이라면, 만약 다른 호가를 설정했다면 역선택 비용이 어떻게 달라졌을까?" → 반사실적 호가 조정.

12.4.3 교란된 환경에서의 균형 분석

비대칭 정보(asymmetric information)를 비관측 교란으로 형식화:

$$\text{Informed Agent}: U_{info} \rightarrow A_{informed}, \quad U_{info} \rightarrow Y$$

$$\text{Uninformed Agent}: A_{uninformed} \rightarrow Y, \quad U_{info} \not\rightarrow A_{uninformed}$$

비정보 에이전트는 $U_{info}$를 관측할 수 없으므로, 정보 에이전트의 행동 $A_{informed}$로부터 $U_{info}$에 대한 추론을 시도 — 이것이 시장 미시구조 이론의 핵심(Kyle, 1985; Glosten-Milgrom, 1985)이며, 인과적 언어로는 관측($\mathcal{L}_1$) 기반 역추론에 해당한다.

CRL 에이전트는 이를 반사실적($\mathcal{L}_3$) 추론으로 고도화할 수 있다: "만약 정보거래자가 다른 행동을 했다면, 시장 결과가 어떻게 달라졌을까?" → 정보 내용의 더 정확한 추정.

12.5 Multi-Agent RL (MARL)의 인과적 확장

12.5.1 표준 MARL의 한계

Multi-Agent RL은 다중 에이전트 환경의 학습 프레임워크이지만, 인과적 관점에서 근본적 한계가 있다:

다른 에이전트의 비관측 동기: 다른 에이전트의 보상 함수, 전략, 제약이 비관측 교란
전략적 비정상성: 다른 에이전트도 학습하므로 환경이 비정상
균형 선택: 다수의 균형 중 어디로 수렴할지 불확정

12.5.2 Causal MARL 프레임워크

인과적 다중 에이전트 학습의 구성:

Step 1: 다중 에이전트 상호작용의 인과 그래프 구축

각 에이전트 $i$의 행동 $A_i$, 비관측 요인 $U_i$, 공통 상태 $S$, 보수 $Y_i$를 포함하는 DAG.

Step 2: 비관측 교란의 영향 분석

다른 에이전트의 비관측 요인이 내 보수에 미치는 교란 경로 식별.

Step 3: 교란 강건 균형 학습

Ch.4의 Confounding-Robust 접근을 다중 에이전트로 확장: 다른 에이전트의 비관측 동기의 최악 경우에서도 안전한 전략 학습.

Step 4: 반사실적 전략 고도화

자신의 자연적 성향($U_i$)을 정보로 활용하는 $\mathcal{L}_3$ 전략으로 균형을 넘어서는 성과 추구.

12.6 금융 적용

12.6.1 알고리즘 트레이딩의 전략적 상호작용

문제: 다수의 알고리즘 트레이딩 에이전트가 동일 시장에서 경쟁할 때의 균형과 전략.

Crowding 문제: 동일한 팩터/전략을 다수 에이전트가 채택하면 알파가 소멸. 이는 다중 에이전트 게임에서의 혼잡 외부성(congestion externality)이며, 인과적으로:

$$\text{Adoption Rate} \rightarrow \text{Alpha Decay}$$

더 많은 에이전트가 동일 전략을 개입($do$)하면, 그 전략의 인과 효과가 감소한다. 이것은 단순한 상관 분석으로는 포착할 수 없는 인과적 현상이다.

12.6.2 중앙은행과 시장의 게임

중앙은행의 통화정책과 시장 참가자의 상호작용을 인과적 Stackelberg 게임으로:

Leader (중앙은행): 금리/양적완화 결정
Follower (시장): 자산 배분, 가격 결정

비관측 교란: 중앙은행의 내부 경제 전망($U_{CB}$), 시장의 집합적 심리($U_{market}$)

인과적 분석: "중앙은행이 금리를 $do(r)$했을 때, 시장의 반사실적 반응은?" → Forward Guidance의 인과적 효과 추정.

12.6.3 ESG 투자의 게임 이론적 분석

ESG 투자 확산의 다중 에이전트 인과 분석:

ESG 펀드: ESG 스코어에 기반한 투자 ($do(\text{ESG Tilt})$)
전통 펀드: 수익률 극대화
기업: ESG 개선 투자 결정

교란: 진정한 ESG 개선 vs 그린워싱($U_{greenwash}$)

인과적 질문: "ESG 펀드의 자금 유입($do$)이 기업의 실질 ESG 개선에 인과적으로 기여하는가, 아니면 단순히 가격 효과(높은 밸류에이션)만 야기하는가?"

12.7 실습: 다중 에이전트 LOB 시뮬레이션과 인과적 균형 분석

12.7.1 실습 개요

목표: 3종 에이전트(마켓메이커, 모멘텀 트레이더, 밸류 트레이더)가 상호작용하는 LOB 시뮬레이션에서, 비관측 교란(사적 정보)의 존재가 균형 전략에 미치는 영향을 분석.

12.7.2 Python 구현 스케치

import numpy as np

class CausalMultiAgentLOB:
    """인과적 다중 에이전트 LOB 시뮬레이션"""

    def __init__(self, n_agents, agent_types):
        self.agents = self._create_agents(n_agents, agent_types)
        self.orderbook = OrderBook()
        self.causal_graph = self._build_causal_graph()

    def _build_causal_graph(self):
        """다중 에이전트 인과 그래프 구축"""
        # U_info -> InformedTrader.action
        # U_info -> FuturePrice
        # MM.action, IT.action, VT.action -> CurrentPrice
        # CurrentPrice -> NextState
        return {
            'unobserved': ['private_info', 'market_sentiment'],
            'confounding_paths': [
                ('private_info', 'informed_action', 'future_price'),
                ('market_sentiment', 'all_actions', 'volatility')
            ]
        }

    def simulate_episode(self, n_steps=1000):
        """에피소드 시뮬레이션"""
        results = []
        for t in range(n_steps):
            state = self.orderbook.get_state()

            # 각 에이전트의 행동 결정
            actions = {}
            for agent in self.agents:
                if agent.type == 'L3_causal':
                    # 반사실적 전략: 자연적 성향 + 인과적 보정
                    natural_action = agent.natural_tendency(state)
                    causal_correction = agent.counterfactual_reason(
                        state, natural_action, self.causal_graph
                    )
                    actions[agent.id] = causal_correction
                elif agent.type == 'L2_rational':
                    # 개입적 전략: Nash 균형 행동
                    actions[agent.id] = agent.best_response(state)
                else:
                    # 관측적 전략: 직관/규칙 기반
                    actions[agent.id] = agent.heuristic(state)

            # 환경 업데이트
            rewards = self.orderbook.execute(actions)
            results.append({'actions': actions, 'rewards': rewards})

        return results

    def analyze_equilibrium(self, results):
        """균형 분석"""
        # 각 에이전트 유형별 성과
        for agent_type in ['L1', 'L2', 'L3_causal']:
            agents = [a for a in self.agents if a.type == agent_type]
            avg_reward = np.mean([
                r['rewards'][a.id] for r in results for a in agents
            ])
            print(f"{agent_type} 평균 보수: {avg_reward:.4f}")

# 실행
sim = CausalMultiAgentLOB(
    n_agents=10,
    agent_types={
        'market_maker': 3,      # L2 rational
        'momentum_trader': 3,   # L1 heuristic
        'value_trader': 2,      # L1 heuristic
        'causal_agent': 2       # L3 causal
    }
)

results = sim.simulate_episode(n_steps=5000)
sim.analyze_equilibrium(results)

12.7.3 기대 결과

에이전트 유형	PCH 수준	기대 성과 순위	근거
CRL Agent	$\mathcal{L}_3$	1위	비관측 교란의 정보 활용
Market Maker	$\mathcal{L}_2$	2위	스프레드 수익, 최적 반응
Value Trader	$\mathcal{L}_1$	3위	장기 평균회귀의 인과적 기반
Momentum Trader	$\mathcal{L}_1$	4위	비관측 교란에 가장 취약

Theorem 12.1의 예측대로, $\mathcal{L}_3$ 에이전트가 $\mathcal{L}_2$ 에이전트를 지배하는 결과가 기대된다.

12.8 열린 문제와 미래 방향

12.8.1 CRL Task 9의 미해결 과제

과제	현황	난이도
대규모 다중 에이전트 인과 균형	소규모만 해결	높음
동적 인과 구조를 가진 게임	정적 구조만 다룸	높음
에이전트 수가 변하는 게임	고정 수만 가정	중간
불완전 인과 그래프에서의 균형	완전 그래프 가정	높음
반사실적 균형의 계산 효율	이론적 존재만 증명	높음
LLM 에이전트의 인과적 게임	초기 단계	최신

12.8.2 LLM 에이전트와 인과적 게임

최신 연구는 LLM 기반 에이전트의 전략적 추론 능력을 평가하고 있다. LLM이 진정한 인과적 추론($\mathcal{L}_3$)을 수행하는지, 아니면 패턴 매칭($\mathcal{L}_1$)에 그치는지는 열린 질문이다. 금융에서 LLM 에이전트가 다중 에이전트 게임에 참여할 때, 인과적 게임 이론이 이들의 행동을 예측하고 제어하는 프레임워크가 될 수 있다.

핵심 요약 (Key Takeaways)

Causal Game Theory (Maiti, Jain & Bareinboim, 2025)는 합리적·비합리적 행동의 긴장을 인과적 언어로 해소하는 프레임워크다.
Counterfactual Rationality: 에이전트가 비합리적 성향($U_i$)을 정보로 활용하여, 순수 합리적 전략($\mathcal{L}_2$, Nash)보다 우월한 $\mathcal{L}_3$ 전략을 구사할 수 있다.
$\mathcal{L}_3$ 전략이 $\mathcal{L}_2$ 전략을 지배: 반사실적 합리성에 기반한 전략은 표준 게임 이론의 Nash 전략보다 일반적으로 우월하다.
Counterfactual Nash Equilibrium: Nash 균형을 반사실적 행동으로 확장하여, 에이전트가 자연적 성향을 활용하는 일탈까지 고려한 더 강한 균형 개념.
고전적 균형 개념(Nash, 역진 귀납)은 인과적 추론 이점과 양립 불가능 — 새로운 균형 개념이 필요.
금융 적용: LOB 게임(마켓메이커-정보거래자), 알고리즘 트레이딩 crowding, 중앙은행-시장 상호작용, ESG 투자 게임.
비대칭 정보를 비관측 교란으로 형식화하면, 시장 미시구조 이론(Kyle, Glosten-Milgrom)의 인과적 재해석이 가능하다.

더 읽을거리

Maiti, A., Jain, P. & Bareinboim, E. (2025). Counterfactual Rationality: A Causal Approach to Game Theory. Technical Report R-125, CausalAI Lab, Columbia University. — Causal Game Theory의 원논문.
von Neumann, J. & Morgenstern, O. (1944). Theory of Games and Economic Behavior. Princeton. — 게임 이론의 고전.
Kahneman, D. (2011). Thinking, Fast and Slow. Farrar, Straus and Giroux. — 행동경제학의 이중 시스템 이론.
Kyle, A.S. (1985). Continuous Auctions and Insider Trading. Econometrica, 53(6):1315-1335. — 비대칭 정보와 시장 미시구조.
Karpe, M. et al. (2020). Multi-agent Reinforcement Learning in a Realistic Limit Order Book Market Simulation. ICAIF. — 금융 MARL의 실무적 구현.
Bareinboim, E., Forney, A. & Pearl, J. (2015). Bandits with Unobserved Confounders: A Causal Approach. NeurIPS. — Greedy Casino 예시, 반사실적 무작위화의 기초.

Part II 완결 노트: Ch.4–12에서 CRL의 9대 Task를 금융 맥락에서 체계적으로 다루었다. Part III에서는 이 이론적 기초 위에 금융 특화 고급 주제(인과적 자산 가격, Deep Hedging, 최적 집행, 리스크 관리, LLM+CRL 융합)를 구축한다.

'금융연구 > 인과강화학습' 카테고리의 다른 글

Chapter 11. Task 8 — Causal Reward Shaping: 수정된 보상을 통한 학습 (0)	2026.04.01
Chapter 10. Task 7 — Causal Curriculum Learning: 수정된 환경에서의 학습 (0)	2026.04.01
Chapter 9. Task 6 — Causal Imitation Learning: 보상 비관측 하의 정책 학습 (0)	2026.04.01
Chapter 8. Task 5 — Learning Causal Models: 인과 구조 발견 (0)	2026.04.01
Chapter 7. Task 4 — Generalizability & Robustness: 전이가능성과 구조적 불변성 (0)	2026.04.01

현재글Chapter 12. Task 9 — Causal Game Theory: 다중 에이전트 환경의 균형

hertzalpha 님의 블로그

hertzalpha 님의 블로그 입니다.

Today :
Yesterday :

hertzalpha 님의 블로그