强化学习交易
Reinforcement Learning Trading。用强化学习(RL)算法做交易决策:定义 state(市场状态)、action(买/卖/持)、reward(收益/夏普)。代表:幻方量化 的深度学习量化模型 + DeepSeek 用于策略生成。
定义
强化学习交易把交易过程建模为 MDP(马尔可夫决策过程):
- State:市场状态(价格、量、因子、宏观指标)
- Action:交易决策(买入 / 卖出 / 持有 / 仓位调整)
- Reward:收益、夏普比率、最大回撤等
- Policy:从 state 到 action 的映射函数(用神经网络拟合)
技术细节
主要算法
- DQN(2013):用 Q-Network 估值动作
- A2C / PPO(2017):actor-critic 架构
- GRPO(DeepSeek 2024):Group Relative Policy Optimization
- 多目标 RL:同时优化收益、风险、流动性
应用层次
| 层次 | 任务 | 代表 |
|---|---|---|
| 策略生成 | 选股、择时 | 端到端 RL |
| 组合优化 | 仓位分配 | 多资产 RL |
| 执行优化 | 拆单、路由 | 智能订单路由 |
| 高频做市 | 报价决策 | 微观市场结构 RL |
主要玩家
在 AI 产业链中的角色
强化学习交易是 传统多因子 → 大模型量化 的中间过渡范式。其优势在于:
- 端到端:跳过特征工程,直接从原始数据学策略
- 自适应:策略可在线学习市场风格切换
- 多目标:同时优化收益、风险、成本
挑战:
- 样本稀缺:金融数据噪声大、非平稳
- 模拟与现实差距:回测过拟合是普遍问题
- 可解释性:监管对黑箱模型的要求
演进历史
- 2013:DQN 发布
- 2017:A2C / PPO 主流化
- 2020+:深度 RL 广泛应用于量化
- 2024:DeepSeek GRPO 用于推理模型训练
- 2025+:大模型 + RL 端到端策略生成
相关概念
∈ belongs_to::5-09-AI金融-量化交易