AI产业链地图·知识库 强化学习交易 · 概念
🚧 网站建设中 更新 2026·06·17 → 产业链图谱
首页/概念/强化学习交易
更新 2026·06·17
概念 技术 / 术语

强化学习交易

Reinforcement Learning Trading · RL Trading · 强化学习量化

强化学习交易把交易过程建模为 MDP(马尔可夫决策过程):

强化学习交易 CONCEPT · 概念
首次提出
2017
关键参与方
[[幻方量化]] · [[九坤投资]] · [[DeepSeek]]
反向引用
3 处 · 来自 3
归属 量化交易强化学习AI算法第五层

强化学习交易

Reinforcement Learning Trading。用强化学习(RL)算法做交易决策:定义 state(市场状态)、action(买/卖/持)、reward(收益/夏普)。代表:幻方量化 的深度学习量化模型 + DeepSeek 用于策略生成。

定义

强化学习交易把交易过程建模为 MDP(马尔可夫决策过程):

  • State:市场状态(价格、量、因子、宏观指标)
  • Action:交易决策(买入 / 卖出 / 持有 / 仓位调整)
  • Reward:收益、夏普比率、最大回撤等
  • Policy:从 state 到 action 的映射函数(用神经网络拟合)

技术细节

主要算法

  • DQN(2013):用 Q-Network 估值动作
  • A2C / PPO(2017):actor-critic 架构
  • GRPO(DeepSeek 2024):Group Relative Policy Optimization
  • 多目标 RL:同时优化收益、风险、流动性

应用层次

层次 任务 代表
策略生成 选股、择时 端到端 RL
组合优化 仓位分配 多资产 RL
执行优化 拆单、路由 智能订单路由
高频做市 报价决策 微观市场结构 RL

主要玩家

在 AI 产业链中的角色

强化学习交易是 传统多因子 → 大模型量化 的中间过渡范式。其优势在于:

  1. 端到端:跳过特征工程,直接从原始数据学策略
  2. 自适应:策略可在线学习市场风格切换
  3. 多目标:同时优化收益、风险、成本

挑战:

  1. 样本稀缺:金融数据噪声大、非平稳
  2. 模拟与现实差距:回测过拟合是普遍问题
  3. 可解释性:监管对黑箱模型的要求

演进历史

  • 2013:DQN 发布
  • 2017:A2C / PPO 主流化
  • 2020+:深度 RL 广泛应用于量化
  • 2024:DeepSeek GRPO 用于推理模型训练
  • 2025+:大模型 + RL 端到端策略生成

相关概念

∈ belongs_to::5-09-AI金融-量化交易