AI产业链地图·知识库 特征工程 · 概念
🚧 网站建设中 更新 2026·06·17 → 产业链图谱
首页/概念/特征工程
更新 2026·06·17
概念 技术 / 术语

特征工程

Feature Engineering · Feature Store · 特征存储 · 特征工程平台

2. 特征转换 — 归一化、独热编码、嵌入 3. 特征选择 — 相关性筛选、PCA、L1 正则 4. 特征监控 — 数据漂移、缺失值、异常分布 5. 特征存储(Feature Store) — 离线特征仓 + 在线特征服务

特征工程 CONCEPT · 概念
首次提出
2000
关键参与方
[[Tecton]] · [[Feast]] · [[Databricks]] · [[第四范式]]
反向引用
4 处 · 来自 3
归属 MLOps数据预处理特征第三层

特征工程(Feature Engineering)

原始数据(订单、点击、传感器)加工成 机器学习模型可消费的"特征" — 传统 ML 时代决定模型上限的"脏活累活",MLOps 体系下抽象成"特征存储"中间件。

定义

特征工程包括:

  1. 特征提取 — 从原始数据计算特征(窗口聚合、衍生字段)
  2. 特征转换 — 归一化、独热编码、嵌入
  3. 特征选择 — 相关性筛选、PCA、L1 正则
  4. 特征监控 — 数据漂移、缺失值、异常分布
  5. 特征存储(Feature Store) — 离线特征仓 + 在线特征服务

Feature Store 架构

功能 典型工具
离线存储 训练用大批特征 Snowflake / BigQuery / Iceberg
在线存储 低延迟特征服务(< 10ms) Redis / DynamoDB / Cassandra
计算引擎 离线 + 流式特征计算 Spark / Flink / Materialize
注册中心 特征元数据 + 血缘 Feature Registry
监控 漂移 / 缺失 / 分布告警 Great Expectations 等

主要玩家

海外

  • Tecton — Feature Store 商业领导者(Uber Michelangelo 团队创立)
  • Feast — 开源 Feature Store(Tecton 共建)
  • Databricks Feature Store — Lakehouse 原生
  • AWS SageMaker Feature Store
  • Vertex AI Feature Store(Google)

中国

LLM 时代的角色转变

维度 传统 ML LLM 时代
重要性 决定模型上限的"脏活" 大幅弱化(LLM 端到端学习)
仍然必要场景 表格 ML / 推荐 / 风控 / 时序 同上 + RAG 元数据特征
演进 Feature Store → Vector Store / 向量数据库 嵌入向量取代显式特征

关键判断:特征工程没死,在表格类业务(风控、推荐、广告、运营)仍是核心。但新增 LLM 投入正在挤压它的预算份额

演进

  • 2017 Uber Michelangelo 论文 → Feature Store 概念起源
  • 2019 Feast 开源 / Tecton 创立
  • 2020-23 Feature Store 标准化、商业化爆发
  • 2024-25 LLM 浪潮让纯特征工程平台估值承压,纷纷加 向量数据库 / RAG 能力

相关

∈ belongs_to::3-07-AI原生中间件与开发平台