特征工程(Feature Engineering)
把 原始数据(订单、点击、传感器)加工成 机器学习模型可消费的"特征" — 传统 ML 时代决定模型上限的"脏活累活",MLOps 体系下抽象成"特征存储"中间件。
定义
特征工程包括:
- 特征提取 — 从原始数据计算特征(窗口聚合、衍生字段)
- 特征转换 — 归一化、独热编码、嵌入
- 特征选择 — 相关性筛选、PCA、L1 正则
- 特征监控 — 数据漂移、缺失值、异常分布
- 特征存储(Feature Store) — 离线特征仓 + 在线特征服务
Feature Store 架构
| 层 | 功能 | 典型工具 |
|---|---|---|
| 离线存储 | 训练用大批特征 | Snowflake / BigQuery / Iceberg |
| 在线存储 | 低延迟特征服务(< 10ms) | Redis / DynamoDB / Cassandra |
| 计算引擎 | 离线 + 流式特征计算 | Spark / Flink / Materialize |
| 注册中心 | 特征元数据 + 血缘 | Feature Registry |
| 监控 | 漂移 / 缺失 / 分布告警 | Great Expectations 等 |
主要玩家
海外
- Tecton — Feature Store 商业领导者(Uber Michelangelo 团队创立)
- Feast — 开源 Feature Store(Tecton 共建)
- Databricks Feature Store — Lakehouse 原生
- AWS SageMaker Feature Store
- Vertex AI Feature Store(Google)
中国
LLM 时代的角色转变
| 维度 | 传统 ML | LLM 时代 |
|---|---|---|
| 重要性 | 决定模型上限的"脏活" | 大幅弱化(LLM 端到端学习) |
| 仍然必要场景 | 表格 ML / 推荐 / 风控 / 时序 | 同上 + RAG 元数据特征 |
| 演进 | Feature Store → Vector Store / 向量数据库 | 嵌入向量取代显式特征 |
关键判断:特征工程没死,在表格类业务(风控、推荐、广告、运营)仍是核心。但新增 LLM 投入正在挤压它的预算份额。
演进
- 2017 Uber Michelangelo 论文 → Feature Store 概念起源
- 2019 Feast 开源 / Tecton 创立
- 2020-23 Feature Store 标准化、商业化爆发
- 2024-25 LLM 浪潮让纯特征工程平台估值承压,纷纷加 向量数据库 / RAG 能力
相关
∈ belongs_to::3-07-AI原生中间件与开发平台