关于数据未来方向的几个新观点

New Views on the Future of Data

6 年前我写过两篇文章谈数据的未来:一篇讲了数据开发技术的三个方向,一篇讲了数据产品的三个方向

今天回看,方向几乎都应验了,但每一个的实现路径都不是当年设想的。更关键的是,6 个方向都默认了一个隐含前提:数据的消费者是人,但这个前提已经被撼动。

做一次修订。

现在看

按当年两篇的顺序复盘。

数据开发技术的三个方向

流批一体。应验了,且已经不再被单独讨论。Lakehouse 加 Iceberg / Hudi / Paimon 这些表格式上来之后,流和批的物理分界被自然抹掉,存储统一已经很成熟。Coding agent 能力的迅速增长,流批代码是否统一已经不重要,不再需要专门拎出来谈。

代码自动化。方向是对的,但当年我想的实现路径今天看是走偏了。当时看到的是 Dataphin 那一路的可视化建模加配置化代码生成;现在大家用 coding agent 写 SQL 和代码,自动优化也越来越多沉到引擎里去。低代码这条路即使没死,也已不是主流,甚至低代码厂商自己也都加了 AI 助手,把”拖拽建数仓”换成”自然语言描述需求”。

OLAP Cubes 衰落。应验,Lakehouse 加 MPP 列存引擎成了事实标准,预计算 Cube 在主流场景里基本被淘汰。随着 StarRocks / Doris 这类引擎的不断成熟,直查明细在多数场景比预聚合还快。当年说”业务上不容易、需要等 BI 工具演化”事后看是多虑了,Agent 直接消化了这一层。

数据产品的三个方向

BI / 低代码搭建数据产品。今天也成立,但 BI 入口正在被 Agent 进一步消化。本来要做成看板的需求,越来越多在对话里直接解决。Tableau、Power BI 这一拨厂商最近两年的更新,主线全是在加 AI Copilot,没人再去做 BI 本身的功能创新,这本身就是信号。BI 没死,但从主入口退到了备用入口。

数据产品和业务产品合二为一。应验,而且被推得比我当年想的远。当年设想是”产品里嵌入诊断和 SOP”;今天是 Agent 自己拿数据、拿结论、调业务工具,“数据产品”那层壳很多时候不再独立存在。Claude Code、Cursor 这一拨 coding agent 是最早跑通的例子,工程师不再先打开”代码搜索 + 文档 + Slack”三个面板再决定写哪段,而是直接问 AI,这个 pattern 正在从 coding 蔓延到所有有数据决策的场景。

交互式、对话式分析。应验,但实现路径是没想到的。当年我设想要走三步:先做一层自然语言理解,把口语问题翻成结构化查询;再加一层受控的领域词表,让用户的提问必须落到预定义的指标和实体上;上面再叠一个半结构化的语义层。后来发生的是 LLM 把前两步直接做掉了,本体被分层的上下文工程替代,比死板的本体灵活得多。

最后,6 个方向几乎都应验。但有一个我当年完全没想到的:所有路径设想里,数据的消费者都默认是人,让人查得快、看得清、补得齐。LLM 出来之后,数据多了一类新消费者:Agent。

未来方向

今天重看未来的方向。

数据开发技术

第一是 Context 工程成为数据建设的第一工作。过去数据建设以”数仓建模 + 元数据治理 + 指标体系”为骨架,目的是让人能快速准确取数。Agent 时代,数据建设的核心工作是把”过去藏在人脑子里的业务直觉”显性化成 Agent 能读的语义资产。这件事今天还没有标准方法论,很多团队都在摸索。慢慢会有。

第二是数据接口从查询语言扩展到能力单元。过去数据团队对外的接口是 SQL、API、看板。今天 Agent 调用的接口是 Skill 和 Tool:一次调用包含查询能力加上业务语义。Skills / Tools 的标准化、跨场景复用、版本管理,会成为数据平台的核心工程。我们今年在开放数据平台工具 CLI 后已经沉淀了多个高频 Skills(取数、圈人、画像、行为序列、AB 评估等),在多个业务线得到规模化复用。这个范式今天已经是事实标准。

第三是评测和反馈回路从研发副产物升级为基础设施。过去数据质量靠交付物验证加监控告警,人来发现和解决问题。Agent 时代质量是个生产系统问题:评测集怎么建、Agent 错了怎么纠、纠错怎么沉淀回 Context 不再犯、跨场景跨用户怎么共享学习。OpenAI 的 Eval 框架、Anthropic 的 evals 工具链是这条路工业化的早期形态;数据团队过去做”数据质量监控”,现在要做的是”Agent 行为评测”,后者从理念到工具栈都不一样。

数据产品

第一是 Agent 成为数据产品的主形态。BI、看板、报表会继续存在,但主入口会让位给对话式的 Agent。“看一份数”会变成例外动作,“问 Agent”会变成默认动作。数据产品的核心 UX 不再是图表布局,而是 Agent 的对话能力和长期可信的记忆。我们的对话式数据 Agent 上线半年后,简单查询从 30 分钟压到 2 分钟,复杂分析从 2-3 天压到 30 分钟。但比”快”更值得说的是,用户开始问之前从来不会问的问题,因为问的成本下来之后,“假设”的密度起来了。

第二是数据产品的边界向业务系统延伸,Agent 自闭环。“数据和业务产品合二为一”是这条路的早期形态,今天 Agent 已经在跑这条闭环:自己看数、自己出结论、自己调业务系统。运营、投放、客服这些业务侧的 Agent 化会加速,数据团队的产物会越来越多直接落到业务执行里,而不是停在分析报告上。我们已经能看到:增长团队的 Agent 在自己”看数据 → 出策略 → 调投放系统 → 看效果”地跑闭环;客服 Agent 在自动处理多数标准化工单。这些都是 2024 年还没成熟、2026 年开始进入生产的东西,变革越来越近。

第三是数据成为产品 runtime 的核心组件,不再只在后台。过去数据团队的产物服务公司内部,用户感知到的是产品 UI 背后的推荐结果。AI 入口让用户直接和 Agent 对话,Agent 调用的就是数据团队建的用户记忆、内容理解、行为叙事。我目前带的数据团队,用户记忆 pipeline 日均加工数百万人次、消耗千亿级 token,全部本地推理。数据从”事后被分析的对象”变成”实时被推理的输入”,数据团队的产物直面用户体验。

核心能力

当年那两篇文末各列了三项能力(数据开发:业务理解、把数据做深、全局观;数据产品:业务目标评估体系、抽象分析框架和行动点、提效执念)。今天看,要迭代。

业务理解,从”懂”升级到”写得出”。过去说一个数据从业者”懂业务”,意思是他在群里被问一句能答上来,他写出来的报表能让业务拍板。Agent 时代的”懂业务”意味着另一件事:你能不能把这套理解写成 Agent 能读的语义资产。举个具体的:以前问一个老分析师”沉浸 DAU 和 DAU 有啥区别”,他能答上来就够了;今天他还得能把这套口径写成结构化文件,让 Agent 自动选对指标。以前业务理解是脑子里的,现在它必须落到文件里。

评测能力,从”我做的对不对”升级到”系统错了能不能被发现、纠偏了能不能不再犯”。过去数据质量靠最终交付物的验证:SQL 是不是对的、指标是不是对的、报表是不是对的。Agent 时代质量是个生产系统问题。前面那节已经讲过具体的评测和反馈机制,这里只看能力本身:你能不能从盯单点交付物,变成搭一套评测闭环。一个具体场景:我们团队第一次给数据 Agent 定义评测集时,最难的不是设计题目,是把”分析师怎么判断一份分析报告是不是对的”这种隐性标准变成可计算的指标。这件事过去没人系统做过,现在每个团队都得自己重新发明一遍。这块的能力好坏决定了你的 Agent 系统能不能上生产线、能不能被业务长期信任。

Agentic 思维,从”做给人看”升级到”先为 Agent 设计,再让人也能用”。过去做数据产品的人讲”用户体验”,那个用户默认是人。今天,你脑子里要常驻一个 Agent:设计任何数据资产和服务时,默认起点是”Agent 来读这东西会读到什么”,人能看是接下来的事。同一份语义文档既要让 Agent 调得准,也要让人读得懂。举一个例子:以前写一份指标文档,模板是”指标名 + 业务含义 + 计算公式 + 使用注意”;现在重新写要加”同义词列表 / 适用场景 / 不适用场景 / 历史口径变更”这些维度。后面这几项不是为了让人看,是为了让 Agent 在歧义场景下不出错。