百度 ChatBI—LLM 实战学习笔记1

AI应用信息2年前 (2024)发布 XIAOT

午参加了百度 MEG 数据中台的技术沙龙，之前一直想学习借鉴的百度 ChatBI 也揭开了神秘的面纱。LLM 浪潮兴起之后，国内的 AI×Data领域，个人比较关注的几个头部也基本都有了初步了解，于是新开一个系列，专门记录自己从这些产品中学习到的内容。

功能一览

现场百度的老师在介绍的时候，用「朴素」一词来表达在ChatBI 中实现的功能特点，没有太花哨的东西，都是现在实际在数据消费过程中的重要节点和关键过程。

出数与图表
1. 问数据
2. 出图表
3. 做报表
归因与洞察
1. 智能总结
2. 波动归因

设计目标

虽然功能是朴素的，但是在设计的思路和目标上，可以看得出来还是有比较严格的诉求的。这里其实想重点聊聊这几条标准。

目标：一个优秀的可投入工业生产环境的智能化 BI
标准 1：有丰富完备的 BI 功能
标准 2：极速的交互秒级
标准 3：结果 100% 准确可信赖
百度 ChatBI，2024-01-13

先从标准 3 说起，因为在数据场景里，准确性是第一位的，如果无法做到可信和可依赖，就会影响用户对工具的质疑。但是 LLM 偏偏又有一定的随机性，包括幻觉的出现，所以团队定义的 100% 准确度目标是让人敬佩又让人怀疑的。

所以在后面的 QA 环节，我毫不犹豫的问了这个问题。老师的回答让我关注他们采取的 prompt Suggestion、知识增强和人工干预甚至可修改干预的措施。这些我理解是用工程的手段来弥合用户的问题和数据结果的GAP，但是我依然对 100% 的目标是存疑的，当然我对 100% 的定义是用户发出的自然语义 Vs 数据结果。之所以这么判断，是因为用户的口语化表达极不收敛，即使校准 Prompt。

标准 1 表达的是借助 LLM 调用现有的 BI 内容和功能，BI 内容比如借助智能助手直达看板中的指标卡片， BI 功能是指借助智能助手进行 BI 工具的操作甚至是看板制作。标准 2 是快速的查询和响应，对于速度这个问题确实是个会影响用户体验的问题，但是从个人角度来看，当前的实践标准能完成标准 3已经是相当强悍了，在这样一个数据场景下，准确度的重要性远高于速度。

价值衡量

当前 LLM 的应用是一种技术热潮，基本是个研发团队都会想试试 LLM 能给他们带来的东西，但是就像跨越鸿沟的模型一样。不仅用户有鸿沟，场景和功能也有鸿沟。在这个降本增效为主旋律的语境下，降低用户使用门槛和提高效率这些价值论述是一种模糊的正确。就是感觉对，也能提供一些论据，但总是隔靴搔痒，无法提供有力的数据证明。

就笔者自己在内部推进的感受而言，用户的感受和跨越鸿沟的曲线一样，对技术感兴趣的左侧人群觉得这个特别好，虽然有不准的，但是可以忍受，已经觉得有不错的表现；比较严谨的右侧人群，依然觉得帮不上大忙；而中间沉默的大多数则是一种偶然遇到了试一试的态度。

所以这引发了我另一个很好奇的问题，这个项目推进的产出怎么衡量？当把这样一个问题抛给百度的老师时，我得到的回答是优先满足场景，现在单纯得看用户数和渗透率是没有意义的。而且在老师的演讲过程中，他也提到了这是一个长期的事情，方向对，持续做才行。

技术细节

如何做到更好的准确性？
多表定位和多表关联怎么做的更好？
归因分析这里，具体采用的技术是什么样的？是在 Prompt 中加入数据扫描的规则吗？
权限校验和表定位以及 SQL 执行的逻辑和顺序？
Prompt 的构成有哪些？
LLM 的选型过程中，没有考虑过 GPT 吗？
在数据这个场景下，Chat 是一个好的方式吗？
……

这些都是我脑海里一直出现的问题，也希望今天借此机会交流的问题。但是受限于时间，有很多问题都还没有搞清楚。但是有一些被回应到的问题，还是印象深刻，也记录于此。

ChatBI 从一开始就是基于文心一言，只有文心一言，因为是公司内部自研的，所以安全性相对可控。所以对于现场提出 OpenAI 接口带来安全性的问题，在百度这个场景下不存在。
多表定位的问题，本质上是个分类问题，所以即使不使用大模型来解决，使用常见的分类模型 CNN也可以很好的解决这个问题。
权限是安全里重要的一环，但是 ChatBI 也不是从头构建权限，而是对接原有的 BI 工具权限体系
Prompt 的构成包括身份+清晰的任务描述+提示。身份就是角色设定，比如BI 专家；清晰的任务描述，就是规定好任务动作，而且这里还用了前述的 PromptSuggestion 的方式，能够在一定程度上收敛用户的提问；提示，就是最好能用到一些 FewShot 的方式。
SFT 调优技术，要有足够高的样本质量，和足够充足的样本数据。当然这里在聊的时候有顺便推广了一下文心千帆。

对于关心的自动化归因分析和多表关联的场景，还有待进一步交流确认。