您的位置：首页 > > 教程攻略 > ai资讯 >能落地的 ChatBI，才是真ChatBI！

能落地的 ChatBI，才是真ChatBI！

来源:互联网 更新时间:2026-06-27 14:02

随着 ChatGPT、DeepSeek、Manus 这些大模型技术的集中爆发，企业级应用的落地进程明显加速了。但一个尴尬的现实是：真正落到实际场景时，总是逃不开成本高、响应慢、幻觉无法消除这几个坎。尤其在智能分析 ChatBI 领域，不少大模型厂商都试过水，可企业用户对数据准确度的要求实在太高——大量分析最终还是回到查数据库这条老路上。怎么把数据分析的门槛降下来、去掉麻烦的语义层、把模型幻觉管住，成了绕不开的核心议题。基于此，这篇文章就来拆解一下 DataFocus 是怎么凭十年的 Text2SQL 技术积累，拿出了一套能打的创新方案，给智能数据分析探条新路出来。

主要内容分三块：先说 ChatBI 落地碰到的那些硬骨头；再介绍 DataFocus 的产品到底怎么干的；最后是问答环节，把大家最关心的问题挨个说清楚。

01 ChatBI 落地挑战

1. 幻觉之困，ChatBI 变 CheatBI

大模型往企业场景里扎得越深，“幻觉”就越像一堵墙堵在落地前面。这个问题搞不定，看着挺智能的 ChatBI，一不小心就可能变成了“CheatBI”——拿假数据、错误的结论去糊弄决策，技术可信度一下子就垮了，企业价值也无从谈起。

Text2SQL 技术搞了好几十年，真正爆发是从 2020 年 Transformer 架构出来之后。SPIDER 基准测试的数据摆在那：准确率从 BERT 模型的 62.3%，跳到了 T5 模型的 78.6%；等 GPT 系列上了指令微调，2023 年最优模型已经冲到了 89.1%，增长快得跟指数似的。不过说到底，Text2SQL 当前的准确率还是卡在 90% 左右，再往上突破挺难。

右图列了当前 Top25 大模型的幻觉率，表现最好的那款，幻觉率也还维持在 0.7% 到 1.2% 之间。所以说，大模型的幻觉问题始终如影随形。

2. 响应太慢，ChatBI 变 WaitBI

第二个让人头疼的问题是响应速度。年初不少公司开始部署 DeepSeek 的一体化系统，结果并发数一上来——说白了就是用户一多——查询速度就直线往下掉，慢得让人受不了，根本没法满足那种即问即答的对话需求。

3. 方案偏差，ChatBI 变 CostlyBI

为了摆平上面那两个麻烦，企业不得不额外搞一堆活。比如，得提前把语义层定义得特别细，用来填补自然语言和结构化数据之间的沟；还得部署性能拉满的满血版 DeepSeek，指望靠算力把响应效率撑上去；再把 2000 多个指标从头到尾梳一遍，确保数据不打架、口径统一。

但这些折腾下来，负担可不轻。企业既要多花一倍的功夫——从方案规划到部署调试，每个环节都绕不开；还得掏双倍的钱——硬件、软件授权、人员培训，样样都要堆钱。最要命的是，这么大投入换来的效率提升却有限，性价比低得让人心塞，解决关键问题的路看起来越走越窄。

02 DataFocus 产品介绍

1. 对话式 BI 技术路线

在聊 DataFocus AI 算法之前，先把大模型时代 ChatBI 的几条技术路线捋一捋。

第一条，用得最多的是 Chat-to-DB 模式。这条路子全靠大模型的代码生成能力，直接把用户说的自然语言转成 SQL。但效果怎么样，取决于用户的使用场景和数据本身干不干净。因为这层关系，Chat-to-DB 更适合那些本来就懂 SQL 的数据库工程师——他们能靠自己的专业知识审查模型输出的结果，按需改改，效率能提上来。可要是拿它去做面向业务的 ChatBI，各种问题就冒出来了，业务场景那多样化的需求根本招呼不住。

第二条，Copilot 方式。它得提前把指标体系梳理得妥妥当当，或者先把大量问题定义好。用户一问，大模型就能迅速匹配到对应的指标，给业务员交出准确的结果。但局限性也很明显：太依赖前期准备，指标的事前工作量巨大。系统灵活性不足，业务一变就难跟上，运维成本也蹭蹭往上涨。

第三条，就是 DataFocus 在走的大模型加小模型的路子。不同企业实际用的具体模型可能有差别，但基本原理相通。业内普遍预测这会是未来的主流方向。不过，真要让这条路落地并发挥出优势，还得把一个小模型普适性的关键问题给解决了——也就是说，小模型的解析能力必须足够完备，要能覆盖拖拽式 BI、自己写 SQL 开发、做报表等各种场景能实现的功能，这样才接得住企业那些五花八门的需求。

2. DataFocus 探索历程

DataFocus 从 2016 年就开始捣鼓 Text2SQL 技术了，目标就是搭一座不用代码的自然语言交互桥梁，让业务人员和管理者能直接跟数据库对话，把数据使用的门槛狠狠降下来，提升企业决策效率。

2018 年，DataFocus 推出了探索式 BI 产品，用创新交互和智能分析碘伏了传统模式，重新定义了 BI 的新玩法。

搜索式 BI 的原理其实不复杂：通过自然语言做数据搜索。用户把问题输进去，系统先做语义解析，然后把查询指令送到解析层，翻译成对应的 SQL，再下发到内存里计算，最后把结果返回给前端。

搜索式 BI 的核心瓶颈，在于语义层太复杂、局限性太强。所以目标很明确：干掉语义层。

用了九年时间深耕，全新的 ChatBI 产品终于实现了即用即搜——不用提前搞复杂的细粒度建模，用自然语言就能快速发起搜索分析，数据交互流程简单得多。

目前，DataFocus 的自然语言搜索功能支持中、英文双语解析，但不建议混着用。用户不需要提前定义语义层，也不用搭完善的指标体系。提问方式很自由，有需求直接提，系统会自动算好基本指标，体验高效又便捷。同时，系统也照顾到不同用户的习惯——同义词功能可以根据自己的数据表达习惯自定义用语，用起来更顺手。还支持公式搜索，逻辑判断、数学计算、值转换这些复杂操作都能轻松搞定，搜索的灵活性和实用性一下就上来了。

3. DataFocus AI 算法优势

DataFocus 从设计之初就打定了主意，要降低大数据分析的门槛。研发团队精心做了个 Focus Search 小模型。用户只需要输关键词，系统就自动转成 SQL 并出结果。这设计让数据分析的入门门槛降得很低，更多人能轻松上手。不过，它的运行原理是用户得按预设模板输入问题，模型然后才输出对应的 SQL。

因为 Focus Search 不完全依赖深度神经网络，解析速度很快，还能做到零幻觉输出，结果很靠谱。但缺点也有：用户需要学对应的关键词体系，学习成本上去了。所以它更适合有一定基础的数据分析师用，帮他们更高效地完成工作。

为了补上短板、提升体验，DataFocus 推出了 AI 助手——小慧。小慧靠深度神经网络技术，能准准地接收用户输入的自然语言，然后转成关键词输出。小模型 Focus Search 再针对小慧解析出来的关键词语句，做进一步的深度解析，最后转成 SQL 输出。这两级模型协同工作，灵活性和准确性都兼顾到了，给用户带来更高效、更优质的分析体验。

4. DataFocus AI 算法价值

更可控
：对业务人员来说，不用懂复杂的 SQL，也能轻松判断小慧解析的结果对不对。幻觉最让人头疼的地方，就是不知道它什么时候冒出来。但要是使用者能把结果审查住，幻觉问题就捏在手心里了，不会对使用过程造成实质影响，真真正正做到可控。
更准确
：只要保证小慧生成的关键词没错，后面输出的 SQL 就不会出幻觉问题。把关键词这个关键环节卡住，整个数据分析流程的准确性就有保障了，给企业决策提供的数据支撑也够硬。
更高效
：Focus Search 的响应速度惊人，毫秒级就能出结果。从用户用纯自然语言提问题，到系统输出对应的 SQL，整个流程也只消几秒。同时还能轻松支持万人并发访问，效率比传统大模型高出 3 个数量级，企业数据处理的效率大大提升，大规模业务场景下的快速响应也接得住。
更透明
：从小慧收到用户输入，到解析成关键词，再到生成 SQL，整个过程每一步都清楚明了，用户随时能查看。Focus Search 的解析全程可追溯、可复现。这既增强了用户对系统的信任，也为系统优化和问题排查提供了有力支持。
更安全
：DataFocus 默认通过线上 API 实现推理功能，只把用户的问题和问题涉及的原数据传输给模型。这种严格的处理方式，最大程度地守住了企业的商业秘密，防止敏感信息外泄，用起来不用提心吊胆。
更灵活
：企业可以把整个模型部署在本地，不用绑定特定的大模型，还支持模型灵活切换。DataFocus 掌握了模型微调训练的全流程技术和数据，企业能根据自己的需求对模型做个性化调整。小慧的模型还支持基于开源模型训练，给企业提供了更多选择和自主性，满足不同业务场景的多样化需求。

5. 产品发展里程碑

从 2014 年创立 DataFocus 品牌，到 DataFocus Cloud 智能搜索式 BI 平台、Focus Search 数据库搜索引擎这些产品不断升级，再到 2024 年发布 FocusGPT 实现数据分析零门槛——DataFocus 创新的步子一直没停过。

DataFocus 的产品定位是“协助企业构建大模型时代认知智能基座”，让企业能高效驾驭海量数据，走可持续发展的路。

6. FocusGPT

用 FocusGPT，用户可以轻松开启跟数据库的多轮深度对话。同时，在自然语言理解上也跨了一大步，能更精准地抓住用户意图，支持多轮对话和分析引导，让人跟数据库的交互变得自然顺畅。

上图展示了 FocusGPT 跟其他开源框架比起来的核心优势。

FocusGPT 采用了经典的 Agent 架构。用户问题一进来，大模型就启动“智慧引擎”，对提问做意图识别，精准提取用户的目标。然后像一个经验丰富的策略家，把目标拆成多个子任务，定出一份详细的执行计划。评估觉得计划可行后，就借助 DataFocus 的小慧做关键词的深度解析，生成 SQL，最终输出查询结果。

FocusGPT 还会记住用户的上下文关联和所在领域的背景知识。为了实现这个目标，系统特别加了一些小组件，能显著提高模型处理任务时的精细程度，让每次对话和分析都更贴合用户需求，带来优质高效的使用体验。

7. DataFocus AI 赋能平台

DataFocus 不只是一个功能完备的数据平台，更是一个成熟的 AI 赋能平台。它能为企业大模型应用提供最重要的基础组件——Text2SQL，并以标准 API 的形式呈现，方便企业按需随时调用。为了更灵活方便，还依据 MCP 协议，把 Text2SQL 的能力封装成 MCP Server，同样支持直接调用，大幅降低了企业的技术门槛和开发成本。前端组件也是开放的，开发者可以自由装载；在 dify 和 Coze 里也提供了专门的插件，能更好地融入各类 AI 生态。

基于这些开放组件，还提供了一套 ChatBI demo，用户可以下载套件快速搭出一套 ChatBI 系统，感受 FocusGPT 的强大功能。

整套系统既能在云端直接用，也能做私有化部署。

这些开放组件和插件都有详细的视频介绍，可以去 DataFocus 的开源仓库或对应地址下载使用。

以上就是 DataFocus 产品的全貌。未来，DataFocus 会在认知智能领域继续深耕，用创新技术和专业服务，跟企业一起探索数据价值的新边界，共赴智能商业的新时代。

03 问答环节

幻觉问题

Q1：如何解决“幻觉”问题？

A1：DataFocus 通过分层解析架构和规则约束机制来抗幻觉：

小慧大模型
：小慧是专门做关键词解析的垂直大模型，把用户自然语言转成结构化的关键词（比如时间范围、指标、维度），避免直接生成 SQL 的语法风险。这一步可能有幻觉，但用户根据返回的关键词能发现幻觉并避开它。
FocusSearch 引擎
：这个模型是 DataFocus 团队花了 9 年打磨出来的、专用于关系型数据库的搜索引擎，能把用户的关键词输入转成标准 SQL 输出，保证语法正确——这一步是零幻觉的。

关键词层相当于一个“安全网”，约束模型输出范围。就算 LLM 部分出了错，后续的规则引擎也能基于正确的关键词生成有效的 SQL。

前面提过，幻觉没法完全消灭，除非不用大模型。但在 DataFocus 里，幻觉是可管控的。具体来说，先借助小慧这类工具，把用户口语化的提问转化成简洁的中文关键词语句。这样哪怕业务人员或老板完全不懂 SQL，也能靠判断这些关键词来把控有没有“幻觉”问题，确保信息准确。

Q2：在用户确认关键词无误后执行第二阶段 SQL 生成与执行，能否百分百避免“幻觉”？

A2：可以的。DataFocus 的 Text2SQL 生成，通过第二阶段的 FocusSearch 模型去实现。这个模型不是纯粹基于深度神经网络搞出来的，里面还包含一些传统的 NLP 技术和工程技巧，所以没有 Transformer 模型固有的幻觉问题。确定的输入，一定会得到确定的输出。

意图识别与容错处理

Q3：用户问题的意图识别可以到什么程度？输入字符错误、语义含糊的情况有没有处理的技术措施？

A3：对用户问题的意图识别，像输入字符错误、语义含糊这些基本问题，对大模型来说基本不成问题，都在它能力范围内。用户表述稍微有点偏差——比如说错几个字，或者表达含混不清（像说了很多销售数据却没点明相关要点）——模型能自主处理，主动跟用户交互、澄清问题，准确抓住用户意图，保证后续回应贴合需求。

Q4：怎么看 Text2SQL 对错误的容忍度？有没有考虑过限制速度来确保质量，比如用推理模型，牺牲一点速度来保解析的准确度？

A4：因为涉及数据查询，所以对错误的容忍度通常很低。企业应用场景里这一点尤其突出——数据准确性直接关系到业务决策。同时，在速度和精度的权衡上，不应该做非此即彼的选择。对话交互的场景里，响应速度一慢用户体验就大幅下滑，所以不能为了速度牺牲精度，也不用为了精度牺牲速度，而要找到两者之间的平衡，确保系统既高效又准确。

模型与算法

Q5：底层大模型可以切换么？DeepSeek 或者 Qwen 2.5？

A5：可以切换大模型。目前 DataFocus 对 DeepSeek 和 Qwen 系列模型都支持。

Q6：大模型和小模型之间是怎么保持关键字同步的？

A6：大模型需要预先学关键词的用法。小慧大模型就是在通用开源大模型基础上，训练出关键词输出能力得到的微调模型。它的训练要求是把用户自然语言提问转成规范的关键词格式，这个输出可以直接喂给小模型做 SQL 解析。

Q7：小模型打过 Bird 榜单吗？得分排名如何？

A7：没有。小模型需要关键词输入，只要关键词输入正确，SQL 就是确定的，所以不适合用 Bird 数据集去测试。

Q8：大模型返回关键词和直接返回 SQL 的区别？

A8：大模型把用户自然语言问题转成关键词输出，相当于一个简单的翻译任务——中文到中文、英文到英文。只是语言表达符合关键词的规范，更加简练。这样的结果，不需要任何技术基础，不懂 SQL 的用户也能看懂。正因为用户能审查结果的对错，就有效地控制了幻觉。

如果用大模型直接生成 SQL，就避免不了因幻觉特性产生的错误输出。这时候终端用户至少得能读懂、能判断 SQL 的正确性，才能审查结果的对错。所以说，幻觉并不可怕，可怕的是没法判断由幻觉产生的错误结果可能带来的危害。

数据建模与优化

Q9：支持宽表（300+字段）吗？怎么避免上下文爆炸？

A9：功能上支持几百列的大宽表。系统默认有一定字段数量限制，本地部署时配置可以灵活调整。只用 FocusSearch 小模型时，千列大宽表也没问题。不过，不建议在宽表里设过多字段，特别是用小慧大模型或 FocusGPT 智能体时，字段太多可能导致上下文信息量过大、增加处理难度和复杂度，影响模型性能和效果；token 消耗量大了使用成本也会提高。建议宽表适度，一般控制在 100 个字段以内比较合适。

Q10：对物理表有什么要求？比如必须是星型模型？表名和列名必须有清晰的中文注释？

A10：系统对物理表有一定要求，通常是数据结构清晰、字段名称显示合理的数据，使用效果会更好。DataFocus 的数据模型不管是星形还是雪花都支持。表名和列名如果没有清晰的中（英）文注释，Focus Search 小模型也能直接处理这类字段查询，但用起来不太直观，还是处理一下更好。DataFocus 在数据导入时，系统能自动检测数据表的字段，有详细注释和中文翻译的话会同步过来。把字段处理清晰了，像日期、数值用对格式、避免文本格式求和出错，系统处理起来会更高效准确。

Q11：当物理库表重复性或相似性字段较多时，系统怎么处理？会影响使用效果吗？

A11：面对重复或相似字段（比如“销售额”“净销售额”“总销售额”同时存在），DataFocus 用三级处理机制来保障查询准确性：

字段优先级匹配
：系统内置业务语义权重库，对高频字段（如“销售额”）赋予更高优先级。例如，用户问“显示销售额”时，就算同时存在“净销售额”“毛销售额”这些相似字段，系统也会优先选权重最高的字段。权重规则可配置，企业可以根据业务需求调整（比如零售行业优先“GMV”，制造业优先“产量”）。
交互式澄清
：用 FocusGPT 智能体时，如果相似字段权重相近，系统一般会主动追问。比如问“您需要的是‘销售额（含税）’还是‘销售额（不含税）’？”用户选择后，生成对应的 SQL。
历史行为学习
：对同一用户的重复查询，系统会记录偏好选择（比如某用户常选“净销售额”），后续自动优先匹配。

影响控制：如果重复字段没得到有效治理，可能导致查询结果偏差。建议通过数据治理合并冗余字段，或在系统中配置字段别名（比如把“销售额”“总销售额”映射到同一个物理字段）。

Q12：关键词是指标或者维度吗？

A12：不是。关键词是计算逻辑。指标没法穷举，但计算逻辑可以穷举。关键词的用法可以参考官方关键词手册来学习。

Q13：Text2SQL 能处理复杂业务吗（比如多表查询、嵌套）？

A13：DataFocus 的 Text2SQL 支持有限度的复杂查询，能力边界取决于用户能不能用自然语言把需求说清楚。通常一句话能表达清楚的查询问题，都能满足。

Q14：是否支持多表关联？需要手动配置吗？

A14：支持。如果表之间有关联关系，导入系统时系统会自动探测。探测完了，数据管理员去确认一下就会自动保存。不确认不保存的话，查询时就不会用关联关系。

Q15：企业内部推广 Focus GPT 这类工具的前期准备工作有哪些？

A15：首要任务是做数据治理。一方面要保证企业内部有统一的主数据，保障数据的基础规范；另一方面要统一数据口径定义，避免标准不一引发问题。数据治理完成后，可以先选试点——比如让财务、采购这些高频用数据的部门先试试。通过他们的使用反馈做优化，再逐步往其他部门推，这样推广起来更稳妥有效。

Q16：数仓适配小模型的实施周期要多长？

A16：数仓适配小模型的实施周期通常是 1 到 3 个月，具体时长取决于企业数据治理的成熟度和技术基础：

数据评估阶段（2-4 周）
：梳理元数据——盘点现有数仓的表结构、字段注释、关联关系，找出缺注释或命名不规范的字段。做逻辑映射验证——测试小模型对核心业务查询（比如“月度销售额趋势”）的解析准确率，定位适配瓶颈。
治理改造阶段（3-6 周）
：优化结构——拆分宽表、补全外键关系，按需把雪花模型简化成星型模型。建设语义层——在数仓里构建业务语义层，把物理字段映射为业务术语（比如把 total_amount 映射成“订单总额”）。
模型训练与部署（1-2 周）
：领域微调——基于企业专属术语库（比如行业黑话、内部缩写）对小模型做微调。灰度上线——选一部分用户试运行，监控响应速度和准确性，优化参数后全量发布。

如果企业已经有完善的数仓文档和语义层，周期可以缩短到 1 个月以内。

Q17：是否支持数据治理（比如数据质量管理、生命周期管理）？

A17：DataFocus 集成了数据治理能力，但强调的是“治理先行，分析驱动”的协同模式。

数据标准与质量
：支持定义统一数据标准，检测数据缺失、重复、异常等问题，并提供清洗工具来提升质量。
安全与权限
：细粒度权限管理，保障数据安全合规。
元数据与血缘
：自动采集元数据，追踪数据血缘，形成资产目录，提升数据发现效率。
生命周期管理
：支持数据归档、迁移等策略配置，避免冗余。

系统架构与部署

Q18：离线环境下可以运行吗？

A18：DataFocus 的离线运行能力通过本地化部署架构来实现，分三个层级：模型与计算本地化——FocusSearch 小模型和整个数据平台（含数仓、查询引擎）完全部署在企业内网服务器上，不依赖外部网络。用户自然语言解析、关键词生成、SQL 执行这些核心流程都在本地闭环完成。云端协同限制——只有启用大模型功能时才需调用云端 API，但这个模块是可选的，企业可以完全关掉来实现纯离线模式。

Q19：数据存在哪里？在 DataFocus 上吗？

A19：支持两种方式——存入 DataFocus 数仓，或者直连本地数据库。

Q20：私有化部署硬件要求多高？

A20：默认的私有化部署方式是把 DataFocus 数据平台和 FocusSearch 小模型部署在本地，云端通过调用小慧大模型的 API 实现智能解析。这种情况下，通常 8 核 CPU、32GB 内存的普通 X86 服务器就能跑起来。用户也可以根据数据量大小和使用规模做集群扩展。

Q21：云端和私有化部署有什么差异？

A21：云端和私有化部署的差异，主要在于有的企业想把数据存在本地，有的觉得放云上不太合适。功能上没什么差异，基本上都一样。

性能与扩展性

Q22：能处理 2T 的数据体量吗？

A22：单纯说几个 T 或几个 PB 的容量不是关键，核心在于处理单表极限或多表 join 之后的数据量——是十亿级、百亿级，还是千万级、百万级。系统采用集群部署方式，数据量小可以用单个节点运行，数据量大就构建大集群，能弹性扩展，多大数据量都没问题。因为最终靠计算引擎处理，AI 只是辅助解析意图。

Q23：支持千万级数据实时分析的背后，依赖哪种分布式计算引擎？

A23：DataFocus 支持大多数主流的开源 OLAP 引擎，比如 Doris/SelectDB、ClickHouse、Impala、Presto、Trino 等。如果有千万级数据需要实时分析，可以把数据导入 DataFocus 中分析，也可以通过直连 ClickHouse 等引擎来分析。

Q24：异构数据库的跨库查询怎么解决？

A24：从响应速度来看，随便一个查询，DataFocus 的响应都很快。就算大量用户同时使用，也能保持高效。特别是万人并发这种高负载场景，完全基于大模型的方案基本顶不住——不仅成本极高，还很难达到可用状态。当然，不惜成本往里砸或许能实现，但性价比太低了。DataFocus 凭自身技术，能在控制成本的同时，实现高并发下的快速响应。

Q25：高并发场景下的响应速度问题及压力测试数据？

A25：一般情况下，DataFocus 的查询响应速度都是亚秒级，具体取决于问题的复杂度和数据量大小。常用查询请求的响应速度很快，大量用户同时用也能保持高效。万人并发这种高负载场景，特别适合 DataFocus。完全靠大模型的方案基本顶不住，成本极高，还很难达到可用状态。

安全与权限体系

Q26：权限问题是怎么解决的？

A26：因为大模型处理过程中不涉及具体数据，最终 SQL 生成是 FocusSearch 小模型做的，所以不存在大模型使用过程中的权限问题。取数这一步由小模型完成，FocusSearch 会根据系统权限配置，生成带权限控制的 SQL。

Q27：权限控制能举个例子吗？

A27：系统里会定义角色，里面有各种资源——数据表、数据源、数据集等。以数据集为例，可以对角色配置：比如规定某些字段不展示给该角色，或者品牌等于或不等于特定内容的数据。配置好后，该角色下的用户访问表或数据集时，就会受到权限限制。每次查询，系统会把对应权限信息融进查询过程。

Q28：不指定某张表作为数据源，怎么保障准确性？

A28：FocusGPT 智能体支持智能选表。当不指定某张表做问答数据源、需要从一定范围的库表里找答案时，FocusGPT 会自动在用户有权限的数据表列表中，根据用户问题的意图去匹配数据。

语义映射
：解析用户问题中的业务实体（比如“销售额”“客户”），在元数据里检索包含相关字段的表。例如，问“统计客户复购率”，系统自动匹配包含“客户 ID”“订单日期”字段的表（比如订单表、客户行为表）。
表优先级排序
：根据历史查询频率、数据新鲜度（最近更新时间）、字段匹配度为表打分，优先选高分表。

为了保障准确率，一方面数据表描述信息要写得更具体，方便模型精准定位；另一方面别一次性给模型太多表，可以通过权限设定来划分，不同角色分配几十张表，从少量表里找，准确率就比从海量表里找高得多。

企业应用与集成

Q29：多轮问答最大支持多少轮？

A29：最多支持多少轮对话？理论上可以支持无限轮，但对话轮数太多会丢失早期信息。DataFocus 的多轮对话能力由上下文窗口管理机制决定，支持轮数受限于大模型的上下文支持长度，也取决于环境配置。系统配置会管理一个滑动的上下文窗口，超限后自动丢弃最早记录。

Q30：能不能跟企业内部 AI 助手（钉钉、企业微信）集成？

A30：这可以理解成两个问题。第一个，跟企业内部部署的 AI 大模型集成——如果企业内部的大模型服务提供标准接口（比如兼容 openai 的接口规范），可以在 DataFocus 系统配置里直接配好接进来。第二个，跟企业微信、钉钉、飞书这些 IM 软件集成——DataFocus 的系统配置页面里，可以通过全局设置配置企微、钉钉和飞书。

Q31：知识库要怎么整理？

A31：知识库分个人记忆库和系统知识库两部分。系统知识库一般由管理员统一配置，全体用户使用时都共用这部分知识；个人知识库只存个人的记忆，用户可以手工配置，也可以直接告诉大模型去记住相关知识。

Q32：用 Dify 做 Chat BI 合适吗？难点在哪里？

A32：目前不建议直接用 Dify 做 Chat BI。更常见的做法是把相关能力作为工具来调用。比如在智能客服场景里，需要从数据库查数据来回答客户问题（像查退货信息），可以调用 DataFocus 的 Dify 插件做数据库查询，拿到结果后返回给模型回复用户。纯粹用 Dify 做 Chat BI，成本高、速度慢，而且 Dify 不是专为这个场景设计的。不过，可以借助 Dify 简单搭个 Chat BI 演示来做早期测试，初步评估效果、发现问题。

Q33：现在还停留在数据可视化吗？数据 BI 不是应该往趋势预测、归因分析这些更高维度的能力发展吗？

A33：目前系统已经支持贡献度归因分析和夏普利归因分析。在数据查询过程中，只要符合归因模型的数据要求，就会自动做归因。预测分析已经在计划里了，请期待。

Q34：归因分析和数据洞察有落地的思路吗？

A34：这两个功能目前已经是 DataFocus 系统里有的功能了，可以直接用。

Q35：归因分析需要基于已有的问答过程吗？

A35：不需要。实时问数过程中就可以做归因分析。

Q36：从成本控制角度看，API 调用计费模式和传统 BI 授权模式有什么差异？

A36：差异很明显。传统 BI 授权模式通常是预先付费买授权，不管实际用多少，费用相对固定。API 调用计费模式按需付费，用户根据实际调用 API 的次数或数据量来支付。这种模式下，成本跟实际使用紧密挂钩，避免了资源浪费，相比传统模式成本更低、也更公平合理。

Q37：相比 Excel 的优点和不足是什么？

A37：跟 Excel 表比，两者适用场景不同。Excel 极度灵活，适合个人在小规模数据场景下用，用户可以对每个单元格随便操作。DataFocus 系统主要面向企业级场景，处理的是几百上千万甚至几十亿级别的大规模数据，能迅速给出统计分析结果。Excel 不适合处理大数据，也不能做权限控制，适合小团队或个体用户。

Q38：跟 Tableau AI 有什么区别？

A38：从公开资料看，Tableau 的 AI 功能基于 Einstein Trust Layer，确保数据隐私和安全。具体怎么实现的不得而知。对比来看，DataFocus 和 Tableau 功能定位大致相同，最大的差异可能是 DataFocus 是 Made in China，Tableau 是 Made in USA。

Tableau 能实现的功能，DataFocus 都能覆盖。而 DataFocus 的 FocusSearch 功能是 Tableau 不具备的。具体使用体验，有条件的用户可以分别试试，看看哪个产品在性能上更占优势。

以上就是本次分享的内容。

AI自动绘画大师

类型：益智休闲

大小：5.72MB

语言：简体中文

平台：互联网

游戏下载

能落地的 ChatBI，才是真ChatBI！

01 ChatBI 落地挑战

1. 幻觉之困，ChatBI 变 CheatBI

2. 响应太慢，ChatBI 变 WaitBI

3. 方案偏差，ChatBI 变 CostlyBI

02 DataFocus 产品介绍

1. 对话式 BI 技术路线

2. DataFocus 探索历程

3. DataFocus AI 算法优势

4. DataFocus AI 算法价值

更可控

更准确

更高效

更透明

更安全

更灵活

5. 产品发展里程碑

6. FocusGPT

7. DataFocus AI 赋能平台

03 问答环节

幻觉问题

Q1：如何解决“幻觉”问题？

小慧大模型

FocusSearch 引擎

Q2：在用户确认关键词无误后执行第二阶段 SQL 生成与执行，能否百分百避免“幻觉”？

意图识别与容错处理

Q3：用户问题的意图识别可以到什么程度？输入字符错误、语义含糊的情况有没有处理的技术措施？

Q4：怎么看 Text2SQL 对错误的容忍度？有没有考虑过限制速度来确保质量，比如用推理模型，牺牲一点速度来保解析的准确度？

模型与算法

Q5：底层大模型可以切换么？DeepSeek 或者 Qwen 2.5？

Q6：大模型和小模型之间是怎么保持关键字同步的？

Q7：小模型打过 Bird 榜单吗？得分排名如何？

Q8：大模型返回关键词和直接返回 SQL 的区别？

数据建模与优化

Q9：支持宽表（300+字段）吗？怎么避免上下文爆炸？

Q10：对物理表有什么要求？比如必须是星型模型？表名和列名必须有清晰的中文注释？

Q11：当物理库表重复性或相似性字段较多时，系统怎么处理？会影响使用效果吗？

字段优先级匹配

交互式澄清

历史行为学习

Q12：关键词是指标或者维度吗？

Q13：Text2SQL 能处理复杂业务吗（比如多表查询、嵌套）？

Q14：是否支持多表关联？需要手动配置吗？

Q15：企业内部推广 Focus GPT 这类工具的前期准备工作有哪些？

Q16：数仓适配小模型的实施周期要多长？

数据评估阶段（2-4 周）

治理改造阶段（3-6 周）

模型训练与部署（1-2 周）

Q17：是否支持数据治理（比如数据质量管理、生命周期管理）？

数据标准与质量

安全与权限

元数据与血缘

生命周期管理

系统架构与部署

Q18：离线环境下可以运行吗？

Q19：数据存在哪里？在 DataFocus 上吗？

Q20：私有化部署硬件要求多高？

Q21：云端和私有化部署有什么差异？

性能与扩展性

Q22：能处理 2T 的数据体量吗？

Q23：支持千万级数据实时分析的背后，依赖哪种分布式计算引擎？

Q24：异构数据库的跨库查询怎么解决？

Q25：高并发场景下的响应速度问题及压力测试数据？

安全与权限体系

Q26：权限问题是怎么解决的？

Q27：权限控制能举个例子吗？

Q28：不指定某张表作为数据源，怎么保障准确性？

语义映射

表优先级排序

企业应用与集成

Q29：多轮问答最大支持多少轮？

Q30：能不能跟企业内部 AI 助手（钉钉、企业微信）集成？

Q31：知识库要怎么整理？

Q32：用 Dify 做 Chat BI 合适吗？难点在哪里？

Q33：现在还停留在数据可视化吗？数据 BI 不是应该往趋势预测、归因分析这些更高维度的能力发展吗？

Q34：归因分析和数据洞察有落地的思路吗？

Q35：归因分析需要基于已有的问答过程吗？

Q36：从成本控制角度看，API 调用计费模式和传统 BI 授权模式有什么差异？

Q37：相比 Excel 的优点和不足是什么？

Q38：跟 Tableau AI 有什么区别？