您的位置：首页 > > 教程攻略 > ai资讯 >百川发布新一代医疗增强大模型 M4：登顶 OpenAI 医疗评测，超越 GPT-5.5

百川发布新一代医疗增强大模型 M4：登顶 OpenAI 医疗评测，超越 GPT-5.5

来源:互联网 更新时间:2026-06-28 12:56

6 月 22 日，百川智能联手清华大学研究团队，正式放出了新一代医疗增强大模型——Baichuan-M4。先说几个关键判断：这个模型在三个顶尖医疗评测榜单上，直接拿下了世界第一，全面超越了 GPT-5.5、Claude Opus 4.7 和 DeepSeek-V4-Pro，而且它的幻觉率被压到了 3.3% 的超低水平。

具体来说，在 OpenAI 提出的医疗评测 HealthBench 上，M4 拿到了 68.6 的综合得分，世界第一。领先第二名 GPT-5.5 超过 10 分；而在最考验临床决策能力的 Hard 子集上，差距更是拉大到 15.9 分。这可不是小差距，基本是碾压级别。

M4 一个非常核心的改进在于，它不再只是被动地等待患者给出完整信息了。它会主动追问症状的性质、诱因，并且优先识别和排查危急重症。换句话说，它更像一个真正有经验的医生——先做安全筛查，再逐步缩小范围，而不是为了图快就跳过关键病史环节。

为了让这种能力可量化、可验证，百川借鉴了医学教育中经典的 OSCE（客观结构化临床考试）方法，联合 150 多位一线医生，构建了一套全新的动态问诊评测体系 SCAN-bench。这套评测不考死记硬背，完全以真实临床经验为评分标准，通过多轮、动态的方式完整模拟医生从接诊到确诊的全流程。结果呢？M4 初诊拿了 79.0 分，复诊 74.7 分，明显领先 GPT-5.5、DeepSeek-V4-Pro 和 Claude Opus 4.7。

另一个值得关注的能力是「全病程记忆」。传统的对话模型往往每轮对话都得从零开始，但 Baichuan-M4 能够打通历史病历、多轮问诊、化验趋势和用药反馈。也就是说，它在多次对话中始终知道患者是谁、过去得过什么病、指标怎么变化，不需要每次重新问一遍。在长上下文临床记忆评测中，M4 拿到 86.9 分，是同类最高，比上一代 M3 提升了 21.1 分。

证据锚定：每句话都有出处

百川还首创了“证据锚定”机制。简单来说，模型生成的每一句医学结论，都必须精确对应到原始论文或指南中的具体段落——不是只标注引用了哪篇文献就完事，而是精确到段落。依托六源循证范式，模型只在权威医学来源中检索，不会从开放网络随便抓取资料。在这个基础上，M4 进一步将权威指南、专家共识和真实诊疗流程拆解为标准化的临床路径单元，目前已经超过 1000 个、覆盖 200 多种疾病，每一条都由资深临床专家定义和校验。

效果怎么样？在百川自建的循证医学评测 Baichuan-EBM 上，M4 的循证引用精度达到了 90.0，而 GPT-5.5 只有 54.7，OpenEvidence 是 55.9。差距不是一星半点。

技术细节方面，感兴趣的朋友可以查阅他们发布的技术报告。

百川发布新一代医疗增强大模型 M4：登顶 OpenAI 医疗评测，超越 GPT-5.5

证据锚定：每句话都有出处

热门资讯

热门手游

相关攻略

热门专题