热门搜索:和平精英 原神 街篮2 

您的位置:首页 > > 教程攻略 > ai资讯 >百川发布新一代医疗增强大模型 M4:登顶 OpenAI 医疗评测,超越 GPT-5.5

百川发布新一代医疗增强大模型 M4:登顶 OpenAI 医疗评测,超越 GPT-5.5

来源:互联网 更新时间:2026-06-28 12:56

6 月 22 日,百川智能联手清华大学研究团队,正式放出了新一代医疗增强大模型——Baichuan-M4。先说几个关键判断:这个模型在三个顶尖医疗评测榜单上,直接拿下了世界第一,全面超越了 GPT-5.5、Claude Opus 4.7 和 DeepSeek-V4-Pro,而且它的幻觉率被压到了 3.3% 的超低水平。

百川发布新一代医疗增强大模型 M4:登顶 OpenAI 医疗评测,超越 GPT-5.5

具体来说,在 OpenAI 提出的医疗评测 HealthBench 上,M4 拿到了 68.6 的综合得分,世界第一。领先第二名 GPT-5.5 超过 10 分;而在最考验临床决策能力的 Hard 子集上,差距更是拉大到 15.9 分。这可不是小差距,基本是碾压级别。

M4 一个非常核心的改进在于,它不再只是被动地等待患者给出完整信息了。它会主动追问症状的性质、诱因,并且优先识别和排查危急重症。换句话说,它更像一个真正有经验的医生——先做安全筛查,再逐步缩小范围,而不是为了图快就跳过关键病史环节。

为了让这种能力可量化、可验证,百川借鉴了医学教育中经典的 OSCE(客观结构化临床考试)方法,联合 150 多位一线医生,构建了一套全新的动态问诊评测体系 SCAN-bench。这套评测不考死记硬背,完全以真实临床经验为评分标准,通过多轮、动态的方式完整模拟医生从接诊到确诊的全流程。结果呢?M4 初诊拿了 79.0 分,复诊 74.7 分,明显领先 GPT-5.5、DeepSeek-V4-Pro 和 Claude Opus 4.7。

另一个值得关注的能力是「全病程记忆」。传统的对话模型往往每轮对话都得从零开始,但 Baichuan-M4 能够打通历史病历、多轮问诊、化验趋势和用药反馈。也就是说,它在多次对话中始终知道患者是谁、过去得过什么病、指标怎么变化,不需要每次重新问一遍。在长上下文临床记忆评测中,M4 拿到 86.9 分,是同类最高,比上一代 M3 提升了 21.1 分。

证据锚定:每句话都有出处

百川还首创了“证据锚定”机制。简单来说,模型生成的每一句医学结论,都必须精确对应到原始论文或指南中的具体段落——不是只标注引用了哪篇文献就完事,而是精确到段落。依托六源循证范式,模型只在权威医学来源中检索,不会从开放网络随便抓取资料。在这个基础上,M4 进一步将权威指南、专家共识和真实诊疗流程拆解为标准化的临床路径单元,目前已经超过 1000 个、覆盖 200 多种疾病,每一条都由资深临床专家定义和校验。

效果怎么样?在百川自建的循证医学评测 Baichuan-EBM 上,M4 的循证引用精度达到了 90.0,而 GPT-5.5 只有 54.7,OpenEvidence 是 55.9。差距不是一星半点。

技术细节方面,感兴趣的朋友可以查阅他们发布的技术报告。

热门手游

相关攻略

手机号码测吉凶
本站所有软件,都由网友上传,如有侵犯你的版权,请发邮件haolingcc@hotmail.com 联系删除。 版权所有 Copyright@2012-2013 haoling.cc