来源:互联网 更新时间:2026-06-28 12:56
6 月 22 日,百川智能联手清华大学研究团队,正式放出了新一代医疗增强大模型——Baichuan-M4。先说几个关键判断:这个模型在三个顶尖医疗评测榜单上,直接拿下了世界第一,全面超越了 GPT-5.5、Claude Opus 4.7 和 DeepSeek-V4-Pro,而且它的幻觉率被压到了 3.3% 的超低水平。

具体来说,在 OpenAI 提出的医疗评测 HealthBench 上,M4 拿到了 68.6 的综合得分,世界第一。领先第二名 GPT-5.5 超过 10 分;而在最考验临床决策能力的 Hard 子集上,差距更是拉大到 15.9 分。这可不是小差距,基本是碾压级别。
M4 一个非常核心的改进在于,它不再只是被动地等待患者给出完整信息了。它会主动追问症状的性质、诱因,并且优先识别和排查危急重症。换句话说,它更像一个真正有经验的医生——先做安全筛查,再逐步缩小范围,而不是为了图快就跳过关键病史环节。
为了让这种能力可量化、可验证,百川借鉴了医学教育中经典的 OSCE(客观结构化临床考试)方法,联合 150 多位一线医生,构建了一套全新的动态问诊评测体系 SCAN-bench。这套评测不考死记硬背,完全以真实临床经验为评分标准,通过多轮、动态的方式完整模拟医生从接诊到确诊的全流程。结果呢?M4 初诊拿了 79.0 分,复诊 74.7 分,明显领先 GPT-5.5、DeepSeek-V4-Pro 和 Claude Opus 4.7。
另一个值得关注的能力是「全病程记忆」。传统的对话模型往往每轮对话都得从零开始,但 Baichuan-M4 能够打通历史病历、多轮问诊、化验趋势和用药反馈。也就是说,它在多次对话中始终知道患者是谁、过去得过什么病、指标怎么变化,不需要每次重新问一遍。在长上下文临床记忆评测中,M4 拿到 86.9 分,是同类最高,比上一代 M3 提升了 21.1 分。
百川还首创了“证据锚定”机制。简单来说,模型生成的每一句医学结论,都必须精确对应到原始论文或指南中的具体段落——不是只标注引用了哪篇文献就完事,而是精确到段落。依托六源循证范式,模型只在权威医学来源中检索,不会从开放网络随便抓取资料。在这个基础上,M4 进一步将权威指南、专家共识和真实诊疗流程拆解为标准化的临床路径单元,目前已经超过 1000 个、覆盖 200 多种疾病,每一条都由资深临床专家定义和校验。
效果怎么样?在百川自建的循证医学评测 Baichuan-EBM 上,M4 的循证引用精度达到了 90.0,而 GPT-5.5 只有 54.7,OpenEvidence 是 55.9。差距不是一星半点。
技术细节方面,感兴趣的朋友可以查阅他们发布的技术报告。
archiveofourown 实战指南:常见用法整理
币安Binance虚拟货币交易平台 币安官方APP安卓苹果下载入口
HBO 奇幻剧《龙之家族》第三季定档 6 月 22 日,最终预告片曝光喉道海战
客单价碾压宝马奥迪!极氪5月交付新车34377辆:连续4个月双增长
折后价近千元 澳洲一店主将真老鼠缝到内裤上当时尚单品卖
电视剧《小欢喜》剧情介绍
如何在夸克浏览器中开启网页视频的倍速播放功能?
作家助手如何上传自制封面 作家助手如何设置小说的封面
美好的简约网名男生(精选100个)
植物娘大战僵尸电脑端与手机端存档转移的方法
《梦幻西游》159五开五门怎么搭配-159五开五门常见搭配
欧易OKX官方网站直达入口 2026欧易官方App安卓版v7.1.0下载安装
腾讯元宝怎么用来分析股票基金的基本面信息?
wallpaper壁纸声音怎么开启
独家/李宰旭入伍前「登上孤岛服役」 惊见前辈裸体:忍不住笑了
国际贵金属走低,现货黄金价格跌0.49%
《金铲铲之战》高校赛夏季赛总决赛观赛指南来袭 还有铲铲教学一同献上
动漫《情色漫画老师OVA》剧情介绍
盖乐世社区怎么删除帖子?盖乐世社区个人发布内容撤回步骤
看韩漫的APP推荐 2026免费韩漫阅读软件大全
手机号码测吉凶
本站所有软件,都由网友上传,如有侵犯你的版权,请发邮件haolingcc@hotmail.com 联系删除。 版权所有 Copyright@2012-2013 haoling.cc