来源:互联网 更新时间:2026-06-24 08:02
在2026人民数据大会上,海天瑞声CTO黄宇凯的发言给出了一个清晰判断:高质量数据集,正在成为决定大模型能力上限的关键变量。这个看似技术化的议题,其实藏着人工智能产业下一步的核心命题——数据不光要“多”,更要“好”。

海天瑞声CTO黄宇凯。人民网记者 翁奇羽摄
黄宇凯把高质量数据集的特点概括为六个词:规模大、质量高、安全牢、观点正、效果好、应用广。这六点不是简单的形容词堆砌,而是直接关系到模型训练的实际效果。换句话说,数据集的水平,某种程度上决定了模型能力的“天花板”。
那么,高质量数据集该怎么建?黄宇凯给出的原则很实际:“总体规划、分步实施,先易后难、先简后繁。”听上去像是一种工程方法论,但背后有深刻的现实考量——数据涉及企业和组织内部的多部门、多系统协同,没有顶层设计,容易各自为政、重复建设。所以,第一步不是埋头生产数据,而是先把蓝图画清楚。
围绕建设路径,黄宇凯特别强调了供需两侧的协同发力。供给侧要站在数据产品和数据服务的角度,在数据生产、处理、供给上加大投入;需求侧则要站在AI赋能行业落地的角度,用应用需求来牵引数据建设、释放数据价值。这两者之间并不天然匹配,需要数据技术、数据服务和数据生态来充当桥梁。
说到这个桥梁,就不得不提可信数据空间。根据国家数据局的推进方向,可信数据空间可以从个人、企业、行业、城市、跨境等不同层面展开。每一种空间面向的应用场景不同,涉及的数据提供方、使用方、服务方、运营方和监管方也需要多方协同参与。这其实是一种制度化的供需匹配机制。
黄宇凯还分享了几个具体的应用案例。在文旅行业,海天瑞声正在多个景区推动多模态伴游助手应用——把景区的文本、图片、视频等数据整合起来,结合具体场景打造高质量数据集,让导览服务从被动响应升级为主动服务,从通用答案转向深度体验。在数字人领域,直播带货、品牌宣传、动画游戏、文化推广等不同场景,也催生了文本、声音、视频等多模态定制化数据需求。
事实上,海天瑞声自2005年成立以来,长期深耕高质量数据集的能力建设和产品服务,至今已累计形成1800多个数据集,服务全球超过1200家客户。这个数字背后,是工程化、规模化的数据生产经验。
一个值得注意的判断是:结合人才资源、数据资源以及工程化、智能化的平台能力,持续构建高质量数据集,将让AI更有效地赋能千行百业。这不仅是技术问题,更是一个生态问题——只有供需两端真正打通,数据才能从“原料”变成“燃料”。
《Off Campus》第二季官宣:这对CP还在,但不再是主角
币安Binance虚拟货币交易平台 币安官方APP安卓苹果下载入口
客单价碾压宝马奥迪!极氪5月交付新车34377辆:连续4个月双增长
HBO 奇幻剧《龙之家族》第三季定档 6 月 22 日,最终预告片曝光喉道海战
archiveofourown 实战指南:常见用法整理
折后价近千元 澳洲一店主将真老鼠缝到内裤上当时尚单品卖
帅气继父网名女生可爱英文(精选100个)
帅到极致的网名女生霸气(精选100个)
如何在夸克浏览器中开启网页视频的倍速播放功能?
作家助手如何上传自制封面 作家助手如何设置小说的封面
DOTA2 TI时隔七年重返上海!门票6月10日开抢,国服享受优先购买!
韩漫小少爷网名大全女生(精选100个)
网络热词聊污是什么意思
有寓意的易经网名男生(精选100个)
欧易OKX官方网站直达入口 2026欧易官方App安卓版v7.1.0下载安装
小众游戏抖音网名男生(精选100个)
电视剧《小欢喜》剧情介绍
电影《遁甲门之消失的公主》剧情介绍
美国市场:股票相对债券的风险溢价正在消失
618装机配置作业! 从入门到顶配 每一分钱都花在刀刃
手机号码测吉凶
本站所有软件,都由网友上传,如有侵犯你的版权,请发邮件haolingcc@hotmail.com 联系删除。 版权所有 Copyright@2012-2013 haoling.cc