来源:互联网 更新时间:2026-05-27 10:00
训练一个像样的大语言模型,成本究竟有多高?数据这一关,往往就卡住了绝大多数玩家。海量、优质、合法的文本数据,其获取和处理的代价极为高昂,这几乎成了科技巨头们的专属游戏。然而,这个局面或许即将迎来一个关键的破局点。
近日,哈佛大学宣布了一项名为“机构数据倡议”(Institutional Data Initiative, IDI)的计划,其核心动作是准备向全球研究界和产业界开放一个规模惊人的数据集——涵盖约100万册已进入公共领域的书籍。这些书籍类型多样,语言丰富,作者名单里不乏狄更斯、但丁、莎士比亚等因年代久远而版权失效的文学巨匠。这无疑是一座沉睡的数字金矿。

目前,这个庞大的知识宝库尚未正式面世,具体的发布时间和获取途径仍在规划中。但可以确定的是,其书目来源正是谷歌深耕多年的“谷歌图书”(Google Books)数字化项目。这意味着,谷歌也将深度参与此次资源的开放工作,共同将这份“珍贵遗产”推向更广阔的舞台。
事实上,哈佛大学早在今年三月就首次透露了IDI的构想,旨在建立一个“为AI提供合法数据的可信渠道”。此后项目一度沉寂,直至此番正式启动,并确认已获得微软与OpenAI的资金支持。项目执行主任格雷格·莱珀特(Greg Leppert)道出了其核心愿景:通过向所有人——无论是顶尖学术机构还是资源有限的AI初创公司——开放如此规模的资源,来“打造一个公平的竞争环境”。其目标直指降低大模型训练的门槛,让创新不再被数据成本所垄断。
该数据集的核心是约100万册公版书籍,覆盖小说、诗歌、历史、哲学等多种文学类型,涉及多国语言。其作者均为版权保护期已过的经典作家,书目全部源自谷歌图书的数字化成果。
尚未发布。数据集仍处于准备阶段,具体的上线时间和获取方式有待哈佛大学与谷歌后续公布。感兴趣的各方需要保持对官方渠道的关注。
意义重大。当前,高昂的数据成本是压在AI初创公司头上的一座大山。IDI数据集的开放,相当于提供了一座高质量、合法合规的“原料”仓库。这能让更多中小型团队有机会训练自己的专用或领域大模型,从而真正参与到下一代AI技术的创新竞赛中,而不仅仅是作为巨头生态的附庸。
《Off Campus》第二季官宣:这对CP还在,但不再是主角
币安Binance虚拟货币交易平台 币安官方APP安卓苹果下载入口
客单价碾压宝马奥迪!极氪5月交付新车34377辆:连续4个月双增长
HBO 奇幻剧《龙之家族》第三季定档 6 月 22 日,最终预告片曝光喉道海战
折后价近千元 澳洲一店主将真老鼠缝到内裤上当时尚单品卖
archiveofourown 实战指南:常见用法整理
帅气继父网名女生可爱英文(精选100个)
帅到极致的网名女生霸气(精选100个)
如何在夸克浏览器中开启网页视频的倍速播放功能?
作家助手如何上传自制封面 作家助手如何设置小说的封面
DOTA2 TI时隔七年重返上海!门票6月10日开抢,国服享受优先购买!
韩漫小少爷网名大全女生(精选100个)
网络热词聊污是什么意思
有寓意的易经网名男生(精选100个)
欧易OKX官方网站直达入口 2026欧易官方App安卓版v7.1.0下载安装
小众游戏抖音网名男生(精选100个)
电视剧《小欢喜》剧情介绍
美国市场:股票相对债券的风险溢价正在消失
618装机配置作业! 从入门到顶配 每一分钱都花在刀刃
电影《遁甲门之消失的公主》剧情介绍
手机号码测吉凶
本站所有软件,都由网友上传,如有侵犯你的版权,请发邮件haolingcc@hotmail.com 联系删除。 版权所有 Copyright@2012-2013 haoling.cc