热门搜索:和平精英 原神 街篮2 

您的位置:首页 > > 教程攻略 > ai资讯 >MIT研究人员开发图表理解AI训练数据集ChartNet

MIT研究人员开发图表理解AI训练数据集ChartNet

来源:互联网 更新时间:2026-06-04 08:07

企业想在激烈的市场竞争中占得先机,决策的速度和质量是关键。而驱动决策的,往往是那些堆成山的市场报告和财务文件中的图表。于是,越来越多企业选择借助生成式AI,让模型来帮忙读图、提取信息。但问题来了:即便是目前最前沿的视觉语言模型(VLM),在面对这些图表时,也常常翻车——毕竟,这活儿要求模型同时看懂图像、理解数字、还得玩转语言逻辑,三重能力叠加,难度陡增。换句话讲,企业砸钱上了最好的模型,最后拿到的可能还是不准确、不完整的信息。

MIT研究人员开发图表理解AI训练数据集ChartNet

这个短板,麻省理工学院(MIT)和MIT-IBM计算研究实验室的研究人员盯上了。他们专门搞了一套针对视觉语言模型的训练资源,目标很明确:教会模型真正看懂图表。

思路是走一条新路——不再依赖从网上扒来的那些零散图片,而是自己生成数据。最终产出的数据集叫ChartNet,包含超过一百万张高质量的图表图像,每张图都配了生成代码、文字描述和带数值的数据表格。更关键的是,每条数据还附上了问答对,等于手把手教模型怎么回答关于图表的问题。这样一来,模型不光能看,还能综合理解视觉、语言和数值三者之间的关联。

研究团队用ChartNet训练了一系列开源的视觉语言模型。测试结果很有看头:许多参数量小得多的模型,在数据提取和图表摘要这类任务上,表现竟然碾压了那些体量大出好几个量级的商业模型。这意味着,预算有限的中小企业,也有机会用上靠谱的图表理解能力,不用再被高价商用模型卡脖子。

“我们把ChartNet做成了一个‘一站式图表理解解决方案’——几乎覆盖了训练过程中可能用到的一切资源。”论文一作、MIT电气工程与计算机科学系研究生Jovana Kondic说,“希望这项研究能激发更多人去探索,怎么用更小的模型、更低的算力,达到顶级的性能水准。”

论文合作者还包括来自MIT、MIT-IBM计算研究实验室和IBM Research的多位研究者:Pengyuan Li、Dhiraj Joshi、Isaac Sanchez、Aude Oliva和Rogerio Feris。相关成果将在IEEE计算机视觉与模式识别大会(CVPR)上正式发布。

数据瓶颈制约发展

自然语言处理和自然图像推理这些年进展不小,但图表理解这块却一直是个硬骨头。图表理解几乎是所有行业——尤其金融行业——的刚需。金融行业有多依赖图表?可以说,几乎每一个决策环节都离不开它。如果能从图表里自动提取趋势、识别数据,下游业务流程的效率会大幅提升。

问题卡在哪里?高质量训练数据太稀缺。现有数据集要么图表数量有限,要么来源是互联网抓取,规模和质量都不够,模型很难从中学到真本事。正如Kondic所说:“和人类不同,VLM可能需要看上几千个折线图示例,才能可靠地认出什么是折线图。”研究团队选择用合成数据来破局——算法生成的数据虽然是人造的,但能够模拟真实数据的统计特征。

ChartNet数据集包含超过一百万张高质量的图表图像,每张图都配有生成代码、文字描述和数值表格。另有问答对用于训练模型正确回答问题。部分数据还带有专家标注,提供额外的图表类型和可靠性保证,可用于微调并提升特定场景下的模型性能。

Kondic表示:“这些额外的数据模态,其实是在引导模型把图表图像里分散的信息片段,一一对应地关联起来。”

两步式合成数据生成流程

ChartNet的构建,依赖一套两步式的合成数据生成流水线。第一步,自动化系统把已有的图表图像转译成代码;第二步,系统对代码进行迭代增强——改图表类型、改数据值、换主题、换颜色,从一张种子图表出发,就能生成几百种不同的变体。正是这种“以一变百”的操作,撑起了上百万张多样化图像的规模。

当然,量大不是唯一追求。研究团队还嵌入了自动化质量审核流程,验证代码能不能运行、渲染出的图像是否准确清晰。就像Kondic说的:“不仅要多样性,信息本身也要有意义地呈现才行。”

用ChartNet训练后,研究团队在多项图表解读任务上进行了系统评估,包括图表重建、数据提取、图表摘要和图表问答。结果很一致:数据集全面提升了所有模型的准确率,小型开源模型在各项指标上持续优于体量更大的商业模型。

“很多以往的训练数据集只关注让模型回答图表相关的简单问题。我们想做的是超越这个局限,让数据支撑起全方位的图表理解。”Kondic说。

未来,研究团队计划继续扩充ChartNet,纳入更高复杂度的数据,同时也积极吸收研究社区的反馈。这项研究获得了MIT-IBM计算研究实验室的部分资助支持。

常见问题速览

Q1:ChartNet数据集包含哪些内容?

A:ChartNet数据集包含超过一百万张高质量的图表图像,每张图都配了生成代码、文字描述和数值表格。此外还有问答对,部分数据带有人类专家标注,提供额外的图表类型和可靠性保证。

Q2:ChartNet是怎么生成合成数据的?

A:采用两步式流水线:先自动化将现有图表图像转译成代码,再对代码进行迭代增强——修改类型、数据值、主题、颜色等属性,从一张种子图表可生成数百种变体。同时嵌入自动化质量审核,确保代码可执行、图像准确清晰。

Q3:用ChartNet训练的小型开源模型,真的能比大型商业模型效果更好吗?

A:根据测试结果,用ChartNet训练的小型开源模型在图表重建、数据提取、图表摘要和图表问答等任务上,确实显著超越了体量大出数个量级的商业模型。这意味着中小企业也能以较低成本,借助开源模型实现高质量的图表理解能力,降低AI应用门槛。

热门手游

手机号码测吉凶
本站所有软件,都由网友上传,如有侵犯你的版权,请发邮件haolingcc@hotmail.com 联系删除。 版权所有 Copyright@2012-2013 haoling.cc