来源:互联网 更新时间:2026-06-15 14:32

信息抽取的目标很明确:从那些没有固定格式的文本里,识别并提取出特定类型的信息。具体来说,它主要涵盖以下几项任务:
1. 命名实体识别(NER):找出文本中的人名、地点、组织、时间等实体。
2. 关系抽取(RE):搞清楚实体之间的关联,比如“A是B的父亲”。
3. 事件抽取(EE):发现文本中发生的事件,以及它和实体之间的关联。
这些听上去挺抽象,但一旦结合具体案例,你就会发现它其实离日常办公很近。
第一个任务很简单——单次提取信息。写提示词时,可以采用“具体任务 + one-shot(参考示例)”的方式。但如果要处理大批量数据呢?当然,你也可以把所有任务一次性塞进大模型的提示词里,比如智谱清言目前的最大输入限制能到2万字符,应付不少场景是够的。不过,这次我们提供一个更聪明的方案:用飞书的多维表格来搞定。
飞书多维表格里有一个叫“字段捷径”的功能,比如上图中那个“解析结果-V1”字段。只要用内置的信息提取字段捷径,就能实现批量信息提取,省时省力。
当然,这里可能遇到两个坑。一是提取要素不够准确,比如任务1里,同样一个“抗渗等级”,第一次被解析成“耐久性等级”,第二次又变回了“抗渗等级”;再比如“商品混凝土”,要求解析成“供应方式:预拌”,结果可能不符合实际业务需求。二是任务2中,解析出来的属性与属性值跟实际业务对不上。那么,该怎么改进呢?来看看任务3的做法。
这个案例聚焦在提取“普通混凝土”这类材料的信息上,需要提取的属性包括:品类、强度等级、抗渗等级、外加剂类型、是否泵送,一共五个字段。
以下是调整后的提示词:
##提取信息 |
实际跑了100条数据进行验证,判断后准确率达到了100%。这就是正、负case和自定义规则的价值所在。
当然,信息抽取的应用远不止建材领域。看看这些场景:
在医疗领域,它能从临床文档中抽取病人的关键信息,辅助医生做出更精准的诊断。
在金融领域,通过抽取新闻或社交媒体的关键信息,模型能更准确地预测股价走向。
在法律领域,它帮律师从海量文档中找出核心证据,无论是构建还是反驳案件,效率都大幅提升。
说到底,信息抽取的价值,就是帮我们从“数据多”变成“数据值”。
《Off Campus》第二季官宣:这对CP还在,但不再是主角
和平精英如何做到压枪稳-和平精英怎样才能压枪稳
客单价碾压宝马奥迪!极氪5月交付新车34377辆:连续4个月双增长
免费影视剧APP推荐
HBO 奇幻剧《龙之家族》第三季定档 6 月 22 日,最终预告片曝光喉道海战
DOTA2 TI时隔七年重返上海!门票6月10日开抢,国服享受优先购买!
网络热词聊污是什么意思
帅气继父网名女生可爱英文(精选100个)
抖音最火沙雕男生网名(精选100个)
蒙古上单是什么梗
免费看电影的软件推荐
韦一敏是什么梗
金铲铲之战s17六暗星卡莎阵容玩法构筑指南
SpaceX狂揽AI人才,马斯克亲自面试且不看简历背景
作家助手如何上传自制封面 作家助手如何设置小说的封面
阿里发布Qwen3.7-Max大模型,全球第五、国产第一
有寓意的易经网名男生(精选100个)
韩漫小少爷网名大全女生(精选100个)
帅到极致的网名女生霸气(精选100个)
美国市场:股票相对债券的风险溢价正在消失
手机号码测吉凶
本站所有软件,都由网友上传,如有侵犯你的版权,请发邮件haolingcc@hotmail.com 联系删除。 版权所有 Copyright@2012-2013 haoling.cc