您的位置：首页 > > 教程攻略 > ai资讯 >如何用AI做信息抽取-实战案例-飞书

如何用AI做信息抽取-实战案例-飞书

来源:互联网 更新时间:2026-06-15 14:32

引言

如何用AI做信息抽取-实战案例-飞书

先来说一个大家每天都会遇到的情景：打开手机、电脑，无论是刷社交媒体还是看新闻，海量的文字、图片、音频扑面而来。这些内容背后藏着太多有价值的信息，可问题在于——怎么把这些零散、非结构化的“数据矿”，变成可以被直接利用的结构化知识？这就引出了信息抽取（Information Extraction, IE）这门技术。说白了，信息抽取就是自然语言处理（NLP）里的核心活儿，也是把文本里的“干货”搬到实际应用中的关键一步。

信息抽取概述

信息抽取的目标很明确：从那些没有固定格式的文本里，识别并提取出特定类型的信息。具体来说，它主要涵盖以下几项任务：
1. 命名实体识别（NER）：找出文本中的人名、地点、组织、时间等实体。
2. 关系抽取（RE）：搞清楚实体之间的关联，比如“A是B的父亲”。
3. 事件抽取（EE）：发现文本中发生的事件，以及它和实体之间的关联。

这些听上去挺抽象，但一旦结合具体案例，你就会发现它其实离日常办公很近。

案例：用飞书多维表格的捷径字段，快速批量提取实体

任务1：单次信息提取

（智谱清言 https://chatglm.cn/share/FqlM8）

第一个任务很简单——单次提取信息。写提示词时，可以采用“具体任务 + one-shot（参考示例）”的方式。但如果要处理大批量数据呢？当然，你也可以把所有任务一次性塞进大模型的提示词里，比如智谱清言目前的最大输入限制能到2万字符，应付不少场景是够的。不过，这次我们提供一个更聪明的方案：用飞书的多维表格来搞定。

任务2：采用飞书多维表格，对八千条材料信息进行批量要素提取

飞书多维表格里有一个叫“字段捷径”的功能，比如上图中那个“解析结果-V1”字段。只要用内置的信息提取字段捷径，就能实现批量信息提取，省时省力。

当然，这里可能遇到两个坑。一是提取要素不够准确，比如任务1里，同样一个“抗渗等级”，第一次被解析成“耐久性等级”，第二次又变回了“抗渗等级”；再比如“商品混凝土”，要求解析成“供应方式：预拌”，结果可能不符合实际业务需求。二是任务2中，解析出来的属性与属性值跟实际业务对不上。那么，该怎么改进呢？来看看任务3的做法。

任务3：要素提取、自定义提取要求，提供更多正、负case

这个案例聚焦在提取“普通混凝土”这类材料的信息上，需要提取的属性包括：品类、强度等级、抗渗等级、外加剂类型、是否泵送，一共五个字段。

以下是调整后的提示词：

##提取信息
"品类"
"强度等级"
"抗渗等级"
"外加剂类型"
"是否泵送"

##输入参考示例
从“混凝土混凝土强度等级：C10混凝土类型：混凝土外加剂：无材质：现浇混凝土C20”
提取"品类""强度等级""抗渗等级""外加剂类型""是否泵送"
输出：
"品类：普通混凝土
强度等级:C10
抗渗等级:null
外加剂类型:null
是否泵送:null"

##自定义提取要求
##输出格式
品类：xx
强度等级:xx
抗渗等级:xx
外加剂类型:xx
是否泵送:xx

##以下为材料描述中部分关键词的同义词说明
抗渗等级，S=P=W,实例：S4=P4
外加剂类型，膨胀剂=膨胀=膨胀型
是否泵送，非泵送=自卸=自卸车=斗车

##限制
1、必须按照输出格式要求输出
2、每类提取的信息的要素值只能从属性对于的属性值列表中查找：
品类的属性值包含“普通混凝土”、“特种混凝土”、“防冻混凝土”
强度等级的属性值包含“C7.5”、“C10”、“C15”、“C20”、“C25”、“C30”、“C35”、“C40”、“C45”、“C50”、“C55”、“C60”、“C70”、“C80”、“C85”、“C90”、“C95”、“C100”、“C130”
抗渗等级的属性只包含"P4"、"P6"、"P8"、"P10"、"P12"、"P14"、"P16"
外加剂类型的属性值包含"微膨胀"、"膨胀"、"防冻"、"早强"、"缓凝"、"减水"、"抗渗"、"增塑"
是否泵送的属性值包含“泵送”、“非泵送”

3、没要相应属性值的，输出：null
比如是否泵送,信息提取时没有对应属性与属性值，则输出,是否泵送：null