来源:互联网 更新时间:2026-06-02 19:54
从电商标题或商品描述里提取品牌名称,这事儿听起来不大,真做起来才知道有多琐碎。尤其是当表格拉到几百行、几千行的时候,人工一条条翻,眼睛都得看花。这时候,让AI大模型来代劳,确实是个高效的选择。
上图是一个表格的截图,A列有10个单元格,每个单元格里都有一段文本,目标是准确提取出其中的品牌名。10行数据手动处理还能应付,但如果换成几百行、几千行,工作量就完全不同了。那么,究竟怎么用AI大模型来处理这个任务?
用过AI大模型的人都知道,真正决定输出质量的,往往不是模型本身,而是你给它的
经过几轮调试,我们给通义大模型设计了这样一个prompt:
1、每个单元格提取的结果输出为一行,表格有10个单元格,输出结果也是10行,每行结果前加上1、2、3的序号;
2、如果某个单元格没有品牌名称,则输出无;
3、如果某个单元格有多个品牌名称,请全部提取,并输出为一行,用中划线将多个品牌名称分隔开。
结果出来之后,可以看出一些明显的问题:
第3行:优衣库后面被错误地添加了一些多余的文字;
第8行:这个单元格其实没有品牌,但模型依旧提取了一些无关信息;
第10行:多个品牌中的“问界”,后面被错误地加上了“汽车”。
显然,通义在“精确提取”这一点上,还有不少提升空间。
文心一言有个限制——没办法直接上传表格。所以我们把文本内容直接写进了prompt里。当然,如果数据量非常大,比如几千条文本都塞进prompt,很容易突破token上限,这种情况下更推荐直接调用API。
调试后的prompt如下:
奥克斯电蚊拍充电式家用强力锂电池灭蚊灯二合一驱蚊神器打苍蝇拍
全棉时代洗脸巾擦脸巾平纹M码洁面巾纯棉柔巾100抽*1包洗面巾
优衣库男装女装凉感大师T AIRism宽松圆领T恤五分袖短袖465185
湿厕纸便携小包10片X1包擦洁厕湿纸巾女性经期湿巾旅行家用维达
防晒服拉夏贝尔女2024夏季新款高倍防晒长袖修身显瘦百搭时尚外套
飞科剃须刀男士电动刮胡刀官方旗舰店正品送男友父亲节礼物送爸爸
三只松鼠手撕面包1000gX1箱零食早餐首选休闲食品三只松鼠蛋糕点心吐司
意式极简床头柜2024新款轻奢高级感实木简约现代卧室床边保险柜子
虎牌保险柜箱智能床头柜一体家用防盗无线充电现代多功能2024新款
我喜欢心心相印的纸巾,你喜欢百果园的水果,他喜欢问界汽车
1、从以上10行文本中提取所有品牌的名称;
2、每一行文本提取的结果输出为一行,每行结果前加上1、2、3的序号;
3、如果某一行文本中没有品牌名称,则输出无;
4、如果某一行文本中有多个品牌名称,请全部提取,并输出为一行,用中划线将多个品牌名称分隔开。
坦白讲,文心的表现比通义好不少。10行数据里,只有第10行出了一个小问题——“问界”后面还是错误地加上了“汽车”。相比通义的三处错误,文心确实强了一个台阶。
我们用同样的prompt去测试豆包,结果如下:
说实话,看到这个结果时还挺意外的。10行数据,完全没有出错,每一个品牌名都提取得干干净净,没有多余文字,没有遗漏。豆包的理解能力,确实让人眼前一亮。
从这次对比中,基本可以盘出三条经验:
1、调试好prompt,永远是第一步,也是最关键的一步。prompt写得越精准,模型的输出就越可靠。
2、不同模型之间的差距是真实存在的。有的模型一次就出完美结果,有的则会在细节上反复出错。遇到复杂的提取任务,多试几个模型,反而能找到最优解。
3、当数据量较大时,用API调用是更稳妥的方案,能有效规避token限制的问题,也便于批量处理。
下饭影视APP下载安装指南
灵宝派对手游下载安装地址推荐
和平精英如何做到压枪稳-和平精英怎样才能压枪稳
下载浏览器app下载安装选择推荐
初中英语同步课文跟读APP推荐|免费下载高口碑跟读软件排行榜
4D采矿者官网在哪下载 最新官方下载安装地址
阅读app安卓版下载推荐
碎片人偶Vragmeet官网在哪下载 最新官方下载安装地址
免费影视剧APP推荐
Elysium Above 履云录官网在哪下载 最新官方下载安装地址
儿子穿新中式现身大会堂 马斯克罕见用中文回应:他正在学习普通话
好用的手环阅读app下载安装
名单曝光!库克、马斯克等将随团到访中国 黄仁勋不在其中
人声接近真人!OpenAI一口气更新三款超强语音AI
短视频软件推荐
苹果macOS 27将优化界面设计并测试AI驱动的Safari标签页自动分组功能
短剧《情绪超市》剧情介绍
售价约3200元!暴力熊推出预开盖版Ultra 7 270K Plus:支持直触芯片散热方案
官姓可爱谐音网名女生(精选100个)
《梦幻西游》出道人金价走势解析-云游道人影响解析
手机号码测吉凶
本站所有软件,都由网友上传,如有侵犯你的版权,请发邮件haolingcc@hotmail.com 联系删除。 版权所有 Copyright@2012-2013 haoling.cc