来源:互联网 更新时间:2026-06-22 17:51
探索电商领域AIGC技术的最新实践和创新成果。
作为一种新的商品表现形态,内容几乎存在于手淘用户动线全流程——从信息流种草、搜索决策到详情页种草,无处不在。过去一年,通过在视频生成、图文联合生成等核心技术上持续攻关,AIGC内容生成在手淘多个场景已经取得了规模化落地的实际价值。这篇专题算是摸索出的部分实践经验总结。
在内容互动业务应用中,数据形式五花八门。下游应用通常需要结合多种模态输入,才能满足不同业务需求。MLLM已经在多个理解和生成任务上展现出显著优势,将其与内容互动业务结合起来,提升各方面效果,成了当务之急。
多模态语料库数据量庞大,噪声也不少。如果不加处理直接拿去训练模型,会带来两个问题:噪声数据会干扰学习过程,让模型跑偏;庞大的数据量也会严重拖慢训练速度,造成资源浪费。因此,先进行数据清洗和过滤,提高数据质量,是提升模型整体表现和训练效率的前提。
噪声样本分类
多模态数据量
现有的方案大多依赖CLIP Score、BLIP Score这类指标——它们本身来自预训练模型,而预训练模型通常是在噪声较大的数据上训练的,这很容易让错误和不匹配的情况在筛选过的数据中延续下去。针对这个问题,我们提出了一种新算法,创新性地引入人类知识来过滤高质量的图文对齐数据,构建了一个多模态reward模型。
从四个维度——准确度、完整度、细节度、背景感——来描述图像和文本的对齐性,得到人类打标的多模态偏好数据HF-dataset。具体来说,针对每个图像,需要做两件事:一是通过模型生成、人工标注等多种方式,生成不同粒度的caption;二是培训打标人员,对四个维度打分,拿到每个维度的准确分值。
受InstructGPT的启发,训练了一个奖励模型,用来学习HF-dataset数据集中的人类标注知识。这个模型相当于一个自动化的标注工具,目的是帮助对齐图像和文本之间的对应关系。具体做法是把偏好标注转化为排名,把奖励模型的训练形式化为一个成对排名问题。对于HF-dataset中的每个图像I,会有m个由人类标注者排名的文本描述x1, x2, …, xm。如果xi优于xj,就组织成一个比较对(I, xi, xj),为每个图像生成多个比较对。再遵循Bradley-Terry模型来定义成对损失函数,优化模型拉远正负比较样本。
基于这个优化函数,最终得到一个细粒度理解人类打标员偏好的reward model。
视频本质上是多模态的——听觉和视觉信息并存。这不仅是视频的固有特征,也是人类感知和互动的基本方式。举个例子,看电影时同时接触视觉信息和听觉线索,能显著丰富观影体验,提升理解力和享受度。受这种内在体验的启发,让多模态模型同时具备理解视觉和音频的能力,可以在视频理解上带来质的飞跃。
结合音视频理解的典型case
提出了一个音视频MLLM架构,协同对齐视觉和音频信号,实现充分的视频理解。关键点有两个:一是提出了一种模态增强方法,促进视频中视觉和音频信号的充分对齐;二是提出了一套高质量音视频指令数据生成方案,自动将视觉/音频-文本对构造为包含多轮对话和复杂推理的细致指令数据。
当前,音频和视频信息融合领域的指令数据还远远不够。为了解决这个问题,利用开源模型,针对视频帧和音频信号生成密集的字幕(caption),再结合GPT-4,生成音视频对齐的问答对(QA对),涵盖多轮对话、复杂推理和视频描述等内容。
基于第一部分的多模态reward模型,对生成的数据进行筛选,得到高相关性的百万级视频和图文评论数据,用于通用音视频的模态对齐。
使用音视频指令数据和偏好数据,分两阶段走:一阶段用SFT提升指令跟随能力,二阶段用RLHF对齐用户偏好。
随着业务精细化运营的需求越来越高,模型需要针对不同内容精准控制风格、字数等关键要素,这要求模型具备强大的多维度、细粒度理解和生成能力。同时,MLLM的推理成本相比传统小模型大了不少,如何在大流量场景下平衡性能和效果,也是一个绕不开的问题。
解决方案是结合多专家机制(MOE),让每个专家负责不同的关键要素,同时引入知识蒸馏技术,以“先模仿再超越”的范式,将大模型的能力迁移到MOE小模型中,提升MOE小模型的复杂理解和幻觉消除能力。
在模仿蒸馏阶段,MOE小模型先学会大模型里的复杂知识。这个过程包含两个阶段:通用知识和复杂知识,采用“general-to-specialized”的方式,引导MOE小模型逐步学习。
模仿蒸馏
MOE小模型存在比较严重的幻觉问题。通过大模型提供的关于“好”样本和“坏”样本的知识,为MOE小模型建立基础参考,提升其判断能力,使它在减少幻觉方面的能力得到大幅提升。
复杂理解能力
幻觉消除能力
在电商领域,MLLM在互动生产上已经取得了显著的阶段性成果。通过利用多种数据源和用户交互信息,MLLM在内容冷启、消费提升等方面都交出了不错的答卷。展望未来,将进一步探索如何更好地结合业务目标与用户兴趣,更精准地服务业务——比如利用用户画像及实时反馈,生成高度个性化的互动内容,切实提升用户的参与感和购买意愿。
《Off Campus》第二季官宣:这对CP还在,但不再是主角
客单价碾压宝马奥迪!极氪5月交付新车34377辆:连续4个月双增长
币安Binance虚拟货币交易平台 币安官方APP安卓苹果下载入口
HBO 奇幻剧《龙之家族》第三季定档 6 月 22 日,最终预告片曝光喉道海战
帅气继父网名女生可爱英文(精选100个)
帅到极致的网名女生霸气(精选100个)
折后价近千元 澳洲一店主将真老鼠缝到内裤上当时尚单品卖
如何在夸克浏览器中开启网页视频的倍速播放功能?
蒙古上单是什么梗
DOTA2 TI时隔七年重返上海!门票6月10日开抢,国服享受优先购买!
作家助手如何上传自制封面 作家助手如何设置小说的封面
韦一敏是什么梗
韩漫小少爷网名大全女生(精选100个)
网络热词聊污是什么意思
archiveofourown 实战指南:常见用法整理
有寓意的易经网名男生(精选100个)
欧易OKX官方网站直达入口 2026欧易官方App安卓版v7.1.0下载安装
抖音最火沙雕男生网名(精选100个)
阿里发布Qwen3.7-Max大模型,全球第五、国产第一
小众游戏抖音网名男生(精选100个)
手机号码测吉凶
本站所有软件,都由网友上传,如有侵犯你的版权,请发邮件haolingcc@hotmail.com 联系删除。 版权所有 Copyright@2012-2013 haoling.cc