来源:互联网 更新时间:2026-06-29 13:54
先抛几个核心判断。小红书的推荐系统,一直是个技术含量非常高的领域。过去我们聊推荐,大多讨论的是召回、粗排、精排这一套标准流程。但最近,他们的团队放出了一篇有意思的论文,把生成式AI的思路直接用到排序环节了,搞了个叫GenRank的新框架。这事儿看似是在讲模型结构,实际上涉及的是整个推荐范式的底层逻辑变迁。
先简单过一下背景。为了保证效率,工业级推荐系统通常走的是一个多阶段管道:先召回,从几十亿个item里捞几万个候选;然后粗排,过滤到几百个;精排模型再打一次分;最后策略层再做一轮调整——微调顺序、加一些商业规则,最终推到用户面前。整个过程像一个漏斗,越往后对精度的要求越高。
这篇论文重点研究的,正是最后那个排序环节。目标是做两件事:预估用户会不会点击,或者会不会停留足够长时间。训练数据来自小红书信息流,采集了15天内的数百亿条曝光日志。
特征的处理方法也清楚。有三类输入:
按照行业惯例,数值特征会先按预定义好的区间离散化成分类特征,分类特征通过嵌入表转成稠密向量。那些预训练产出的frozen embedding,相当于提供的先验知识辅助信息。有一个数据值得留意:在小红书的千亿级feed场景下,离线AUC提升0.0010就已经算显著了——这通常在线上意味着数亿用户的整体指标能涨0.5%。这个精度要求,足以说明工程的难度。
常规推荐系统,核心是从用户历史行为中学会提取特征交互模式。生成式推荐不一样的地方在于,它把排序问题重新定义为序列转换任务。这就带来两个显著差异:一个是序列怎么交互(自回归),一个是训练样本怎么组织。
先说自回归的问题。HSTU(一种已有的生成式排序模型)只在对候选物品的位置计算损失,用户历史行为的位置是没有损失的。这种做法本质上就是监督式微调:用户信息和候选物品直接当prompt输入。
有个问题就来了。团队分析说,现代LLM在监督微调时采用自回归方式,是为了保留预训练期间获得的能力。但生成式排序压根没有预训练阶段。那自回归方式在这个场景下是不是真的必要?
为了验证,他们做了两组实验。第一组实验是把历史行为的位置也加入损失计算。结果AUC直接下跌超过0.0100。团队把这归因于"one epoch"问题:模型从稀疏特征中学到了错误的模式。第二组实验把历史位置的因果掩码换成完全可见掩码——效果类似T5模型,最大化了prompt内部的特征交互。但这个操作让AUC下降了超过0.0015,而且模型越大,跌得越狠。
结论很明确:自回归方式对生成式排序的关键性是实锤的。
再来看样本组织方式。常规做法是pointwise的每个训练样本对应一条曝光日志。生成式排序不同,它会把用户在时间上相邻的多个行为组合成一个训练样本。这么做的理论收益有两个:
不过实证结果挺有意思。如果换成逐点顺序训练生成式推荐器,只是模拟常规的分组训练,结果AUC只有轻微下降。也就是说,生成式推荐的有效性主要还是来自模型架构本身,不是样本组织方式。这才是真正值得关注的重心。
进一步,团队对比了不同模块在两种范式下的表现。像SIM、PPNet、PLE这些模块,在两个范式里效果改善幅度基本持平——说明这些模块与生成式范式是兼容的。比较意外的是,内容embedding在生成式范式下的AUC提升,是传统范式的两倍以上。核心原因在于,内容embedding的训练方式和下游任务之间的架构一脉相承,能力被完整释放了。
特征工程方面也有发现。HSTU曾主张删除大部分人工特征,因为生成式推荐可以自己学出统计模式。但实验表明,绝大多数普通特征确实边际收益极低,可有一些实时统计特征——特别是基于时间窗口的——效果依然非常突出。推测这些特征给模型提供了直接信号,让生成式架构学起复杂模式来更顺手。
传统的序列推荐模型,大多以单个物品作为基本单位,业内叫item导向架构。HSTU在这条路上走得更远,把action标记也作为序列的一个额外模态,在同一序列里交错学物品和action。这样做的好处是检索和排序可以在统一框架里完成,但代价也大:序列长度直接翻倍,推理开销急剧增加。
GenRank给出的解法很巧妙:把物品的位置属性凸现出来,然后专注预测和每个物品相关的action——这就是action导向组织。action序列成了生成的基本单位,item只作为上下文信号参与指导生成过程。工程量不在一个量级:注意力机制的输入序列长度节省了一半,注意力计算成本削减75%,线性投影成本削减50%。
具体实现也不复杂。对用户历史序列的每个位置,token embedding等于物品emb和action emb的向量和。预测目标是用户对下一个候选物品的动作。候选物品的token emb由一个掩码action embedding加上物品emb得到,这样不同候选物品之间就不会卷到一起——图3右侧那个候选mask起的就是这个作用。
HSTU用了可学习的相对注意力bias来编码位置和时间信息。效果当然好,但代价是计算瓶颈严重:注意力bias的I/O操作随序列长度呈二次方飙升。上下文窗口一旦拉大,开销就开始失控了。
GenRank为此搞了一套新方案,只要求线性的I/O操作。具体三部分组成:
这套设计的核心优点是引入最小的训练开销,却能保留位置和时间信息。最终输入到后续网络的内容,是以上几部分的加和。
这套嵌入有一个天然短板:位置和时间之间的交互有限。解决之道是引入ALiBi作为注意力机制中的相对位置与时间偏差。ALiBi的优势有两个:
这两项改进,让GenRank在训练期间比HSTU实现了94.8%的总加速。最妙的是,加速的同时测试集AUC还有小幅提升。
在线A/B测试是在小红书feed流里进行的,分配了10%的流量,持续15天。结果显示,GenRank在冷启动物品上的改进尤其显著——这其实很好理解,生成式范式对新物品的接纳能力确实更强。相比线上baseline模型,GenRank的训练成本虽然略高,但推理和存储成本反而更低。还有一个对实时系统极具价值的数据:P99响应时间比线上模型优化了超过25%。
archiveofourown 实战指南:常见用法整理
币安Binance虚拟货币交易平台 币安官方APP安卓苹果下载入口
HBO 奇幻剧《龙之家族》第三季定档 6 月 22 日,最终预告片曝光喉道海战
客单价碾压宝马奥迪!极氪5月交付新车34377辆:连续4个月双增长
折后价近千元 澳洲一店主将真老鼠缝到内裤上当时尚单品卖
电视剧《小欢喜》剧情介绍
如何在夸克浏览器中开启网页视频的倍速播放功能?
作家助手如何上传自制封面 作家助手如何设置小说的封面
植物娘大战僵尸电脑端与手机端存档转移的方法
《梦幻西游》159五开五门怎么搭配-159五开五门常见搭配
美好的简约网名男生(精选100个)
欧易OKX官方网站直达入口 2026欧易官方App安卓版v7.1.0下载安装
有寓意的易经网名男生(精选100个)
腾讯元宝怎么用来分析股票基金的基本面信息?
SpaceX狂揽AI人才,马斯克亲自面试且不看简历背景
独家/李宰旭入伍前「登上孤岛服役」 惊见前辈裸体:忍不住笑了
国际贵金属走低,现货黄金价格跌0.49%
《金铲铲之战》高校赛夏季赛总决赛观赛指南来袭 还有铲铲教学一同献上
动漫《情色漫画老师OVA》剧情介绍
wallpaper壁纸声音怎么开启
手机号码测吉凶
本站所有软件,都由网友上传,如有侵犯你的版权,请发邮件haolingcc@hotmail.com 联系删除。 版权所有 Copyright@2012-2013 haoling.cc