来源:互联网 更新时间:2026-06-10 14:13
先说个背景。在智联招聘这个平台上,求职者和招聘者之间,到底怎么才能高效匹配,这事儿一直是个核心命题。招聘者发布职位,想找到合适的人;求职者上传简历,希望找到心仪的坑。在这么复杂的场景里,我们的目标很明确:给双方提供最精准的匹配结果。具体到搜索推荐场景,候选人或职位列表会经历召回、粗排、精排、重排一连串的筛选,从亿级候选集中挑出最合适的那些简历或职位来展示。在召回阶段,除了传统的规则召回,我们还引入了向量召回。这次重点聊的,就是其中一种向量召回方式:用职位去召回简历,也就是JD2CV。为了方便,下文就把职位简称为JD,简历简称为CV。
正样本很简单,直接从系统日志里拿那些有正向交互的JD-CV对。负样本则分三块:一部分是batch内的负采样,另一部分来自全库的随机负采样——全库采样能更好地模拟实际的召回场景。还有一部分,是根据业务规则挑出来的hard负样本,用来提升模型训练效果。
我们采用的是双塔模型,一个塔处理JD的文本信息,另一个塔处理CV的,各自映射成一个低维向量。然后通过计算向量间的相似度,用对比学习的损失函数来优化,让相关的JD和CV向量挨得更近,不相关的离得更远。实践证明,这种方式能有效提高匹配精度。
第一种评估方式,是用模型去预测给定的正负样本对,然后算AUC和JD维度的GAUC。但这种方法受限于有限的样本集,很难全面反映召回模型在真实场景下的表现。为了得到更接近线上环境的结果,我们换了一套评估方案,分两步走:先实际执行一次召回操作,再对召回结果做详细评估。
为了支撑这个流程,我们调研了好几款向量数据库,最后选了Milvus。原因有三个:
在评估召回结果时,我们用了两种方法:
我们用Milvus官方提供的docker-compose方式部署了2.4.5版本。评估时采了百万级别的CV数据,单节点部署完全够用。同时部署了管控平台Attu,方便加载、删除数据集合,修改索引类型,以及进行向量搜索等操作。为了方便数据导入和召回测试,还开发了相应的接口,让评估流程更自动、更便捷。
数据准备方面,基于线上JD的流量分布情况,按城市粒度采样了一些JD数据,用模型生成对应的JD向量。然后对采样城市的全量CV做向量生成,通过写入接口存入Milvus。为了确保评估准确性,索引类型选的是FLAT,保证能100%召回相关数据。
召回过程就是通过JD编号,从JD集合里查出对应的JD向量,再用这个向量从CV集合中召回最相似的topK CV,相似度用内积来度量,最终得到一组JD-CV匹配对。
评估环节,前面已经提到,一方面是体感标注,另一方面是根据正向行为记录构建正例集,算召回率、精准率这些指标,最终对模型做综合评估。
使用Milvus过程中也遇到了一些问题:
必须承认,Milvus确实是一款功能强大、易部署的向量数据库。它帮我们优化了召回评估流程,节省了不少时间成本,也为模型上线前提供了更充分的评估依据。未来,我们还会继续探索更多应用场景,进一步挖掘Milvus的潜力,用它的丰富功能提升业务召回效率和准确性。
下饭影视APP下载安装指南
和平精英如何做到压枪稳-和平精英怎样才能压枪稳
《Off Campus》第二季官宣:这对CP还在,但不再是主角
下载浏览器app下载安装选择推荐
免费影视剧APP推荐
儿子穿新中式现身大会堂 马斯克罕见用中文回应:他正在学习普通话
Elysium Above 履云录官网在哪下载 最新官方下载安装地址
抖音最火沙雕男生网名(精选100个)
阿里发布Qwen3.7-Max大模型,全球第五、国产第一
网络热词聊污是什么意思
名单曝光!库克、马斯克等将随团到访中国 黄仁勋不在其中
短剧《情绪超市》剧情介绍
短视频软件推荐
洛克王国世界S2赛季狂欢怪谈介绍
免费看电影的软件推荐
SpaceX狂揽AI人才,马斯克亲自面试且不看简历背景
HBO 奇幻剧《龙之家族》第三季定档 6 月 22 日,最终预告片曝光喉道海战
KuCoin基本面分析
金铲铲之战s17六暗星卡莎阵容玩法构筑指南
苹果macOS 27将优化界面设计并测试AI驱动的Safari标签页自动分组功能
手机号码测吉凶
本站所有软件,都由网友上传,如有侵犯你的版权,请发邮件haolingcc@hotmail.com 联系删除。 版权所有 Copyright@2012-2013 haoling.cc