百度RocketQA系列搜索技术论文解析（二）-伙伴云

百度RocketQA系列搜索技术论文解析（二）

网友投稿 1057 2025-04-01

PAIR论文是建立在RocketQA基础之上的，沿用了大部分RocketQA的优化方案。主要研究的问题是在dual-encoder召回模型中，如何优化pairwise损失函数，使得正负answer样本在embedding空间中产生距离，从而增强模型的区分度。

研究问题：

百度RocketQA系列搜索技术论文解析（二）

在文本相似度匹配领域中，如果两个句子非常相似，但是两个句子一个是肯定句，另一个是否定句，这个时候两个文本的相似度应该是一个非常低的值，文本相似度领域的研究者采取了很多手段达到这个效果。在文本搜索领域同样由类似的问题，如图2中所示，两个句子的描述非常相似，但是句子的主体（H1N1和H5N1）不一样，传统的模型会将这两个句子Embedding得比较相近（如图1（a）所示），这会导致模型在使用阶段，对这类文章之间区分度较低，会在一定程度上降低模型效果。

提出方案：

约束正负例的Embedding之间的距离：在传统loss的基础上，约束正负例之间的Embedding距离。但是模型没有直接对正负例的Embeding做约束，而是通过约束正例与query之间的距离与正负例之间的距离，达到加大正负例之间Embedding距离的目的。

由于Loss将正负例之间的距离与query与正例之间的距离产生了联系，模型将Dual-encoder中的query的encoder和passage的encoder做了参数共享，即query和passage在同一个Embedding空间中。

通过一个Corss-encoder Teacher Model做数据扩充：这部分跟RocketQA的做法基本一致。

两阶段训练：先使用扩充得到的伪标注数据，在Combined Loss上面进行预训练；然后在标注数据+伪标注数据上，使用传统的loss（LQ）进行训练。

实验及结论：

在MSMARCO和Natural Questions两个数据集上面达到了高于RocketQA的效果。

Reference

[1] RocketQA: An Optimized Training Approach to Dense Passage Retrieval for Open-Domain Question Answering

[2] PAIR: Leveraging Passage-Centric Similarity Relation for Improving Dense Passage Retrieval

[3] RocketQAv2: A Joint Training Method for Dense Passage Retrieval and Passage Re-ranking

AI 机器学习深度学习

ModelArts自动学习实现中秋月饼分类

1057 2025-04-01

机器学习服务提取图片的特征向量">使用SAP Leonardo上的机器学习服务提取图片的特征向量

1057 2025-04-01

AI创想秀，邂逅“华为云ModelArts”征文大赛——第一次收官

1057 2025-04-01

百度RocketQA系列搜索技术论文解析（二）

ModelArts自动学习实现中秋月饼分类

机器学习服务提取图片的特征向量">使用SAP Leonardo上的机器学习服务提取图片的特征向量

AI创想秀，邂逅“华为云ModelArts”征文大赛——第一次收官

推荐文章

企业生产管理是什么，企业生产管理软件

进盘点进销存软件排行榜前十名

进销存系统哪个简单好用？进销存系统优点

工厂生产管理（工厂生产管理流程及制度）

生产管理软件，机械制造业生产管理，制造业生产过程管理软件

进销存软件和ERP有什么区别？进销存与erp软件理解

进销存如何进行库存管理

如何利用excel制作销售订单管理系统？

数据库订单管理系统有哪些功能？数据库订单管理系统怎么设计？

什么是数据库管理系统？

最近发表

热评文章

零代码开发是什么？2022低代码平台排行榜">零代码开发是什么？2022低代码平台排行榜

进销存库存管理 系统（智慧进销存）">智能进销存库存管理系统（智慧进销存）

在线文档哪家强？8款在线文档编辑软件推荐">在线文档哪家强？8款在线文档编辑软件推荐

WPS2016怎么绘制简单的价格表?

家居定制平台是什么？">家居定制平台是什么？

客户管理工具是什么？">客户管理工具是什么？

友情链接

百度RocketQA系列搜索技术论文解析（二）

微信扫一扫：分享

机器学习服务提取图片的特征向量">使用SAP Leonardo上的机器学习服务提取图片的特征向量

推荐文章

最近发表

热评文章

零代码开发是什么？2022低代码平台排行榜">零代码开发是什么？2022低代码平台排行榜

进销存库存管理系统（智慧进销存）">智能进销存库存管理系统（智慧进销存）

在线文档哪家强？8款在线文档编辑软件推荐">在线文档哪家强？8款在线文档编辑软件推荐

家居定制平台是什么？">家居定制平台是什么？

客户管理工具是什么？">客户管理工具是什么？

友情链接