hadoop学习-倒排索引

网友投稿 656 2022-05-29

倒排索引是文档搜索系统中常用的数据结构。它主要用来存储某个词组在一个或多个文档中的位置映射。通常情况下,倒排索引由词组以及相关的文档列表组成。如下表所示。

hadoop学习-倒排索引

表1:

单词      文档列表

从表1可以看出单词1出现在{文档1,文档2,文档3},单词2出现在{文档2,文档4,文档5},单词3出现在{文档3,文档5,文档6}。

实际使用中还需要给文档添加一个权值,用来表示该词组与文档的相关性。如表2所示。

表2:

单词     文档列表

Hadoop

版权声明:本文内容由网络用户投稿,版权归原作者所有,本站不拥有其著作权,亦不承担相应法律责任。如果您发现本站中有涉嫌抄袭或描述失实的内容,请联系我们jiasou666@gmail.com 处理,核实后本网站将在24小时内删除侵权内容。

上一篇:Mysql锁专题:InnoDB锁概述
下一篇:关于Docker你不知道的那些事之Docker容器数据卷
相关文章