Python编程通过交集并集计算文档相似度

网友投稿 616 2022-05-29

分词函数

def split_word(document): """ 分词,去除停用词 """ stop_words = {":", "的", ",", "”"} text = [] for word in jieba.cut(document): if word not in stop_words: text.append(word) return text

1

2

3

4

5

6

7

8

9

10

11

通过交集并集计算文档相似度

from itertools import combinations documents = [ "窝趣公寓完成近2亿元B轮融资主打品质和轻松社交的居住环境", "IBM的区块链副总裁JesseLund:比特币将达到100万美元", "窝趣公寓完成近2亿元B轮融资" ] # 计算两两组合的相似度 for doc1, doc2 in combinations(documents, 2): words1 = split_word(doc1) words2 = split_word(doc2) words1_set = set(words1) words2_set = set(words2) similar12 = len(words1_set & words2_set) / len(words1_set | words2_set) print("{:.2f}".format(similar12), doc1, doc2)

1

2

3

4

5

6

7

8

9

10

11

12

13

14

15

Python编程:通过交集并集计算文档相似度

16

17

18

19

计算结果

0.00 窝趣公寓完成近2亿元B轮融资主打品质和轻松社交的居住环境 IBM的区块链副总裁JesseLund:比特币将达到100万美元 0.53 窝趣公寓完成近2亿元B轮融资主打品质和轻松社交的居住环境 窝趣公寓完成近2亿元B轮融资 0.00 IBM的区块链副总裁JesseLund:比特币将达到100万美元 窝趣公寓完成近2亿元B轮融资

1

2

3

Python 区块链

版权声明:本文内容由网络用户投稿,版权归原作者所有,本站不拥有其著作权,亦不承担相应法律责任。如果您发现本站中有涉嫌抄袭或描述失实的内容,请联系我们jiasou666@gmail.com 处理,核实后本网站将在24小时内删除侵权内容。

上一篇:WEB开发-HTML入门学习总结
下一篇:《信息化项目文档模板十——系统用户操作手册模板》
相关文章