Python编程：通过交集并集计算文档相似度-伙伴云

网友投稿 855 2022-05-29

分词函数

def split_word(document): """ 分词，去除停用词 """ stop_words = {":", "的", "，", "”"} text = [] for word in jieba.cut(document): if word not in stop_words: text.append(word) return text

通过交集并集计算文档相似度

from itertools import combinations documents = [ "窝趣公寓完成近2亿元B轮融资主打品质和轻松社交的居住环境", "IBM的区块链副总裁JesseLund:比特币将达到100万美元", "窝趣公寓完成近2亿元B轮融资" ] # 计算两两组合的相似度 for doc1, doc2 in combinations(documents, 2): words1 = split_word(doc1) words2 = split_word(doc2) words1_set = set(words1) words2_set = set(words2) similar12 = len(words1_set & words2_set) / len(words1_set | words2_set) print("{:.2f}".format(similar12), doc1, doc2)

计算结果

0.00 窝趣公寓完成近2亿元B轮融资主打品质和轻松社交的居住环境 IBM的区块链副总裁JesseLund:比特币将达到100万美元 0.53 窝趣公寓完成近2亿元B轮融资主打品质和轻松社交的居住环境窝趣公寓完成近2亿元B轮融资 0.00 IBM的区块链副总裁JesseLund:比特币将达到100万美元窝趣公寓完成近2亿元B轮融资

Python 区块链

多表格合并一起

855 2022-05-29

办公 自动化(三) | 借助服务器定时爬数据发邮件">python办公 自动化(三) | 借助服务器定时爬数据发邮件

855 2022-05-29

Python3 网络爬虫开发实战] 1.4.3-Redis 的安装">[Python3 网络爬虫开发实战] 1.4.3-Redis 的安装

855 2022-05-29

Python 编程：通过 交集并集计算文档相似度

多表格合并一起

办公 自动化(三) | 借助服务器定时爬数据发邮件">python办公 自动化(三) | 借助服务器定时爬数据发邮件

Python3 网络爬虫开发实战] 1.4.3-Redis 的安装">[Python3 网络爬虫开发实战] 1.4.3-Redis 的安装

推荐文章

企业生产管理是什么，企业生产管理软件

进盘点进销存软件排行榜前十名

进销存系统哪个简单好用？进销存系统优点

工厂生产管理（工厂生产管理流程及制度）

生产管理软件，机械制造业生产管理，制造业生产过程管理软件

进销存软件和ERP有什么区别？进销存与erp软件理解

进销存如何进行库存管理

如何利用excel制作销售订单管理系统？

数据库订单管理系统有哪些功能？数据库订单管理系统怎么设计？

什么是数据库管理系统？

最近发表

热评文章

零代码开发是什么？2022低代码平台排行榜">零代码开发是什么？2022低代码平台排行榜

进销存库存管理 系统（智慧进销存）">智能进销存库存管理系统（智慧进销存）

在线文档哪家强？8款在线文档编辑软件推荐">在线文档哪家强？8款在线文档编辑软件推荐

WPS2016怎么绘制简单的价格表?

Excel项目进度表模板，简化您的项目进度管理">Excel项目进度表模板，简化您的项目进度管理

客户管理工具是什么？">客户管理工具是什么？

友情链接

Python编程：通过交集并集计算文档相似度

微信扫一扫：分享

办公自动化(三) | 借助服务器定时爬数据发邮件">python办公自动化(三) | 借助服务器定时爬数据发邮件

Python3 网络爬虫开发实战] 1.4.3-Redis 的安装">[Python3 网络爬虫开发实战] 1.4.3-Redis 的安装

推荐文章

最近发表

热评文章

零代码开发是什么？2022低代码平台排行榜">零代码开发是什么？2022低代码平台排行榜

进销存库存管理系统（智慧进销存）">智能进销存库存管理系统（智慧进销存）

在线文档哪家强？8款在线文档编辑软件推荐">在线文档哪家强？8款在线文档编辑软件推荐

Excel项目进度表模板，简化您的项目进度管理">Excel项目进度表模板，简化您的项目进度管理

客户管理工具是什么？">客户管理工具是什么？

友情链接

Python 编程：通过交集并集计算文档相似度