CountVectorizer与TfidfVectorizer的区别

网友投稿 999 2022-05-30

countVectorizer+TfidfTransformer组合使用

CountVectorizer会将文本中的词语转换为词频矩阵,它通过fit_transform函数计算各个词语出现的次数,通过get_feature_names()可获得所有文本的关键词,通过toarray()可看到词频矩阵的结果。

TfidfTransformer用于统计vectorizer中每个词语的TFIDF值。

TfidfVectorizer

将原始文档的集合转化为tf-idf特性的矩阵,相当于CountVectorizer配合TfidfTransformer使用的效果。

即TfidfVectorizer类将CountVectorizer和TfidfTransformer类封装在一起。

导入包:

from skleran.feature_extraction.text import CountVectorizer, TfidfTransformer

CountVectorizer与TfidfVectorizer的区别

from sklearn.feature_extraction.text import TfidfVectorizer

版权声明:本文内容由网络用户投稿,版权归原作者所有,本站不拥有其著作权,亦不承担相应法律责任。如果您发现本站中有涉嫌抄袭或描述失实的内容,请联系我们jiasou666@gmail.com 处理,核实后本网站将在24小时内删除侵权内容。

上一篇:django 使用simpleui
下一篇:SpringCloud-Zuul服务网关[介绍及入门案例]
相关文章