TensorFlow自然语言处理》—3.2.3 TF-IDF方法

网友投稿 623 2022-05-29

3.2.3 TF-IDF方法

TF-IDF是一种基于频率的方法,它考虑了单词在语料库中出现的频率。这是一种表示给定文档中特定单词的重要性的单词表示。直观地说,单词的频率越高,该单词在文档中就越重要。例如,在关于猫的文档中,单词cats会出现更多次。然而,仅仅计算频率是行不通的,因为像this和is这样的词是非常频繁的,但是它们并没有携带很多信息。TF-IDF将此考虑在内,并把这些常用单词的值置为零。

同样,TF代表词频率,IDF代表逆文档频率:

下面做个快速练习,考虑两个文件:

文件1:This is about cats. Cats are great companions.

文件2:This is about dogs. Dogs are very loyal.

现在让我们来处理一些数字:

因此,cat这个词具有丰富的信息,而this这个词不是,这是我们在衡量单词重要性方面所期望的行为。

《TensorFlow自然语言处理》—3.2.3 TF-IDF方法

TensorFlow 自然语言处理基础

版权声明:本文内容由网络用户投稿,版权归原作者所有,本站不拥有其著作权,亦不承担相应法律责任。如果您发现本站中有涉嫌抄袭或描述失实的内容,请联系我们jiasou666@gmail.com 处理,核实后本网站将在24小时内删除侵权内容。

上一篇:多线程 VS 多进程(一)
下一篇:Linux之权限管理操作
相关文章