从搜索引擎原理，识别鸡汤文的“诡辩”-伙伴云

网友投稿 736 2022-05-29

余晟以为

我是这么以为的，当然你也可以那么以为

本文转载自公众号余晟以为

因为早年做过相关的开发，我大致了解搜索引擎的基本原理。不过这些年来我发现，这种原理完全可以用在其它地方，比如识别信息质量，比如识破诡辩术。

搜索引擎要解决的核心问题是，如何在浩如烟海的文档中，找出来用户最关心的那部分。换句话说，当用户希望了解某个话题或事物时，如何识别出对他/她最有价值，最让他/她感兴趣的那些资料（这里不讨论竞价排名）。为此，无数的科学家、工程师、程序员都做了大量的工作，才有了现在大家觉得“理所当然”的搜索引擎。

最近几年，网络上的信息越来越多，不同意见也越来越多样化。那么如何找到真正靠谱的、有价值的信息，如何识破各种诡辩？这已经成了人人都要面对的一个问题。其实，这个问题也是可以从搜索引擎中得到启发的。

不要以为这“原理”相当深奥，普通人只需要知道“最基本最简单”的TF-IDF，就能理清很多东西了。

TF，即Term Frequency，指一个“语词”（term，也可以简单理解为“单词”，WTO、感冒、华为都是“语词”）在文档（document，也可以理解为“文章”，对应到搜索结果中的一条）中出现的频率。

通常，在判断文档相关性时，TF与结果正相关（未必是“成正比”）。这个道理也不难理解，如果有两篇篇幅类似的文章，一篇“华为”出现了10次，一篇“华为”只出现了2次，那么我们可以推断，前者与“华为”的关系更密切，用户在搜索“华为”时，前者应当出现在更靠前的位置。

IDF，即Inverse Doc Frequency，有中文翻译为“逆向文件频率”，理解起来稍微麻烦一点：文档总数与包含该语词的文档数目的比值。有许多人相当认为这是个“含量”，所以比值应当小于1，这是把分子和分母搞反了，也是“逆向”的意思所在。

通常，在判断文档相关性时，IDF也与结果正相关（未必是“成正比”），而且弥补了TF的片面性。如果单纯以TF来考察相关性，比如“的”这个字是各种文章中出现频率都极高的，其TF相当高，但不能用来说明信息质量。因为其IDF很低，接近于1（注意IDF是“倒过来算的”，所以如果只有1/10的文档中出现了了这个语词，其IDF是10）。

再比如，如果某个资料库都是关于中国的，其中包含了政治、军事、经济、文化各种主题的许多资料。那么可以肯定，基本每篇资料都包含“中国”这个语词，而包含“国防”的资料只占其中的一部分。显然，“国防”比“中国”更容易区分出相关的资料，在搜索时也更容易找到对应的结果。对应的，“国防”的IDF值显然远高于“中国”。

好了，技术内容就谈到这里。简单说，以特定语词搜索时，文档中特定语词出现“密度”越高，文档和语词的关联度就越高；该语词的“普适性”越低，筛选出高质量文档的几率就越高。

下面可以引申开来：如果我们要做的不是搜索，而是讨论某个主题，获得相关的信息，并判断信息的靠谱程度，是否可以从TF-IDF中得到一些启发？

答案应当是肯定的。

如果某篇文章“看起来”是关于某个主题的，那么这篇文章毫无疑问应当紧扣这个主题。倘若内文其实并没有太多紧扣主题的论述和分析，那么借鉴TF的思想，这篇文章的参考价值相当有限。

这真是“暖风熏得游人醉，直把杭州作汴州”，但是怎么避免呢？其实很好办，就是清醒认识，抵御各种“暖风”——在阅读时不要被各种段子、故事、表情包、配图给熏醉了，时刻记住主题。

还有一些主张、论断，它们听起来铿锵有力，但借鉴IDF的思想就会知道，如果这些主张、论断对于任何主题都可以适用，那么从IDF的角度来看，其信息价值是相当有限的。

姜昆和李文华曾经说过一段深受大家喜爱的相声《如此照相》，讽刺的是特殊年代里生活中做任何事情都要先背诵一句语录的现象。凡事都要“背语录”，那么它就好像上文提到的每篇文章中的“的”字，或者关于中国的资料库里的“中国”一样，区分度很低，无法证明其有效性。事实证明，广大人民群众不背语录，照样不影响正常生活。

当然，这种“IDF极低”的现象还有很多，比如网络上的“杠精”常用的诘问也是如此。使用这些“万精油”式诘问，对知识储备、逻辑思维等等没有任何要求，随时可以祭出：你怎么知道你知道的就是真的？你以为就你看得多，多看了点东西就了不起？没有什么是绝对的好事，没有谁是圣人，一切都要辩证地看……

如果我们从信息价值的角度来分析，就会发现这些诘问其实也没什么信息质量也提供不了什么信息价值。

没有人能确认自己知道的绝对“就是真的”，重要的是在比较甄别中接近客观真相。如果既不能找出对方论述中的重要错误，也不能提供信息含量更高的信息，那么“你怎么知道你知道的就是真的？”本身是没有意义的。

在讨论问题时，“看得多”和“了不起”是没有关联的。如果对问题背景有充分的了解，对问题领域有持续的关注，那多半是比其他人“看得多”。如果认可判断的依据是信息和知识，自然的结论就是，多看点之后下的判断往往更靠谱。所以与其反问“多看了点东西就了不起”，不如自己多读多看，多提供一点有价值的信息出来。

事和人确实都没有绝对的好坏，但这不意味着我们无法对事和人作出确切的判断。如果大家的判断不一致，应当摆出事实来，进行细致（最好是可以量化）的分析。一个人做了件好事造福了一百万人，不能简单拿“它也损害了三五个人”来否定，一个做了一万件好事的人，也不能简单用“他也做过两三件坏事”来否定。

同样道理，一个人或一个国家做事可能出于利益考虑，也可能出于道德考虑。真正有意义的讨论必然是具体而具体的，做这件事是出于道德考虑还是利益考虑？或者二者兼而有之，但其中哪种因素更重要？如果当时确实是出于道德考虑，或者更多出于道德考虑，那么通过简单的“没有谁是圣人”或者“没有国家讲道德”得出粗陋的结论，只会扰乱认知，把讨论变成口舌之争。

最后需要注明的是，上面的论述都是从基于“信息质量”，而不是基于“热闹”或者“话题性”而展开的。世界很大，大家看中的因素各不相同。有些人在乎的就是热闹，而不在乎信息质量，这本身无可厚非，说清楚即可。

而且在这个时代，如果你注重提升自己的信息质量，或多或少会有一些副作用，要放弃一些热闹的话题，甚至伤了某些人的面子。不过冷静下来想想，坚持做下来的话，收获还是比付出要多，总的来说还是划算的，对吧？

本文转载自公众号【程序员小灰】

搜索引擎

【愚公系列】2022年02月 Django商城项目 26-搜索引擎功能实现

736 2022-05-29

识别 名字算数值（wps 名字一样的数值直接汇总）">wps如何识别 名字算数值（wps 名字一样的数值直接汇总）

736 2022-05-29

身份证 识别男女（表格怎么识别身份证男女）">表格如何用身份证 识别男女（表格怎么识别身份证男女）

736 2022-05-29

从搜索引擎原理，识别 鸡汤文的“诡辩”

【愚公系列】2022年02月 Django商城项目 26-搜索引擎功能实现

识别 名字算数值（wps 名字一样的数值直接汇总）">wps如何识别 名字算数值（wps 名字一样的数值直接汇总）

身份证 识别男女（表格怎么识别身份证男女）">表格如何用身份证 识别男女（表格怎么识别身份证男女）

推荐文章

企业生产管理是什么，企业生产管理软件

进盘点进销存软件排行榜前十名

进销存系统哪个简单好用？进销存系统优点

工厂生产管理（工厂生产管理流程及制度）

生产管理软件，机械制造业生产管理，制造业生产过程管理软件

进销存软件和ERP有什么区别？进销存与erp软件理解

进销存如何进行库存管理

如何利用excel制作销售订单管理系统？

数据库订单管理系统有哪些功能？数据库订单管理系统怎么设计？

什么是数据库管理系统？

最近发表

热评文章

零代码开发是什么？2022低代码平台排行榜">零代码开发是什么？2022低代码平台排行榜

进销存库存管理 系统（智慧进销存）">智能进销存库存管理系统（智慧进销存）

在线文档哪家强？8款在线文档编辑软件推荐">在线文档哪家强？8款在线文档编辑软件推荐

WPS2016怎么绘制简单的价格表?

什么是在线文档？怎么发在线文档

系统的功能有哪些？餐饮服务系统的构成及工作程序">连锁餐饮管理系统的功能有哪些？餐饮服务系统的构成及工

友情链接

从搜索引擎原理，识别鸡汤文的“诡辩”

微信扫一扫：分享

识别名字算数值（wps 名字一样的数值 直接汇总）">wps如何识别名字算数值（wps 名字一样的数值 直接汇总）

身份证识别男女（表格怎么识别身份证男女）">表格如何用身份证识别男女（表格怎么识别身份证男女）

推荐文章

最近发表

热评文章

零代码开发是什么？2022低代码平台排行榜">零代码开发是什么？2022低代码平台排行榜

进销存库存管理系统（智慧进销存）">智能进销存库存管理系统（智慧进销存）

在线文档哪家强？8款在线文档编辑软件推荐">在线文档哪家强？8款在线文档编辑软件推荐

系统的功能有哪些？餐饮服务系统的构成及工作程序">连锁餐饮管理系统的功能有哪些？餐饮服务系统的构成及工

友情链接

识别名字算数值（wps 名字一样的数值直接汇总）">wps如何识别名字算数值（wps 名字一样的数值直接汇总）