扒一扒搜索引擎是如何工作的？-伙伴云

扒一扒搜索引擎是如何工作的？

网友投稿 582 2022-05-29

搜索引擎是信息检索（IR）系统的通俗叫法。虽然研究和开发人员看待IR系统的眼光更宽一些，但用户想到它们更多的是根据他们期望系统能做的功能 — 即搜索网络，或者企业内部网，或者一个数据库。

事实上用户会更喜欢一个发现引擎，而不仅仅是一个搜索引擎。

搜索引擎匹配查询到它们创建的索引上。这个索引包含每个文档的单词，和能指向文儿当地址的指针。这被叫做倒排索引文件【 inverted file】。一个搜索引擎或者IR系统包括四个基本的模块：

一个文档处理器

一个查询处理器

一个搜索和匹配功能

一个排名能力

虽然用户关注的点是“搜索”，但是搜索和匹配功能仅仅是这四个模块里的其中之一。这四个模块中的每一个都可能导致用户在使用搜索引擎时获得预期或意外的结果。

文档处理器

扒一扒搜索引擎是如何工作的？

文档处理器准备，处理和输入用户搜索的文档，页面或站点。文档处理器执行以下部分或全部步骤：

将文档流规范化为预定义格式。

将文档流分解为所需的可检索单元。

隔离和元标记每个子文档块。

标识文档中潜在的可索引元素。

删除停用词。

词根化检索词。

提取索引条目。

计算权重。

创建并更新搜索引擎搜索的主要倒排索引文件，以便将查询与文档进行匹配。

第1-3步：预处理。虽然是必不可少的步骤并且可能对影响搜索结果很重要，但前三个步骤只是简单地标准化了各种来源或者处理各种网站时遇到的多种文件格式。这些步骤用于将所

搜索引擎

工作表保护（工作表保护后看不到里面的内容）

582 2022-05-29

扒一扒 搜索引擎是如何工作的？

工作表保护（工作表保护后看不到里面的内容）

团队中，两个人用一个表格，怎么样保存不冲突，不丢失两个人填的数据

怎么导出来sheet表格名称名称（excel怎么导出sheet名称）

推荐文章

企业生产管理是什么，企业生产管理软件

进盘点进销存软件排行榜前十名

进销存系统哪个简单好用？进销存系统优点

工厂生产管理（工厂生产管理流程及制度）

生产管理软件，机械制造业生产管理，制造业生产过程管理软件

进销存软件和ERP有什么区别？进销存与erp软件理解

进销存如何进行库存管理

如何利用excel制作销售订单管理系统？

数据库订单管理系统有哪些功能？数据库订单管理系统怎么设计？

什么是数据库管理系统？

最近发表

热评文章

零代码开发是什么？2022低代码平台排行榜

智能进销存库存管理系统（智慧进销存）

在线文档哪家强？8款在线文档编辑软件推荐

WPS2016怎么绘制简单的价格表?

什么是在线文档？怎么发在线文档

Excel项目进度表模板，简化您的项目进度管理

友情链接