爬虫基础知识-伙伴云

爬虫基础知识

网友投稿 700 2022-05-30

网络爬虫（又被称作网络蜘蛛，网络机器人，网页追逐者），可以按照一定的规则（网络爬虫的算法）自动浏览或抓取网络中的信息，利用python可以很轻松的编写爬虫程序或者脚本。

@TOC

了解web前端

HTTP(HpperText Transfer Protocol),即超文本传输协议，是互联网上应用广泛的一种网络协议。HTTP是利用TCP在Web服务器和客户端之间传输信息的协议，客户端使用Web浏览器发起HTTP请求给Web服务器，Web服务器发送被请求的信息给客户端。

==HTTP协议常用的请求方法==

==HTTP状态码及其含义==

例如：状态码200，表示请求成功完成，状态码404，表示服务器找不到给定的资源。

浏览器中的请求与响应

例如使用谷歌浏览器访问百度官网，查看请求和响应的具体步骤如下：

==1==在谷歌浏览器输入网址进入百度官网

==2==按下F12键（或单击鼠标右键选择”检查“选项），审查页面元素

==3==单击谷歌浏览器调试工具中“Network”选项，按下F5 键（或手动刷新页面），单击调试工具中的“Name”栏目下的网址，查看请求与响应信息。

==Geral概述关键信息如下==

Request URL:请求的URL网址，也就是服务器的URL网址

Request Method:请求方式为==GET==

Status Code:状态码为==200==,即成功返回响应。

Remote Address :服务器IP地址是==39.156.66.14:443==，端口号是==80==

请求模块urllib

urllib是python自带模块，该模块提供了一个urlopen()的方法，通过该方法指定URL发送网络请求来获取数据，urllib提供了多个子模块，如下图所示

在使用urlopen()方法实现一个网络请求时，所返回的是一个“”对象

重构user_agent

User-Agent(简称UA)，记录了操作系统的信息和浏览器的信息

以www.baidu.com为例演示

当不重构ua时，直接访问网址，只会返回百度的部分源码，因为百度识别出来我们是爬虫

爬虫基础知识

这时就需要重构ua,伪装自己是浏览器发起请求

查看浏览器ua的方法：按F12键打开Network，在request headers里面就可以看到浏览器的ua.

创建具有请求头信息的Request对象，然后使用urlopen()方法向“百度”地址发送一个GET请求，利用字典添加请求头信息最常用的用法就是修改User-Agent来伪装浏览器，例如

headers = {“user-agent”: “Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/96.0.4664.45 Safari/537.36”

}表示伪装成谷歌浏览器进行网络请求，可以获取百度的全部源代码

以上就是爬虫基础知识，如果有改进的建议，欢迎在评论区留言奥~

觉得不错的话三连支持一下~

HTTP Python 网络

人工智能操作系统的相关说明（机器人控制系统需使用实时操作系统）

700 2022-05-30

爬虫基础知识

人工智能操作系统的相关说明（机器人控制系统需使用实时操作系统）

为什么电脑打不开word文档（为什么电脑打不开word文档可以打开表格）

删除的表格怎么恢复数据（删除的表格怎么恢复数据回收站也空了）

推荐文章

企业生产管理是什么，企业生产管理软件

进盘点进销存软件排行榜前十名

进销存系统哪个简单好用？进销存系统优点

工厂生产管理（工厂生产管理流程及制度）

生产管理软件，机械制造业生产管理，制造业生产过程管理软件

进销存软件和ERP有什么区别？进销存与erp软件理解

进销存如何进行库存管理

如何利用excel制作销售订单管理系统？

数据库订单管理系统有哪些功能？数据库订单管理系统怎么设计？

什么是数据库管理系统？

最近发表

热评文章

零代码开发是什么？2022低代码平台排行榜

智能进销存库存管理系统（智慧进销存）

在线文档哪家强？8款在线文档编辑软件推荐

WPS2016怎么绘制简单的价格表?

什么是在线文档？怎么发在线文档

家居定制平台是什么？

友情链接

爬虫基础知识

微信扫一扫：分享

推荐文章

最近发表

热评文章

友情链接