爬虫基础知识

网友投稿 576 2022-05-30

网络爬虫(又被称作网络蜘蛛,网络机器人,网页追逐者),可以按照一定的规则(网络爬虫的算法)自动浏览或抓取网络中的信息,利用python可以很轻松的编写爬虫程序或者脚本。

@TOC

了解web前端

HTTP基本原理

HTTP(HpperText Transfer Protocol),即超文本传输协议,是互联网上应用广泛的一种网络协议。HTTP是利用TCP在Web服务器和客户端之间传输信息的协议,客户端使用Web浏览器发起HTTP请求给Web服务器,Web服务器发送被请求的信息给客户端。

==HTTP协议常用的请求方法==

==HTTP状态码及其含义==

例如:状态码200,表示请求成功完成,状态码404,表示服务器找不到给定的资源。

浏览器中的请求与响应

例如使用谷歌浏览器访问百度官网,查看请求和响应的具体步骤如下:

==1==在谷歌浏览器输入网址进入百度官网

==2==按下F12键(或单击鼠标右键选择”检查“选项),审查页面元素

==3==单击谷歌浏览器调试工具中“Network”选项,按下F5 键(或手动刷新页面),单击调试工具中的“Name”栏目下的网址,查看请求与响应信息。

==Geral概述关键信息如下==

Request URL:请求的URL网址,也就是服务器的URL网址

Request Method:请求方式为==GET==

Status Code:状态码为==200==,即成功返回响应。

爬虫基础知识

Remote Address :服务器IP地址是==39.156.66.14:443==,端口号是==80==

请求模块urllib

urllib是python自带模块,该模块提供了一个urlopen()的方法,通过该方法指定URL发送网络请求来获取数据,urllib提供了多个子模块,如下图所示

在使用urlopen()方法实现一个网络请求时,所返回的是一个“”对象

重构user_agent

User-Agent(简称UA),记录了操作系统的信息和浏览器的信息

以www.baidu.com为例演示

当不重构ua时,直接访问网址,只会返回百度的部分源码,因为百度识别出来我们是爬虫

这时就需要重构ua,伪装自己是浏览器发起请求

查看浏览器ua的方法:按F12键打开Network,在request headers里面就可以看到浏览器的ua.

创建具有请求头信息的Request对象,然后使用urlopen()方法向“百度”地址发送一个GET请求,利用字典添加请求头信息最常用的用法就是修改User-Agent来伪装浏览器,例如

headers = {“user-agent”: “Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/96.0.4664.45 Safari/537.36”

}表示伪装成谷歌浏览器进行网络请求,可以获取百度的全部源代码

以上就是爬虫基础知识,如果有改进的建议,欢迎在评论区留言奥~

觉得不错的话三连支持一下~

HTTP Python 网络

版权声明:本文内容由网络用户投稿,版权归原作者所有,本站不拥有其著作权,亦不承担相应法律责任。如果您发现本站中有涉嫌抄袭或描述失实的内容,请联系我们jiasou666@gmail.com 处理,核实后本网站将在24小时内删除侵权内容。

上一篇:如何在 Go 代码中运行 C 语言代码
下一篇:gin-validator参数校验
相关文章