爬虫系列：连接网站与解析 HTML-伙伴云

网友投稿 615 2022-05-30

这篇文章是爬虫系列第三期，讲解使用 Python 连接到网站，并使用 BeautifulSoup 解析 HTML 页面。

在 Python 中我们使用 requests 库来访问目标网站，使用 BeautifulSoup 对获取的内容进行解析。由于这两个库并不是 Python 标准库，因此需要单独安装这两个库：

pip install beautifulsoup4 pip install requests

下面是获取网站内容的示例代码：

from urllib.error import HTTPError, URLError import requests from bs4 import BeautifulSoup from config import logger_config class ProcessConnection: def __init__(self): logger_name = ‘web_scraping' self._logger_write_file = logger_config.LoggingConfig().init_logging(logger_name) def init_connection(self, uri): # 连接网站 try: session = requests.session() headers = { "User-Agent": "Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/85.0.4183.121 Safari/537.36", "Accept": "text/html,application/xhtml+xml,application/xml;q=0.9,image/avif,image/webp,image/apng,*/*;q=0.8,application/signed-exchange;v=b3;q=0.9"} html = session.get(uri, headers=headers) except (HTTPError, URLError) as e: self._logger_write_file.error('执行 get_sms_data 函数出错，具体错误内容：{message}'.format(message=e)) return False try: bsObj = BeautifulSoup(html.text, features='html.parser') return bsObj except AttributeError as e: self._logger_write_file.error('执行 get_sms_data 函数出错，具体错误内容：{message}'.format(message=e)) return False

首先使用了 requests 会话对象发送请求，并且设置了 User-agent，这里 User-agent 可以自定，这就为伪造 User-agent 提供了便利，同时也告诉了服务器客户端接受那些内容类型：

session = requests.session() headers = {"User-Agent": "Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/85.0.4183.121 Safari/537.36", "Accept": "text/html,application/xhtml+xml,application/xml;q=0.9,image/avif,image/webp,image/apng,*/*;q=0.8,application/signed-exchange;v=b3;q=0.9"}

网络如果连接出现了错误，对错误进行异常处理：

except (HTTPError, URLError) as e:

BeautifulSoup 解析 HTML 文档出现错误，抛出 AttributeError：

爬虫系列：连接网站与解析 HTML

except AttributeError as e:

以上就完成了一个使用 Python 连接网站的过程。这个时候如果没有异常我们就会拿到网站的 HTML 代码，之后根据需要进一步对 HTML 进行内容解析，获取自己需要的内容。

解析 HTML

如果你已经确定了目标内容，可能是采集一个名字，一组统计数据，或者一段文字。你的目标内容可能隐藏在一个 HTML “烂泥堆”的第20层标签里，带有许多没用的标签或 HTML 属性，你按照目标网站的代码层级你有可能写出如下的一行代码抽取内容：

bsObj.findAll("table")[4].findAll("tr")[2].find("td").findAll("section")[1].find("a")

虽然以上写法可以达到目标，但是这样的写法看起来并不是很好。除了代码欠缺美感之外，还有一个问题就是：当网站管理员对网站稍作修改之后，这行代码便会失效。

例如，我们需要获得自己的公网 IP 地址，我们可以通过查询这个网站获得：https://www.pdflibr.com，之后查看网页源代码，找到自己的 IP 地址，又如下源代码：

IP信息

当前IP地址：

106.125.148.85

归属地：

中国广东广州

我们使用 BeautifulSoup 经行解析：

result = bsObj.findAll("div", {"class": "right-result"}) for child in result: get_ip = child.get_text() print(get_ip)

这样就可以获取自己的 IP 以及 IP 归属地。

HTML Python 爬虫网站

一直无法连接到云端（云端硬盘无法连接）

615 2022-05-30

爬虫 系列：连接 网站与解析 HTML

为什么无法显示（sd卡内的照片为什么无法显示）

一直无法连接到云端（云端硬盘无法连接）

怎么回事呀？（乳头硬疼是怎么回事呀）

推荐文章

企业生产管理是什么，企业生产管理软件

进盘点进销存软件排行榜前十名

进销存系统哪个简单好用？进销存系统优点

工厂生产管理（工厂生产管理流程及制度）

生产管理软件，机械制造业生产管理，制造业生产过程管理软件

进销存软件和ERP有什么区别？进销存与erp软件理解

进销存如何进行库存管理

如何利用excel制作销售订单管理系统？

数据库订单管理系统有哪些功能？数据库订单管理系统怎么设计？

什么是数据库管理系统？

最近发表

热评文章

零代码开发是什么？2022低代码平台排行榜

智能进销存库存管理系统（智慧进销存）

在线文档哪家强？8款在线文档编辑软件推荐

WPS2016怎么绘制简单的价格表?

连锁餐饮管理系统的功能有哪些？餐饮服务系统的构成及工

客户管理工具是什么？

友情链接