Python爬虫网页解析神器Xpath快速入门教学！！！-伙伴云

Python 爬虫网页解析神器Xpath快速入门教学！！！

网友投稿 1142 2022-05-29

1、Xpath介绍

2、Xpath路径表达式

3、结合实例讲解

1、Xpath介绍

2、Xpath路径表达式

3、结合实例讲解

1、Xpath介绍

XPath 是一门在 XML 文档中查找信息的语言。XPath 可用来在 XML 文档中对元素和属性进行遍历。

2、Xpath路径表达式

3、结合实例讲解

这里我就是使用百度的界面为大家进行讲解

==例==：我想获取图中的百度热榜，打开控制台，我们可直接根据div标签的class值进行定位（这是我们平时使用xpath语法比较多的地方）

from lxml import etree import requests headers = { "user-agent": "Mozilla/5.0 (Macintosh; Intel Mac OS X 10_13_6) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/85.0.4183.83 Safari/537.36" } url = "https://www.baidu.com/" response = requests.get(url=url,headers=headers) #使用etree进行解析 data = etree.HTML(response.text) #可参考上表格进行对比，//div可理解为任意路径下的一个div标签，@class表示选取class属性，text()表示获取text文本 name = data.xpath("//div[@class='title-text c-font-medium c-color-t']/text()") print(name[0])

==例==：我想获取热榜有哪些信息，参考下图可见其全部在ul标签下，每一个信息对于一个li标签

data = etree.HTML(response.text) #//ul表示任意路径下的ul标签， #表示获取ul下的所有li标签 ul = data.xpath("//ul[@class='s-hotsearch-content']/li") #当然，大家在爬取过程中可能会遇到没有class属性的标签，这时可使用id定位，又或者定位其父标签，再往下找 #ul = data.xpath("//ul[@id='hotsearch-content-wrapper']/li") #遍历 for li in ul: # .//span表示当前节点下的任意span标签，我们再根据class值定位，使用text()获取文本信息 name = li.xpath(".//span[@class='title-content-title']/text()") print(name[0])

==例==：定位百度热榜找它的父节点也就是a标签的href属性

data = etree.HTML(response.text) #..表示其父节点 url = data.xpath("//div[@class='title-text c-font-medium c-color-t']/../@href") print(url[0])

Xpath语法其实不难的，大家需要多练习，进行实战，这样熟练掌握会很快的，可以下方的爬虫教程索引，里面有很多爬虫使用xpath写的，可以阅读看看。

博主会持续更新，有兴趣的小伙伴可以、关注和下哦，你们的支持就是我创作最大的动力！

Python爬虫网页解析神器Xpath快速入门教学！！！

XML

办公 自动化(三) | 借助服务器定时爬数据发邮件">python办公 自动化(三) | 借助服务器定时爬数据发邮件

1142 2022-05-29

Python3 网络爬虫开发实战] 1.4.3-Redis 的安装">[Python3 网络爬虫开发实战] 1.4.3-Redis 的安装

1142 2022-05-29

网页点了没反应（电脑点网页没反应）">网页点了没反应（电脑点网页没反应）

1142 2022-05-29

Python 爬虫 网页 解析 神器Xpath快速入门教学！！！

办公 自动化(三) | 借助服务器定时爬数据发邮件">python办公 自动化(三) | 借助服务器定时爬数据发邮件

Python3 网络爬虫开发实战] 1.4.3-Redis 的安装">[Python3 网络爬虫开发实战] 1.4.3-Redis 的安装

网页点了没反应（电脑点网页没反应）">网页点了没反应（电脑点网页没反应）

推荐文章

企业生产管理是什么，企业生产管理软件

进盘点进销存软件排行榜前十名

进销存系统哪个简单好用？进销存系统优点

工厂生产管理（工厂生产管理流程及制度）

生产管理软件，机械制造业生产管理，制造业生产过程管理软件

进销存软件和ERP有什么区别？进销存与erp软件理解

进销存如何进行库存管理

如何利用excel制作销售订单管理系统？

数据库订单管理系统有哪些功能？数据库订单管理系统怎么设计？

什么是数据库管理系统？

最近发表

热评文章

零代码开发是什么？2022低代码平台排行榜">零代码开发是什么？2022低代码平台排行榜

进销存库存管理 系统（智慧进销存）">智能进销存库存管理系统（智慧进销存）

在线文档哪家强？8款在线文档编辑软件推荐">在线文档哪家强？8款在线文档编辑软件推荐

WPS2016怎么绘制简单的价格表?

系统的功能有哪些？餐饮服务系统的构成及工作程序">连锁餐饮管理系统的功能有哪些？餐饮服务系统的构成及工

客户管理工具是什么？">客户管理工具是什么？

友情链接

Python爬虫网页解析神器Xpath快速入门教学！！！

微信扫一扫：分享

办公自动化(三) | 借助服务器定时爬数据发邮件">python办公自动化(三) | 借助服务器定时爬数据发邮件

Python3 网络爬虫开发实战] 1.4.3-Redis 的安装">[Python3 网络爬虫开发实战] 1.4.3-Redis 的安装

网页点了没反应（电脑点网页没反应）">网页点了没反应（电脑点网页没反应）

推荐文章

最近发表

热评文章

零代码开发是什么？2022低代码平台排行榜">零代码开发是什么？2022低代码平台排行榜

进销存库存管理系统（智慧进销存）">智能进销存库存管理系统（智慧进销存）

在线文档哪家强？8款在线文档编辑软件推荐">在线文档哪家强？8款在线文档编辑软件推荐

系统的功能有哪些？餐饮服务系统的构成及工作程序">连锁餐饮管理系统的功能有哪些？餐饮服务系统的构成及工

客户管理工具是什么？">客户管理工具是什么？

友情链接

Python 爬虫网页解析神器Xpath快速入门教学！！！