Python爬虫：还在纠结买什么手机？pyquery库给你参考答案-伙伴云

from pyquery import PyQuery as pq with open('demo.html', 'r', encoding='utf-8') as f: html = f.read() doc = pq(html) li1 = doc(".li1") print(li1.siblings()) print('针对属性查找兄弟节点') print(li1.siblings('.li'))

运行之后，效果如下：

获取节点信息

Python爬虫：还在纠结买什么手机？pyquery库给你参-

节点信息包括节点的名称，属性，文本，整个节点的HTML代码以及其节点内部的HTML代码。下面，博主一一举例进行获取：

from pyquery import PyQuery as pq from lxml import etree with open('demo.html', 'r', encoding='utf-8') as f: html = f.read() doc = pq(html) a = doc('.li1') print('节点名称：', a[0].tag) print("节点属性：", a[0].get('class')) print("节点属性：", a.attr('class')) print("节点文本：", a.text()) print("整个节点HTML代码：", str(etree.tostring(a[0], pretty_print=True, encoding='UTF-8'), 'UTF-8')) print("节点内部HTML代码：", a.html())

运行之后，效果如下：

需要注意的是，如果需要获取整个节点的HTML代码，需要借助lxml库进行完成，如果获取的节点的父节点只有它一个子节点，倒是可以通过获取父节点在获取内部的HTML代码获取整个节点的HTML代码，但一般来说，一个父节点应该有很多子节点，这么做行不通，目前也没什么好的办法解决，只能借助lxml库。

修改节点

博主记得大学的时候，那时候学校网址很卡，毕业申请网页总是打不开，就算打开了根本就无法加载全部的网页信息，提交更是卡着不动。（稍微人多就崩了）

这个时候，博主取巧直接将学校提交网址的源代码下载了下来，然后将提交的信息全部写在对应的HTML标签中，然后直接提交的。

不过，当时博主是手动操作的。如果需要代码操作，可以借助pyquery库进行，比如我们可以给一个标签添加文本，属性等，对应代码如下：

from pyquery import PyQuery as pq with open('demo.html', 'r', encoding='utf-8') as f: html = f.read() doc = pq(html) # 添加一个标签的class属性值 li = doc('.li1') li.add_class('li') print(doc) # 删除一个标签的class属性值 li.remove_class('li') print(doc) # 修改一个标签的class属性值 li.attr('class', 'li123') print(doc) # 修改一个标签的文本 a = doc('.aaa') a.text('我是修改的值') print(doc) # 修改一个标签的HTML代码 a = doc('.aaa') a.html('华为') print(doc) # 删除一个节点 li.remove() print(doc)

运行结果这里就不放置了，因为代码每次打印产生了大量数据，大量的图片在博文堆积，阅读体验不好，还请见谅。感兴趣的自己复制运行查看。

不过，需要特别注意一个点，text()方法是替换文本，如果替换的是HTML代码需要使用html()方法，如果text()替换html代码，会导致<变成<。

伪类选择器

pyquery库之所以CSS选择器非常强大，是因为其支持多种多样的伪类选择器。例如，选择第1个节点，最后一个节点，索引为奇数的节点，索引为偶数的节点等。

这些都可以通过pyquery库的CSS选择器直接操作。下面，我们来举例说明，示例代码如下所示：

from pyquery import PyQuery as pq with open('demo.html', 'r', encoding='utf-8') as f: html = f.read() doc = pq(html) # 获取第一个li节点 li = doc('li:first-child') print(li.html()) # 获取最后一个li节点 li = doc('li:last-child') print(li.html()) # 获取第2个li节点 li = doc('li:nth-child(2)') print(li.html()) # 获取索引小于3的li节点(从0开始,0,1节点) li = doc('li:lt(2)') print(li) # 获取索引大于1的li节点(从0开始,只有2节点大于0，也就是第3个li) li = doc('li:gt(1)') print(li) # 选择奇数位的li节点 li = doc('li:nth-child(2n+1)') print(li) # 选择偶数位的li节点 li = doc('li:nth-child(2n)') print(li) # 选取文本内容包含CSND的所有li节点 li = doc('li:contains(CSDN)') print(li) # 选取文本内容包含CSND的所有节点 li = doc(':contains(CSDN)') print(len(li))

运行结果太多，这里也不展示运行结果。具体的结果与代码注释一模一样。pyquery库到这里就已经全部讲解完成。下面，将通过pyquery库进行实战测验。

实战：抓取ZOL热门手机排行榜

首先，我们来查看其网页的源代码，看看这个榜单的内容在哪个标签中。如下图所示：

可以看到，我们的手机热榜在class等于section的div标签中，同时class等于rank-list__item clearfix才是每行的榜单内容。所以，我们可以直接获取class等于rank-list__item clearfix的所有div然后遍历。

from pyquery import PyQuery as pq from lxml import etree import requests url = "https://top.zol.com.cn/compositor/57/cell_phone.html" headers = { 'user-agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/91.0.4472.124 Safari/537.36' } result = requests.get(url=url, headers=headers) doc = pq(result.text) result = doc('.section') divs = result('.rank-list__item')

接着，我们需要获取每个div榜单里面的信息，比如排名，手机名称，价位等等。我们先来看看这些数据到底在哪些标签中。

如上图所示，class=rank__number的div是其排名，class=rank__name的div下的a标签是手机的名称以及链接，class=rank__price的div是其价格。

知道了这些，我们可以直接上代码了，不过需要注意的是，第一名的排行显示的是一个皇冠，并没有排行的数字。所以获取不到排行的数字。

当然，本身列表就是顺序的，你可以自己遍历数字从1开始排即可，根本不需要获取class=rank__number的内容。不过这里我们还是获取一下，代码如下：

from pyquery import PyQuery as pq import requests url = "https://top.zol.com.cn/compositor/57/cell_phone.html" headers = { 'user-agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/91.0.4472.124 Safari/537.36' } result = requests.get(url=url, headers=headers) doc = pq(result.text) result = doc('.section') divs = result('.rank-list__item') for div in divs.items(): if '' == div('.rank__number').text().strip(): print("手机排名：", 1) else: print("手机排名：", div('.rank__number').text()) print("手机名称：", div('.rank__name a').text()) print("手机价格：", div('.rank__price').text()) print("手机详情链接：", div('.rank__name a').attr('href')) print()

运行之后，手机的热门榜单就完全获取到了，这样购买手机的参考也就有了，效果如下：

HTML Python 爬虫

python如何删除excel中不满足要求的工作簿（excel怎么删除工作表里不需要的）

966 2022-05-30

Python 爬虫：还在 纠结买什么手机？pyquery库给你参考答案

别再纠结OKR和KPI的区别了，不专业（okr和kpi的区别与联系知乎）

python如何删除excel中不满足要求的工作簿（excel怎么删除工作表里不需要的）

怎么把python程序附在文档上（如何利用python在一个文档里写入）

推荐文章

企业生产管理是什么，企业生产管理软件

进盘点进销存软件排行榜前十名

进销存系统哪个简单好用？进销存系统优点

工厂生产管理（工厂生产管理流程及制度）

生产管理软件，机械制造业生产管理，制造业生产过程管理软件

进销存软件和ERP有什么区别？进销存与erp软件理解

进销存如何进行库存管理

如何利用excel制作销售订单管理系统？

数据库订单管理系统有哪些功能？数据库订单管理系统怎么设计？

什么是数据库管理系统？

最近发表

热评文章

零代码开发是什么？2022低代码平台排行榜

智能进销存库存管理系统（智慧进销存）

在线文档哪家强？8款在线文档编辑软件推荐

WPS2016怎么绘制简单的价格表?

连锁餐饮管理系统的功能有哪些？餐饮服务系统的构成及工

客户管理工具是什么？

友情链接

Python爬虫：还在纠结买什么手机？pyquery库给你参考答案

微信扫一扫：分享

推荐文章

最近发表

热评文章

友情链接

Python 爬虫：还在纠结买什么手机？pyquery库给你参考答案