使用 BeautifulSoup库 解析htm、xml文档

网友投稿 737 2022-05-29

BeautifulSoup

安装：

~/Desktop$ sudo pip install beautifulsoup4

测试：

from bs4 import BeautifulSoup if __name__ == "__main__": # 第一个参数是html文档文本，第二个参数是指定的解析器 soup = BeautifulSoup('

data

', 'html.parser') print(soup.prettify())

输出：

data

说明安装成功了。

Beautiful Soup库也叫bs4，Beautiful Soup库是解析、遍历、维护 “标签树”的功能库。

Beautiful Soup库解析器：

Beatiful Soup类的基本元素

示例：

import requests from bs4 import BeautifulSoup def handle_url(url): try: r = requests.get("http://www.baidu.com") r.raise_for_status() if r.encoding == 'ISO-8859-1': r.encoding = r.apparent_encoding demo = r.text soup = BeautifulSoup(demo, 'html.parser') # a标签有很多个，但soup.a返回第一个 print(soup.a) # print(type(soup.a)) # 标签名a print(soup.a.name) # print(type(soup.a.name)) # 标签内的属性的字典，键值对 print(soup.a.attrs) # print(type(soup.a.attrs)) # 获取a标签的href属性值 print(soup.a.attrs['href']) # print(type(soup.a.attrs['href'])) # 标签的内容 print(soup.a.string) # a标签的父元素 print(soup.a.parent) except: print("fail fail fail") if __name__ == "__main__": url = "http://www.baidu.com" handle_url(url)

Beatiful Soup遍历HTML元素

Html具有树型结构，因此遍历有三种：

下行遍历：

import requests from bs4 import BeautifulSoup def handle_url(url): try: r = requests.get("http://www.baidu.com") r.raise_for_status() if r.encoding == 'ISO-8859-1': r.encoding = r.apparent_encoding demo = r.text soup = BeautifulSoup(demo, 'html.parser') print(soup.head) # head标签的儿子节点 print(soup.head.contents) # 是list列表类型 print(type(soup.head.contents)) # head有5个儿子节点 print(len(soup.head.contents)) # 取出head的第5个儿子节点 print(soup.head.contents[4]) # 使用children遍历儿子节点 for child in soup.head.children: print(child) # 使用descendants遍历子孙节点 for child in soup.head.descendants: print(child) except: print("fail fail fail") if __name__ == "__main__": url = "http://www.baidu.com" handle_url(url)

上行遍历：

import requests from bs4 import BeautifulSoup def handle_url(url): try: r = requests.get("http://www.baidu.com") r.raise_for_status() if r.encoding == 'ISO-8859-1': r.encoding = r.apparent_encoding demo = r.text soup = BeautifulSoup(demo, 'html.parser') # html标签的父节点是它自己 print(soup.html.parent) # soup本身也是一种特殊的标签节点，它的父节点是None空 print(soup.parent) # title标签的父节点 print(soup.title.parent) # 遍历title标签的先辈节点 for parent in soup.title.parents: if parent is None: print(parent) else: print(parent.name) except: print("fail fail fail") if __name__ == "__main__": url = "http://www.baidu.com" handle_url(url)

使用BeautifulSoup库解析htm、xml文档

平行遍历：：必须发生在同一个父节点下

import requests from bs4 import BeautifulSoup def handle_url(url): try: r = requests.get("http://www.baidu.com") r.raise_for_status() if r.encoding == 'ISO-8859-1': r.encoding = r.apparent_encoding demo = r.text soup = BeautifulSoup(demo, 'html.parser') # title的前一个平行节点 print(soup.title.previous_sibling) # link的下一个平行节点 print(soup.link.next_sibling) # 遍历meta标签的所有的后续平行节点 for sibling in soup.meta.next_siblings: print(sibling) # 遍历title标签的所有前续的平行节点 for sibling in soup.title.previous_siblings: print(sibling) except: print("fail fail fail") if __name__ == "__main__": url = "http://www.baidu.com" handle_url(url)

HTML XML

标签：使用 BeautifulSoup库解析

系统字体问题（win10系统怎么设置密码）">WIN10系统字体问题（win10系统怎么设置密码）

737 2022-05-29

格式的应用（应用文标题的格式）">标题格式的应用（应用文标题的格式）

737 2022-05-29

快递录入时间表（快递收寄时间）

737 2022-05-29

最近发表

2025年亚洲宠物展览会、京宠展有哪些亮点
wps演示添加自定义按钮设置动作改变按顺序播放" href="https://www.huoban.com/news/post/118206.html">wps演示添加自定义按钮设置动作改变按顺序播放
WPS行中的文本调整到行中" href="https://www.huoban.com/news/post/119027.html">如何将WPS行中的文本调整到行中
系统字体问题（win10系统怎么设置密码）" href="https://www.huoban.com/news/post/62643.html">WIN10系统字体问题（win10系统怎么设置密码）
格式的应用（应用文标题的格式）" href="https://www.huoban.com/news/post/63002.html">标题格式的应用（应用文标题的格式）
数据如何合并成一列，谢谢（如何将两列数据合并到一列）" href="https://www.huoban.com/news/post/71663.html">两列数据如何合并成一列，谢谢（如何将两列数据合并到一列）
无法插入表格
快递录入时间表（快递收寄时间）
项目管理流程7大过程及项目启动策略与实施要点" href="https://www.huoban.com/news/post/152389.html">项目管理流程7大过程及项目启动策略与实施要点
excel表格）" href="https://www.huoban.com/news/post/94768.html">Excel Web App团队享了如何决定功能开发的重要性公式（excel表格）

热评文章

零代码开发是什么？2022低代码平台排行榜">零代码开发是什么？2022低代码平台排行榜
进销存库存管理系统（智慧进销存）">智能进销存库存管理系统（智慧进销存）
在线文档哪家强？8款在线文档编辑软件推荐">在线文档哪家强？8款在线文档编辑软件推荐
WPS2016怎么绘制简单的价格表?
电子表格，居家办公更轻松">用在线电子表格，居家办公更轻松
什么是在线文档？怎么发在线文档

使用 BeautifulSoup库 解析htm、xml文档

系统字体问题（win10系统怎么设置密码）">WIN10系统字体问题（win10系统怎么设置密码）

格式的应用（应用文标题的格式）">标题格式的应用（应用文标题的格式）

快递录入时间表（快递收寄时间）

推荐文章

企业生产管理是什么，企业生产管理软件

进盘点进销存软件排行榜前十名

进销存系统哪个简单好用？进销存系统优点

工厂生产管理（工厂生产管理流程及制度）

生产管理软件，机械制造业生产管理，制造业生产过程管理软件

进销存软件和ERP有什么区别？进销存与erp软件理解

进销存如何进行库存管理

如何利用excel制作销售订单管理系统？

数据库订单管理系统有哪些功能？数据库订单管理系统怎么设计？

什么是数据库管理系统？

最近发表

热评文章

零代码开发是什么？2022低代码平台排行榜">零代码开发是什么？2022低代码平台排行榜

进销存库存管理 系统（智慧进销存）">智能进销存库存管理系统（智慧进销存）

在线文档哪家强？8款在线文档编辑软件推荐">在线文档哪家强？8款在线文档编辑软件推荐

WPS2016怎么绘制简单的价格表?

电子表格，居家办公更轻松">用在线电子表格，居家办公更轻松

什么是在线文档？怎么发在线文档

友情链接

使用BeautifulSoup库解析htm、xml文档

微信扫一扫：分享

系统 字体问题（win10系统怎么设置密码）">WIN10系统 字体问题（win10系统怎么设置密码）

格式的应用（应用文标题的格式）">标题格式的应用（应用文标题的格式）

推荐文章

最近发表

热评文章

零代码开发是什么？2022低代码平台排行榜">零代码开发是什么？2022低代码平台排行榜

进销存库存管理系统（智慧进销存）">智能进销存库存管理系统（智慧进销存）

在线文档哪家强？8款在线文档编辑软件推荐">在线文档哪家强？8款在线文档编辑软件推荐

电子表格，居家办公更轻松">用在线电子表格，居家办公更轻松

友情链接

使用 BeautifulSoup库解析htm、xml文档

系统字体问题（win10系统怎么设置密码）">WIN10系统字体问题（win10系统怎么设置密码）