从身份证号码里提取生日和周岁的方法
879
2022-05-29
使用XPath
XPath,全称XML Path Language,即XML路径语言,它是在XML语言中查找信息的语言。它最初是用来搜寻XML文档的,但是它同样适用于HTML文档的搜索。
在上一篇文章中讲述了正则表达式的使用方法,正则表达式的难度还是比较大的,如果不花足够多的时间去做的话还是比较难的,所以今天就来分享比正则简单的内容,方便大家接下来的学习。
XPath常用规则
XPath的规则是非常丰富的,本篇文章无法一次性全部概括,只能为大家介绍几个常用的规则。
准备工作
在使用之前得先安装好lxml这个库,如果没有安装请参考下面的安装方式。
pip install lxml
案例导入
现在通过实例来xpath对网页解析的过程
from lxml import etree
text = '''