快速入门网络爬虫系列 Chapter09 | JSON数据处理-伙伴云

快速入门网络爬虫系列 Chapter09 | JSON数据处理

网友投稿 681 2022-05-30

Chapter09 | JSON数据处理

一、JSON

1、获取JSON响应

2、解析JSON

2.1、解码JSON的功能

2.2、从dict中还原为JSON对象

二、API

1、第一种

2、第二种

3、代码实现

4、测试

一、JSON

JSON是指JavaScript对象表示法(JavaScript Object Notation)：

独立于语言和平台

与XML类似，存储和交换文本信息

与XML语言更快、更易解析

JSON的主要表达形式：

单个JSON对象，书写格式为{string:value,string:value}

1、获取JSON响应

通过网络库requests，网络爬虫获取响应，并使用JSON格式展示数据

import requests import urllib url = 'http://httpbin.org/get' response = requests.get(url,timeout = 5) print(response.text)

2、解析JSON

2.1、解码JSON的功能

Python的json库可以提供编码，解码JSON的功能

json库的主要函数有：

json.loads()：JSON字符串转换成Python

json.load()：文件中JSON字符串转换为Python

json.dumps()：Python对象序列化为JSON对象

json.dump()：Python对象序列化为JSON对象，并写入文件

把网络爬虫获取的响应转换成Python对象：

import json json_data = json.loads(response.text) print(type(json_data)) print(json_data)

import requests from bs4 import BeautifulSoup as bs s=requests.session() s.headers = {'User-Agent':'Mozilla/5.0 (Windows NT 10.0; Win64; x64; rv:73.0) Gecko/20100101 Firefox/73.0'} page=s.get('https://api.github.com/events') data = page.json() print(type(data)) print(type(data[0])) print(data[0])

2.2、从dict中还原为JSON对象

Json库还可以从dict中还原为JSON对象，在Python中为字符串类型

back_json = json.dumps(json_data) print(type(back_json)) print(back_json)

二、API

应用编程接口(Application Programming Interface,API)

API不同的应用提供方便友好的接口

开发者用不同的语言结构编写程序，通过API获取数据，实现不同程序间的信息共享

API在网络爬虫中的使用场景：

API并不随处可见，但可以请求接收请求，并向客户端返回响应的信息

与网站不同的是，API必须：

拥有严谨的语言规则，标准的规范来产生数据

使用XML或者JSON格式来展示数据，而不是HTML表示

下面以新浪微博为例：

由上图我们可以看到数据，但是这些数据不是我们想要看到的，这是因为我们并没有转码。

下面我们通过两种方式打开来验证下内容：

1、第一种

直接点击get

结果如下：

2、第二种

复制Request URL的链接打开

结果如下：

经过对比，我们发现结果是一样的。

3、代码实现

下面在代码实现下：

import requests from bs4 import BeautifulSoup as bs s=requests.session() s.headers = {'User-Agent':'Mozilla/5.0 (Windows NT 10.0; Win64; x64; rv:73.0) Gecko/20100101 Firefox/73.0'} page=s.get('https://feed.sina.com.cn/api/roll/get?pageid=121&lid=1356&num=20&versionNumber=1.2.4&page=2&encode=utf-8&callback=feedCardJsonpCallback&_=1585719783848') print(page.content)

上述代码遍获取到了所需要解析的文件，下面就需要进行解析了：

import requests import json from bs4 import BeautifulSoup as bs s=requests.session() s.headers = {'User-Agent':'Mozilla/5.0 (Windows NT 10.0; Win64; x64; rv:73.0) Gecko/20100101 Firefox/73.0'} page=s.get('https://feed.sina.com.cn/api/roll/get?pageid=121&lid=1356&num=20&versionNumber=1.2.4&page=2&encode=utf-8') print((json.loads(page.content.decode("utf-8"))))

这样就转换成dict类型的数据，供我们提取

4、测试

取出网址：

JSON 网络

elasticsearch入门 系列">elasticsearch入门 系列

681 2022-05-30

快速跳到我想要的那一页（怎么快速到下一页）">怎么快速跳到我想要的那一页（怎么快速到下一页）

681 2022-05-30

深入浅出etcd系列】3. 日志同步">【深入浅出etcd系列】3. 日志同步

681 2022-05-30

快速 入门 网络爬虫 系列 Chapter09 | JSON数据处理

elasticsearch入门 系列">elasticsearch入门 系列

快速跳到我想要的那一页（怎么快速到下一页）">怎么快速跳到我想要的那一页（怎么快速到下一页）

深入浅出etcd系列】3. 日志同步">【深入浅出etcd系列】3. 日志同步

推荐文章

企业生产管理是什么，企业生产管理软件

进盘点进销存软件排行榜前十名

进销存系统哪个简单好用？进销存系统优点

工厂生产管理（工厂生产管理流程及制度）

生产管理软件，机械制造业生产管理，制造业生产过程管理软件

进销存软件和ERP有什么区别？进销存与erp软件理解

进销存如何进行库存管理

如何利用excel制作销售订单管理系统？

数据库订单管理系统有哪些功能？数据库订单管理系统怎么设计？

什么是数据库管理系统？

最近发表

热评文章

零代码开发是什么？2022低代码平台排行榜">零代码开发是什么？2022低代码平台排行榜

进销存库存管理 系统（智慧进销存）">智能进销存库存管理系统（智慧进销存）

在线文档哪家强？8款在线文档编辑软件推荐">在线文档哪家强？8款在线文档编辑软件推荐

WPS2016怎么绘制简单的价格表?

客户管理工具是什么？">客户管理工具是什么？

进销存库存管理盘点">简单进销存库存管理盘点

友情链接

快速入门网络爬虫系列 Chapter09 | JSON数据处理

微信扫一扫：分享

elasticsearch入门系列">elasticsearch入门系列

快速跳到我想要的那一页（怎么快速到下一页）">怎么快速跳到我想要的那一页（怎么快速到下一页）

深入浅出etcd系列】3. 日志同步">【深入浅出etcd系列】3. 日志同步

推荐文章

最近发表

热评文章

零代码开发是什么？2022低代码平台排行榜">零代码开发是什么？2022低代码平台排行榜

进销存库存管理系统（智慧进销存）">智能进销存库存管理系统（智慧进销存）

在线文档哪家强？8款在线文档编辑软件推荐">在线文档哪家强？8款在线文档编辑软件推荐

客户管理工具是什么？">客户管理工具是什么？

进销存库存管理盘点">简单进销存库存管理盘点

友情链接