爬虫百战穿山甲（五）pandas请求出战-伙伴云

爬虫百战穿山甲（五）pandas请求出战

网友投稿 759 2022-05-29

情绪萎靡不振，并不想说话，咱直接看代码吧。

import requests from fake_useragent import UserAgent import pandas as pd #import requests_cache import json # https://movie.douban.com/j/new_search_subjects?sort=U&range=0,10&tags=&start=20 def get_url_json(url): ''' 使用requests.get方法获取url中的json数据 :parameter url：网址https://movie.douban.com/j/new_search_subjects?sort=U&range=0,10&tags=&start=20 :returns 列表，包含电影数据 ''' res = requests.get(url, headers={'User-Agent': UserAgent().random}) if res.status_code == 200: return res.json()['data'] return [] import time def from_douban_to_jsonl(file_name): ''' 调用get_url_json方法获取数据，并且将数据存储到jsonl文件中 :parameter file_name：将要存储的文件名 ''' for i in range(0,200,20): url = 'http://movie.douban.com/j/new_search_subjects?sort=U&range=0,10&tags=&start='+str(i) print(url) movies = get_url_json(url) time.sleep(2) with open(file_name,'a+') as db: for movie in movies: db.write(json.dumps(movie)) db.write('\n') def manage_data(file_name): ''' 将数据从文件中读取，并对数据进行一波处理 :param file_name: 将要读取的文件名 :return: ''' df = pd.read_json(file_name,lines=True) # 读取jsonl文件 df.drop_duplicates(subset='id') # 数据去重 df = df.set_index('id') # 设置索引列，返回一个新的对象 df = df[['casts','cover','directors','rate','star','title','url']] # 选择要保存的列 # 使用apply方法按列处理演员和导演数据 df['main_cast'] = df['casts'].apply(lambda x:x[0] if len(x)>0 else '') df['director'] = df['directors'].apply(lambda x:x[0] if len(x)>0 else '') # 去掉列表中的‘[]’,转化为字符串 df['casts'] = df['casts'].apply(lambda x:','.join(x)) df['directors'] = df['casts'].apply(lambda x:','.join(x)) from_douban_to_jsonl('doubanmovie.jsonl') manage_data('doubanmovie.jsonl')

爬虫百战穿山甲（五）pandas请求出战

学到了啥，我觉得除了基本知识以外，最重要的一点就是代码文档吧。

以前从来没有写过这样的文档。

其他

excel中mid函数的功能是什么？（Excel中mid函数）

759 2022-05-29

爬虫百战穿山甲（五）pandas请求出战

Excel中如何计算字符串的长度（excel求字符串长度）

Excel 中可以通过什么符号将两个字符串连接起来？（excel函数公式大全）

excel中mid函数的功能是什么？（Excel中mid函数）

推荐文章

企业生产管理是什么，企业生产管理软件

进盘点进销存软件排行榜前十名

进销存系统哪个简单好用？进销存系统优点

工厂生产管理（工厂生产管理流程及制度）

生产管理软件，机械制造业生产管理，制造业生产过程管理软件

进销存软件和ERP有什么区别？进销存与erp软件理解

进销存如何进行库存管理

如何利用excel制作销售订单管理系统？

数据库订单管理系统有哪些功能？数据库订单管理系统怎么设计？

什么是数据库管理系统？

最近发表

热评文章

零代码开发是什么？2022低代码平台排行榜

智能进销存库存管理系统（智慧进销存）

在线文档哪家强？8款在线文档编辑软件推荐

WPS2016怎么绘制简单的价格表?

连锁餐饮管理系统的功能有哪些？餐饮服务系统的构成及工

定制订单管理系统（为特定需求定制的订单管理系统）

友情链接

爬虫百战穿山甲（五）pandas请求出战

微信扫一扫：分享

推荐文章

最近发表

热评文章

友情链接