爬虫系列：存储媒体文件-伙伴云

网友投稿 660 2022-05-28

本期爬虫系列主要讲解爬虫采集完成数据之后，我们应该怎么存储，以及用什么样的方式存储数据。

虽然在命令行里显示结果很有意思，但是随着数据不断增多，并且需要对数据分析时，将数据打印到命令行就不是办法了。为了可以远程使用大部分网络爬虫，你还需要把采集到的数据存储起来。

本篇文章介绍的数据存储方式，绝大多数应用程序都适用。如果你准备创建一个网站的后端服务或者创建自己的 API，那么可能需要把数据写入数据库。如果你需要一个快速简单的方法收集网上的文档，然后保存到你的硬盘里，那么可能需要创建一个文件流（file stream）来实现。

存储媒体文件

存储媒体文件主要有两种方式：只获取文件 URL 链接，或者直接把源文件下载下来。你可以通过媒体文件所在的 URL 链接直接引用它。这样做的优点如下：

爬虫运行得更快，耗费得流量更少，因为只要链接，不需要下载文件；

可以节省很多存储空间，因为只需要存储 URL 链接就可以了；

存储 URL 的代码更容易编写，也不需要文件下载代码；

不下载文件能够降低目标服务器的负载。

保存媒体文件存在的缺点：

这些内嵌在你网站或应用中的外站 URL 链接称为盗链（hotlinking），使用盗链可能让你麻烦不断，每个网站都会实施防盗链措施；

因为你的链接放在别人的服务器上，所以你的应用就跟着别人的节奏运行了；

盗链是很容易改变的。如果你把盗链图片放在博客上，要是被对方服务器发现，就可能被恶搞。如果你把 URL 链接存储起来准备以后再使用，可能用的时候链接已经失效了，或者变成了完全无关的内容；

现实中的浏览器不仅会请求 HTML 页面并切换页面，它们也会下载访问页面上所有的资源。下载文件会让你的爬虫看起来更像人在浏览网站，这样做反而有好处。

如果你还在犹豫究竟是存储文件，还只是存储文件的 URL 链接，可以想想这些文件是要多次使用还是放进数据库之后就只等着“落灰”，再也不会被打开。如果答案是后者，那么最好还是只存储这些文件的 URL 吧。如果答案是前者，那就继续往下看。

import requests from utils import connection_util class SaveData(object): def __init__(self): self._target_url = 'https://www.pdflibr.com' self._init_connection = connection_util.ProcessConnection() def save_image(self): # 连接目标网站，获取内容 get_content = self._init_connection.init_connection(self._target_url) if get_content: imageLocation = get_content.find("img", {"alt": "IP to Location"})["data-src"] real_path = self._target_url + imageLocation r = requests.get(real_path) with open("ip_location.png", 'wb') as f: f.write(r.content) if __name__ == "__main__": SaveData().save_image()

这段程序从IP 查询 - 爬虫识别下载一张图片，然后保存在运行程序的文件夹里。

如果你只需要下载一个文件，而且知道如何获取它，以及它的文件类型，这么做就可以了。但是大多数爬虫一天只下载一个文件。下面的程序会把IP 查询 - 爬虫识别上所有 src 属性的文件都下载下来：

import os.path from urllib.request import urlretrieve from utils import connection_util class GetAllSrc(object): def __init__(self): self._init_download_dir = 'downloaded' self._baseUrl = 'https://www.pdflibr.com/ip' self._init_connection = connection_util.ProcessConnection() def get_absolute_url(self, baseUrl, source): if source.startswith("https://image."): url = "https://" + source[14:] elif source.startswith("https://"): url = source elif source.startswith("www."): url = "https://" + source[4:] else: url = source if baseUrl not in url: return None return url def get_download_path(self, baseUrl, absoluteUrl, download_dir): path = absoluteUrl.replace("www.", "") path = path.replace(baseUrl, "") path = download_dir + path directory = os.path.dirname(path) if not os.path.exists(directory): os.makedirs(directory) return path def download_main(self): get_content = self._init_connection.init_connection(self._baseUrl) if get_content: download_list = get_content.findAll(src=True) for download in download_list: file_url = self.get_absolute_url(self._baseUrl, download["src"]) if file_url is not None: print(file_url) urlretrieve(file_url, self.get_download_path(self._baseUrl, file_url, self._init_download_dir)) if __name__ == '__main__': GetAllSrc().download_main()

爬虫系列：存储媒体文件

运行以上代码需要注意：

这个程序会把页面上所有的文件都下载到你硬盘里，可能会包含一些 bash 脚本，.exe 文件，设置可能是恶意软件（malmare）。

这个程序首先选择页面上所有带 src 属性的标签，然后对 URL 链接进行清理和标准化，获得了文件的绝对路径（而且去掉了外链），最后每个文件都会下载到程序所在的 downloaded 文件里。

这里使用 Python 的 os 模块用来获取每个下载文件的目标文件夹，建立完整的路径。os 模块是 Python 与操作系统交互的接口，它可以操作文件路径，创建目录，获取运行进程和环境变量的信息，以及其他系统相关操作。

文章源代码托管于 Github：爬虫系列：存储媒体文件

5G媒体 Python 爬虫网站

为什么设计要登录（设计一个登录系统）

660 2022-05-28

爬虫 系列：存储 媒体文件

求和跟我算的数不一样（表格求和跟自己算的不一样）

怎样给不同的柱子上添加不同的标准误差线（怎么给柱形图加误差线）

为什么设计要登录（设计一个登录系统）

推荐文章

企业生产管理是什么，企业生产管理软件

进盘点进销存软件排行榜前十名

进销存系统哪个简单好用？进销存系统优点

工厂生产管理（工厂生产管理流程及制度）

生产管理软件，机械制造业生产管理，制造业生产过程管理软件

进销存软件和ERP有什么区别？进销存与erp软件理解

进销存如何进行库存管理

如何利用excel制作销售订单管理系统？

数据库订单管理系统有哪些功能？数据库订单管理系统怎么设计？

什么是数据库管理系统？

最近发表

热评文章

零代码开发是什么？2022低代码平台排行榜

智能进销存库存管理系统（智慧进销存）

在线文档哪家强？8款在线文档编辑软件推荐

WPS2016怎么绘制简单的价格表?

客户管理工具是什么？

定制订单管理系统（为特定需求定制的订单管理系统）

友情链接