记一个爬虫入口选择失误引发的坑-伙伴云

记一个爬虫入口选择失误引发的坑

网友投稿 723 2022-05-29

记一个爬虫入口选择失误引发的坑

大家好，我是四毛.

今天来分享一个爬虫的案例，讲一下这个坑到底是怎么样的一个坑。

开始

目标网址：

http://guba.eastmoney.com/list,cjpl_1.html

目标数据：页码数

本来想着，这种数据都应该在网页源码里的，结果找了一圈，发现没有，源代码是这样的：

压根没有关于页面的文字，但是大家请注意data-pager属性对应的值，这个在我分析完以后我才发现原来有这个就够了。

没办法，抓包分析吧，在XHR和JS下面没有找到直接这部分数据，那么说明就是JS生成的了。在这里，我把返回的的JS都找了一遍，用‘page’做关键词搜索，然后在下面的这个JS里面找到了相关的函数：

http://gbfek.dfcfw.com/gubav5/js/list_c_0924cbd988.js

可以看到，我们在网页上看到的页数的相关信息确实是通过JS生成了。那么我们可以怎么处理呢？是不是非得用selenium之类的呢？其实未必。

看完这段JS的时候，我一直再找具体的文章总数或者页面总数的值，但是一直没有找到。后来想起来前面说的data-page属性里面似乎有一个比较大的值，没错，就是下面这个：

想着难道这个数是文章的总数？

后来拿着计算器算了一下，确实是的。。。

531299，文章总数

80，每个页面的文章数

2 ，当前页面

接下来的爬虫就可以直接用个除法就得到结果了。

后来，当我打开另一个股吧时，我看到了这个：

一口老血吐在键盘上，为什么我找的入口上面没这个，费了那么多事情。

所以这个坑就是如果一开始看到上面的这个页面，就可以一下子就知道

这里的数字的意义了。但是分析分析js，也可以增强解决问题的能力，毕竟不是每个网站都这么傻把数据就放在源码里了。

总结

所以建议大家写爬虫时，一定要找一个好一点的入口，多找找多翻翻，有好处。

爬虫 python

我打字形成的文档为什么不能转存的其他存盘（为什么文档不能打字了）

723 2022-05-29

2. 选择“使用公式确定要设置格式的单元格”，输入公式：＝AND(A1<>0,MOD(A1,2)=0)

选择 偶数然后给所有偶数增加底纹（给偶数行添加底纹的公式是什么?）">怎么在很多数据中选择 偶数然后给所有偶数增加底纹（给偶数行添加底纹的公式是什么?）

723 2022-05-29

【云图说】第235期 DDS读写两步走带您领略只读节点的风采

723 2022-05-29

记一个 爬虫 入口 选择失误引发的坑

我打字形成的文档为什么不能转存的其他存盘（为什么文档不能打字了）

选择 偶数然后给所有偶数增加底纹（给偶数行添加底纹的公式是什么?）">怎么在很多数据中选择 偶数然后给所有偶数增加底纹（给偶数行添加底纹的公式是什么?）

【云图说】第235期 DDS读写两步走带您领略只读节点的风采

推荐文章

企业生产管理是什么，企业生产管理软件

进盘点进销存软件排行榜前十名

进销存系统哪个简单好用？进销存系统优点

工厂生产管理（工厂生产管理流程及制度）

生产管理软件，机械制造业生产管理，制造业生产过程管理软件

进销存软件和ERP有什么区别？进销存与erp软件理解

进销存如何进行库存管理

如何利用excel制作销售订单管理系统？

数据库订单管理系统有哪些功能？数据库订单管理系统怎么设计？

什么是数据库管理系统？

最近发表

热评文章

零代码开发是什么？2022低代码平台排行榜">零代码开发是什么？2022低代码平台排行榜

进销存库存管理 系统（智慧进销存）">智能进销存库存管理系统（智慧进销存）

在线文档哪家强？8款在线文档编辑软件推荐">在线文档哪家强？8款在线文档编辑软件推荐

WPS2016怎么绘制简单的价格表?

进销存库存管理盘点">简单进销存库存管理盘点

客户管理工具是什么？">客户管理工具是什么？

友情链接

记一个爬虫入口选择失误引发的坑

微信扫一扫：分享

选择偶数然后给所有偶数增加底纹（给偶数行添加底纹的公式是什么?）">怎么在很多数据中选择偶数然后给所有偶数增加底纹（给偶数行添加底纹的公式是什么?）

推荐文章

最近发表

热评文章

零代码开发是什么？2022低代码平台排行榜">零代码开发是什么？2022低代码平台排行榜

进销存库存管理系统（智慧进销存）">智能进销存库存管理系统（智慧进销存）

在线文档哪家强？8款在线文档编辑软件推荐">在线文档哪家强？8款在线文档编辑软件推荐

进销存库存管理盘点">简单进销存库存管理盘点

客户管理工具是什么？">客户管理工具是什么？

友情链接