用java爬取杭电oj已ac代码

网友投稿 708 2025-04-02

前言

电脑的硬盘突然坏了，新安装的eclipse的代码全没了，后来发现杭电上已经ac的代码可以查看到，我是个有强迫症的人，我宁愿做很多件不同的事也不愿意做一件相同的事（复制黏贴）许多次，所以就突发奇想，做个爬虫爬取已经ac的代码。

实现

用java爬取杭电oj已ac代码

首先打开杭电的首页，这里有我想要的信息

这里，解决的问题的序列号事我们想要的。查看网页源码

就在这里找到我们想要的信息，我们要将他存下来，然后进去分析。

接着随便点击一个进去分析。

对这个图片信息，注意链接是有规律的，通过简单拼凑就可以进入，注意第一个 run id这个信息，是需要分析抓取的，然后点击code len的链接。

发现自己的代码就在这。发现链接，就是通过run id拼凑而来。这样思路就清晰了。

1：抓取主页面，获得题目号。

2：对于每个题目号，拼凑地址进入第二个界面，在分析爬取这里的run id。

3：通过run id号拼凑地址进入有代码的网页，在通过解析工具获取代码。

4：通过io传输传到本地文件

5：ps（解析工具：jsoup）注意要通过f12抓取登陆过的cookie模拟登陆，因为只爬一次，就直接抓取cookie值传入。

附上代码：

1：抓取主页面

import java.io.IOException; import java.util.HashMap; import java.util.Map; import org.jsoup.Jsoup; import org.jsoup.nodes.Document; import org.jsoup.nodes.Element; import org.jsoup.select.Elements; public class exercise {//爬取标题 public static void main(String[] args) throws IOException { Map map=new HashMap();//粗存id和正确的次数 String url="http://acm.hdu.edu.cn/userstatus.php?user=1315426911";//我的杭电页面 Document doc=Jsoup.connect(url).get(); Elements links=doc.getElementsByTag("script"); Elements links1=links.attr("language", "javascript"); Element links2=links1.get(links1.size()-2); String links3=links2.html(); System.out.println(links3);//输出p(1001,2,6);p(1003,2,16);p(1006,1,3);p(1008,1,1);p(1009,3,16);********** String value[]=links3.split(";");//获取总共的题目数 int length=value.length; for(int i=0;i 如果对后端、爬虫等感性趣欢迎关注我的个人公众号交流：`bigsai`

Java

标签：第一个序列号 Element

最近发表

京宠展信息指南
宠物展会2025年时间表
亚宠展、全球宠物产业风向标——亚洲宠物展览会深度解析
2025年亚洲宠物展览会、京宠展有哪些亮点
wps演示添加自定义按钮设置动作改变按顺序播放" href="https://www.huoban.com/news/post/118206.html">wps演示添加自定义按钮设置动作改变按顺序播放
WPS行中的文本调整到行中" href="https://www.huoban.com/news/post/119027.html">如何将WPS行中的文本调整到行中
系统字体问题（win10系统怎么设置密码）" href="https://www.huoban.com/news/post/62643.html">WIN10系统字体问题（win10系统怎么设置密码）
格式的应用（应用文标题的格式）" href="https://www.huoban.com/news/post/63002.html">标题格式的应用（应用文标题的格式）
数据如何合并成一列，谢谢（如何将两列数据合并到一列）" href="https://www.huoban.com/news/post/71663.html">两列数据如何合并成一列，谢谢（如何将两列数据合并到一列）
无法插入表格

热评文章

零代码开发是什么？2022低代码平台排行榜">零代码开发是什么？2022低代码平台排行榜
进销存库存管理系统（智慧进销存）">智能进销存库存管理系统（智慧进销存）
在线文档哪家强？8款在线文档编辑软件推荐">在线文档哪家强？8款在线文档编辑软件推荐
WPS2016怎么绘制简单的价格表?
Excel项目进度表模板，简化您的项目进度管理">Excel项目进度表模板，简化您的项目进度管理
家居定制平台是什么？">家居定制平台是什么？

用java爬取杭电oj已ac代码

XML DOM 获取节点值

PHP array_multisort()函数超详细理解

cmd编程基础

推荐文章

企业生产管理是什么，企业生产管理软件

进盘点进销存软件排行榜前十名

进销存系统哪个简单好用？进销存系统优点

工厂生产管理（工厂生产管理流程及制度）

生产管理软件，机械制造业生产管理，制造业生产过程管理软件

进销存软件和ERP有什么区别？进销存与erp软件理解

进销存如何进行库存管理

如何利用excel制作销售订单管理系统？

数据库订单管理系统有哪些功能？数据库订单管理系统怎么设计？

什么是数据库管理系统？

最近发表

热评文章

零代码开发是什么？2022低代码平台排行榜">零代码开发是什么？2022低代码平台排行榜

进销存库存管理 系统（智慧进销存）">智能进销存库存管理系统（智慧进销存）

在线文档哪家强？8款在线文档编辑软件推荐">在线文档哪家强？8款在线文档编辑软件推荐

WPS2016怎么绘制简单的价格表?

Excel项目进度表模板，简化您的项目进度管理">Excel项目进度表模板，简化您的项目进度管理

家居定制平台是什么？">家居定制平台是什么？

友情链接

用java爬取杭电oj已ac代码

微信扫一扫：分享

推荐文章

最近发表

热评文章

零代码开发是什么？2022低代码平台排行榜">零代码开发是什么？2022低代码平台排行榜

进销存库存管理系统（智慧进销存）">智能进销存库存管理系统（智慧进销存）

在线文档哪家强？8款在线文档编辑软件推荐">在线文档哪家强？8款在线文档编辑软件推荐

Excel项目进度表模板，简化您的项目进度管理">Excel项目进度表模板，简化您的项目进度管理

家居定制平台是什么？">家居定制平台是什么？

友情链接