用java爬取杭電oj已ac代碼

網友投稿 714 2025-04-02

前言

電腦的硬盤突然壞了，新安裝的eclipse的代碼全沒了，后來發現杭電上已經ac的代碼可以查看到，我是個有強迫癥的人，我寧愿做很多件不同的事也不愿意做一件相同的事（復制黏貼）許多次，所以就突發奇想，做個爬蟲爬取已經ac的代碼。

實現

用java爬取杭電oj已ac代碼

首先打開杭電的首頁，這里有我想要的信息

這里，解決的問題的序列號事我們想要的。查看網頁源碼

就在這里找到我們想要的信息，我們要將他存下來，然后進去分析。

接著隨便點擊一個進去分析。

對這個圖片信息，注意鏈接是有規律的，通過簡單拼湊就可以進入，注意第一個 run id這個信息，是需要分析抓取的，然后點擊code len的鏈接。

發現自己的代碼就在這。發現鏈接，就是通過run id拼湊而來。這樣思路就清晰了。

1：抓取主頁面，獲得題目號。

2：對于每個題目號，拼湊地址進入第二個界面，在分析爬取這里的run id。

3：通過run id號拼湊地址進入有代碼的網頁，在通過解析工具獲取代碼。

4：通過io傳輸傳到本地文件

5：ps（解析工具：jsoup）注意要通過f12抓取登陸過的cookie模擬登陸，因為只爬一次，就直接抓取cookie值傳入。

附上代碼：

1：抓取主頁面

import java.io.IOException; import java.util.HashMap; import java.util.Map; import org.jsoup.Jsoup; import org.jsoup.nodes.Document; import org.jsoup.nodes.Element; import org.jsoup.select.Elements; public class exercise {//爬取標題 public static void main(String[] args) throws IOException { Map map=new HashMap();//粗存id和正確的次數 String url="http://acm.hdu.edu.cn/userstatus.php?user=1315426911";//我的杭電頁面 Document doc=Jsoup.connect(url).get(); Elements links=doc.getElementsByTag("script"); Elements links1=links.attr("language", "javascript"); Element links2=links1.get(links1.size()-2); String links3=links2.html(); System.out.println(links3);//輸出p(1001,2,6);p(1003,2,16);p(1006,1,3);p(1008,1,1);p(1009,3,16);********** String value[]=links3.split(";");//獲取總共的題目數 int length=value.length; for(int i=0;i 如果對后端、爬蟲等感性趣歡迎關注我的個人公眾號交流：`bigsai`

Java

標簽：第一個序列號 Element

用java爬取杭電oj已ac代碼

XML DOM 獲取節點值

PHP array_multisort()函數超詳細理解

cmd編程基礎

推薦文章

企業生產管理是什么，企業生產管理軟件

進盤點進銷存軟件排行榜前十名

進銷存系統哪個簡單好用？進銷存系統優點

工廠生產管理（工廠生產管理流程及制度）

生產管理軟件，機械制造業生產管理，制造業生產過程管理軟件

進銷存軟件和ERP有什么區別？進銷存與erp軟件理解

進銷存如何進行庫存管理

如何利用excel制作銷售訂單管理系統？

數據庫訂單管理系統有哪些功能？數據庫訂單管理系統怎么設計？

什么是數據庫管理系統？

最近發表

熱評文章

零代碼開發是什么？2022低代碼平臺排行榜">零代碼開發是什么？2022低代碼平臺排行榜

進銷存庫存管理 系統（智慧進銷存）">智能進銷存庫存管理系統（智慧進銷存）

在線文檔哪家強？8款在線文檔編輯軟件推薦">在線文檔哪家強？8款在線文檔編輯軟件推薦

WPS2016怎么繪制簡單的價格表?

定制家居數字化管理模式：提升品質、智能化和個性化的未

智能定制家居管理系統：重新定義家庭生活方式

友情鏈接