圖庫網站Unsplash高清原圖爬蟲
在百度圖片爬蟲小助手里,我開發了一個爬蟲,來節約我寫博客時搜集圖片的時間。
但是,也出現了一些問題,主要有以下幾點:
百度圖片上的質量參差不齊,大部分圖片質量不夠
圖片分辨率普遍不夠
圖片存在版權問題,許多圖片存在水印或logo
針對上面的幾個問題,我找了一個新的圖庫網站Unsplash來獲得圖片。
Unsplash首頁
Unsplash上的圖片都是免費的,因此不存在水印的問題,而且,針對同一圖片,還提供不同尺寸(raw,full,regular,small,thumb),就我發博客這一需求而言,regular級別的圖片已經可以滿足。
進入Unsplash,打開F12開發者工具抓包,輸入關鍵字boy,試圖找到相關的request,得到了這些信息
上圖紅色框是接口地址,藍色框中是向這個接口發送的入參,我們再看一下這個接口返回的數據。
紅色框中返回了20條數據,正好對應的向接口發送的入參per_page:20(即每頁返回20張圖片信息),查看每一張圖片的信息,可以看到以下內容。
紅色框中正是圖片的URL地址,綠色框中用了一句話對圖片進行大致描述,而藍色框中可以看出,圖片根據不同尺寸分了好幾種規格,這應該是方便在不同的設備之間進行顯示。
輸入關鍵字“男孩”,查不到圖片
由于Unplash是國外的圖庫網站,因此并不支持中文查詢。但這可難不倒我們,在網上找了個翻譯接口將中文翻譯成英文,就可以解決這個問題了,我采用的是百度的翻譯接口,這里就不展開講述了。
爬蟲的流程
我們看一下爬蟲的結果吧!
爬蟲下載的“programmer”部分圖片
爬蟲下載的“boy”部分圖片
可以看出,下載的圖片質量是非常不錯的。為了加速爬蟲,并節約硬盤資源,我選擇下載reular級別的圖片,下面我們看一下這個級別的圖片在博客上展示有沒有什么問題。
總的來說,Unsplash上的圖片質量是比百度圖庫要好的,但有些特殊的詞,Unsplash收錄的圖片數量就沒有百度圖庫多了,有時間再將Unsplash爬蟲與百度爬蟲結合起來,希望我的博客在編輯速度以及美觀方面能有所提升。
該這個爬蟲代碼我已經上傳到github上了:點擊進入
====================================================================
本文發表在李思原博客“機器在學習”
鏈接:http://www.siyuanblog.com/?p=1291
=====================================================================
網站 GitHub
版權聲明:本文內容由網絡用戶投稿,版權歸原作者所有,本站不擁有其著作權,亦不承擔相應法律責任。如果您發現本站中有涉嫌抄襲或描述失實的內容,請聯系我們jiasou666@gmail.com 處理,核實后本網站將在24小時內刪除侵權內容。