百度圖片爬蟲小助手
經常在寫公眾號,博客的時候需要給文章配圖片。對于不是很復雜的圖片,通常都是打開百度搜索關鍵字來獲得一些圖片。
百度圖片搜索關鍵字“貓”
但這種做法會有4個問題:
網頁打開百度圖片通常很耗時間
思路會被打斷,無法專注于寫作本身
如果有多個關鍵字需要搜索,需要打開一堆窗口
獲得感興趣的圖片后,還需要手動保存到本地才能使用
作為一名爬蟲愛好者,當然不能忍受這樣的情況,明明可以讓爬蟲來獲取的圖片,為什么需要我一次一次點擊下一張。于是我寫了個根據關鍵字爬取百度圖片的小爬蟲。
通過分析百度圖片的頁面,很快就編寫好了爬蟲程序
運行爬蟲流程
安裝依賴:pip3 install fake_useragent
python baiduimage_spider.py
輸入關鍵字,用空格分開關鍵字,同時下載多個關鍵字的圖片
輸入要爬取的頁數(百度圖片一頁展示60張圖片,但在實際爬取過程中,可能有些圖片無法下載)
等待爬蟲運行完畢,圖片默認保存在py文件所在路徑
假如你正在寫一篇關于貓、狗與牛的文章,你可以不打斷寫作的思路,直接用爬蟲爬取一些圖片。爬蟲程序在后臺工作,而你的大腦可以專心投入寫作的過程中。
以下是爬蟲程序運行結果
百度圖片爬蟲小助手同時爬取“貓”、“狗”、“牛”三個關鍵字的圖片
根據關鍵字成功建立文件夾
到這為止,你已經收集了很多你想要的圖片,完全不必浪費時間一張一張查看,圖片都乖乖地躺在你的硬盤你等待你的挑選呢。
爬蟲結果:貓
爬蟲結果:狗
爬蟲結果:牛
最近決心要認真寫博客,記錄自己的學習過程。頭腦一熱,就想到了這個爬蟲并立馬實現了它,但還不盡完美,之后有時間可以從以下幾點來進行優化:
慮版權問題
并發爬蟲,提高效率
引入圖片評分機制,濾除掉低質量圖片
=====================================================================
本文發表在機器在學習
李思原個人博客
鏈接:http://www.siyuanblog.com/?p=202&from=singlemessage&isappinstalled=0
=====================================================================
其他
版權聲明:本文內容由網絡用戶投稿,版權歸原作者所有,本站不擁有其著作權,亦不承擔相應法律責任。如果您發現本站中有涉嫌抄襲或描述失實的內容,請聯系我們jiasou666@gmail.com 處理,核實后本網站將在24小時內刪除侵權內容。