PHP蜘蛛爬蟲(chóng)開(kāi)發(fā)文檔
《我用爬蟲(chóng)一天時(shí)間“偷了”知乎一百萬(wàn)用戶,只為證明PHP是世界上最好的語(yǔ)言 》所使用的程序框架
編寫(xiě)PHP網(wǎng)絡(luò)爬蟲(chóng), 需要具備以下技能:
爬蟲(chóng)采用PHP編寫(xiě)
從網(wǎng)頁(yè)中抽取數(shù)據(jù)需要用XPath
當(dāng)然我們還可以使用CSS選擇器
很多情況下都會(huì)用到正則表達(dá)式
Chrome的開(kāi)發(fā)者工具是神器, 很多AJAX請(qǐng)求需要用它來(lái)分析
第一個(gè)demo
爬蟲(chóng)采用PHP編寫(xiě), 下面以糗事百科為例, 來(lái)看一下我們的爬蟲(chóng)長(zhǎng)什么樣子:
爬蟲(chóng)的整體框架就是這樣, 首先定義了一個(gè)$configs數(shù)組, 里面設(shè)置了待爬網(wǎng)站的一些信息, 然后通過(guò)調(diào)用$spider = new phpspider($configs);和$spider->start();來(lái)配置并啟動(dòng)爬蟲(chóng).
$configs對(duì)象如何定義, 后面會(huì)作詳細(xì)介紹.^_^
官方-:https://github.com/owner888/phpspider
官方開(kāi)發(fā)手冊(cè):https://doc.phpspider.org/
PHP
版權(quán)聲明:本文內(nèi)容由網(wǎng)絡(luò)用戶投稿,版權(quán)歸原作者所有,本站不擁有其著作權(quán),亦不承擔(dān)相應(yīng)法律責(zé)任。如果您發(fā)現(xiàn)本站中有涉嫌抄襲或描述失實(shí)的內(nèi)容,請(qǐng)聯(lián)系我們jiasou666@gmail.com 處理,核實(shí)后本網(wǎng)站將在24小時(shí)內(nèi)刪除侵權(quán)內(nèi)容。