關于php網絡爬蟲phpspider

      網友投稿 690 2022-05-30

      前幾天,被老板拉去說要我去抓取大眾點評某家店的數據,當然被我義正言辭的拒絕了,理由是我不會。。。但我的反抗并沒有什么卵用,所以還是乖乖去查資料,因為我是從事php工作的,首先找的就是php的網絡爬蟲源碼,在我的不懈努力下,終于找到phpspider,打開phpspider開發文檔首頁我就被震驚了,標題《我用爬蟲一天時間“偷了”知乎一百萬用戶,只為證明PHP是世界上最好的語言 》,果然和我預料的一樣,php就是世界上最好的語言。廢話少說,下面開始學習使用。

      首先看的是提供的一個demo,代碼如下:

      每項具體的信息,可以去 https://doc.phpspider.org/demo-start.html 查看,哪里比較詳細,這里只說下我走的彎路,

      domains是定義采集的域名,只在該域名下采集,

      content_url_regexes是采集的內容頁,使用chrome查看網頁源碼,然后使用selector選擇器定位,selector使用xpath格式定位參數,當然也可以用css來選擇。

      list_url_regexes列表頁,每個列表頁抓取多條content_url_regexes的url循環采集。

      還有一些其他參數沒有列出來,例如:

      'max_try' => 5, 'export' => array( 'type' => 'db', 'conf' => array( 'host' => 'localhost', 'port' => 3306, 'user' => 'root', 'pass' => 'root', 'name' => 'demo', ), 'table' => '360ky', ),

      max_try 同時工作的爬蟲任務數。

      關于php網絡爬蟲phpspider

      export采集數據存儲,有兩種格式,一種是寫到數據庫中,一種是直接生成.csv格式文件。

      只要url規則寫的對,就可以運行,不用管框架里面的封裝。當然,此框架只能在php-cli命令行下運行,所以使用前要先配置環境變量,或者cd到php安裝路徑運行。

      最后成功采集到大眾點評某點的一千多條數據。

      PHP 網絡

      版權聲明:本文內容由網絡用戶投稿,版權歸原作者所有,本站不擁有其著作權,亦不承擔相應法律責任。如果您發現本站中有涉嫌抄襲或描述失實的內容,請聯系我們jiasou666@gmail.com 處理,核實后本網站將在24小時內刪除侵權內容。

      上一篇:發現一款香到可以替代Postman的API管理工具
      下一篇:一文辨析 Java、JSP、JavaScript
      相關文章
      亚洲另类激情专区小说图片| 亚洲一区二区久久| 亚洲欧洲日产国码在线观看| 亚洲国产精品成人精品无码区在线 | 亚洲一区精品视频在线| 亚洲AV无码国产丝袜在线观看| 亚洲永久无码3D动漫一区| 亚洲精品线路一在线观看| 一本色道久久88亚洲综合| 国产亚洲成在线播放va| 亚洲gay片在线gv网站| 亚洲成AV人影片在线观看| 国产精品国产亚洲区艳妇糸列短篇| 亚洲欧洲无码AV不卡在线| 亚洲精品理论电影在线观看| 亚洲精品国产suv一区88| 色天使亚洲综合一区二区| 亚洲Av永久无码精品一区二区| 亚洲人成人伊人成综合网无码| 亚洲熟妇AV日韩熟妇在线| 亚洲欧洲日产国码久在线| 亚洲精品天堂成人片AV在线播放| 亚洲成年网站在线观看| 亚洲日韩一区精品射精| 亚洲av无码专区在线电影| 国产精品亚洲色图| 亚洲国产精品无码久久青草 | 亚洲a∨无码一区二区| 性色av极品无码专区亚洲| 免费观看亚洲人成网站| 亚洲精品99久久久久中文字幕| 亚洲黄片毛片在线观看| 国产亚洲欧洲Aⅴ综合一区| 亚洲精品自产拍在线观看| 亚洲一本综合久久| 亚洲国产精品专区| 亚洲精品第一综合99久久| 春暖花开亚洲性无区一区二区| 亚洲国产成人久久综合区| 亚洲午夜国产精品无码| 亚洲av福利无码无一区二区|