通過X寶數據學習爬蟲,python scrapy requests與response對象

      網友投稿 983 2022-05-29

      本篇博客復盤一下 scrapy 相關知識,首先從 Resquest 和 Response 對象開始。

      Request 對象

      在 scrapy 中 Request 對象代表著請求,即向服務器發送數據,該對象的構造函數原型如下所示:

      def __init__(self, url, callback=None, method='GET', headers=None, body=None, cookies=None, meta=None, encoding='utf-8', priority=0, dont_filter=False, errback=None, flags=None, cb_kwargs=None)

      其中只有 url 為必填參數,具體說明如下:

      callback:頁面解析函數,當 Request 請求獲取到 Response 響應之后,設定的函數會被調用,默認是 self.parse 方法;

      method:請求類型,默認為 GET,所以使用 Request 是可以發送 POST 的請求的,FormRequest 類是 Request 類的子類;

      headers:請求頭,字典類型;

      body:請求的正文,需要 bytes 類型或 str 類型;

      cookies:Cookie 字典,dict 類型;

      meta:元數據字典,dict 類型,可以給其它組件傳遞信息;

      encoding:url和body參數的編碼,注意不是數據響應編碼;

      priority:請求的優先級,默認為0,數值越大,優先級越高;

      dont_filter:默認值為 False,該參數表示是否重復請求相同地址;

      errback:請求異常時的回調函數。

      Response 對象

      在 scrapy 中,Response 對象表示請求響應對象,即服務器返回給爬蟲的數據,其構造函數原型如下:

      def __init__(self,url,status=200,headers=None,body=b"", flags=None, request=None,certificate=None,ip_address=None,protocol=None, )

      與 Request 一致,該方法中僅 url 為必填參數,不過一般很少用到手動創建一個 Response 對象實例的場景。

      Response 類衍生出來一個子類 TextResponse,然后 TextResponse 又衍生出來 HtmlResponse 和 XmlResponse。

      Response 包括的屬性和方法如下:

      屬性清單

      url:響應地址;

      status:響應狀態碼;

      headers:響應頭;

      encoding:響應正文的編碼;

      body:響應正文,bytes 類型;

      text:文本形式的響應正文,將 body 進行編碼之后的數據;

      request:獲取請求對象;

      meta:元數據字典,dict 類型,請求傳遞過來的參數;

      selector:選擇器對象。

      方法清單

      xpath():XPath 選擇器;

      css():CSS 選擇器;

      urljoin():就是 urllib.parse 模塊的 urljoin();

      json():將響應數據序列化為 JSON 格式;

      關于 Request 和 Response 類的相關源碼,可以在 scrapy\http 目錄查看。

      ItemPipeline

      數據管道在 scrapy 中主要對數據進行處理,在實際開發過程中需要注意一個 ItemPipeline ,只負責一種功能的數據處理,當然在 scrapy 中你可以創建多個 ItemPipeline。

      ItemPipeline 的使用場景

      數據清洗,例如去重,去除異常數據;

      數據保存方式編寫,例如存儲 Mongodb,MySQL,Redis 數據庫。

      在編寫 ItemPipeline 類的時候,不需要其繼承特定類,只需要實現固定名稱的方法即可,在之前的博客中已經反復提及,自定義 ItemPipeline 類需要實現 process_item()、open_spider(),close_spider() 方法,其中 process_item() 必須實現。

      process_item() 返回值是 Item 或者字典,也可以返回一個 DropItem 類型的數據,此時該項 item 會被忽略,不會被后面的 ItemPipeline 處理。

      過濾數據的邏輯實現

      如果希望在 ItemPipeline 實現過濾數據,使用集合即可,發現集合中已經存在數據了,拋出 DropItem 即可。

      LinkExtractor 提取鏈接

      scrapy 編寫的爬蟲在提取大量鏈接時,使用 LinkExtractor 會更加便捷。

      使用 from scrapy.linkextractors import LinkExtractor 導入 LinkExtractor ,該類的構造函數如下所示:

      def __init__(self, allow=(), deny=(),allow_domains=(),deny_domains=(),restrict_xpaths=(), tags=('a', 'area'),attrs=('href',),canonicalize=False,unique=True,process_value=None, deny_extensions=None,restrict_css=(),strip=True,restrict_text=None, )

      其中各個參數說明如下:

      allow:一個正則表達式或正則表達式列表,提取正則表達式匹配的 url,默認全部提取;

      deny:與 allow 相反;

      通過X寶數據學習爬蟲,python scrapy requests與response對象

      allow_domains:字符串或者列表,domain 限制;

      deny_domains:與上面相反;

      restrict_xpaths:按照 xpath 提取;

      restrict_css:安裝 css 選擇器提取;

      tags:提取指定標簽內的鏈接;

      attrs:提取指定屬性內的鏈接;

      process_value:函數類型,傳入該參數之后,LinkExtractor 會將其匹配到的所有鏈接,都傳入該函數進行處理。

      下面的代碼是提取 Response 對象中的鏈接,需要使用 extract_links() 方法。

      def parse(self, response): link = LinkExtractor() all_links = link.extract_links(response) print(all_links)

      創建一個LinkExtractor對象;

      使用構造器參數描述提取規則;

      調用LinkExtractor對象的 extract_links 方法傳入一個Response對象,返回一個列表;

      使用列表中的任意元素調用 .url 或者 .text 獲取鏈接和鏈接文本。

      爬蟲編碼時間

      本次的目標站點是:淘數據-行業報告

      完整代碼編寫如下所示,使用 LinkExtractor 提取頁面超鏈接。

      import scrapy from tao.items import TaoItem from scrapy.linkextractors import LinkExtractor class TaoDataSpider(scrapy.Spider): name = 'tao_data' allowed_domains = ['taosj.com'] start_urls = [f'https://www.taosj.com/articles?pageNo={page}' for page in range(1, 124)] def parse(self, response): link_extractor = LinkExtractor(allow=r'www\.taosj\.com/articles/\d+', restrict_css='a.report-page-list-title') links = link_extractor.extract_links(response) for l in links: item = { "url": l.url, "text": l.text } yield item

      寫在后面

      今天是持續寫作的第

      256

      / 365 天。

      期待

      關注

      評論

      Python Scrapy

      版權聲明:本文內容由網絡用戶投稿,版權歸原作者所有,本站不擁有其著作權,亦不承擔相應法律責任。如果您發現本站中有涉嫌抄襲或描述失實的內容,請聯系我們jiasou666@gmail.com 處理,核實后本網站將在24小時內刪除侵權內容。

      上一篇:7天玩轉PostgreSQL基礎訓練營(三)
      下一篇:crontab定時任務語法及應用
      相關文章
      亚洲国产精品综合久久2007| 亚洲综合一区二区精品导航| 亚洲色成人网一二三区| 久久精品国产69国产精品亚洲| 在线观看亚洲天天一三视| 亚洲日韩中文在线精品第一| 亚洲AV无码专区在线观看成人| 亚洲日韩一区二区一无码| 亚洲AV综合色区无码一二三区| 亚洲熟妇无码一区二区三区导航| 亚洲中文精品久久久久久不卡| 亚洲国产精品综合久久20| 久久精品亚洲AV久久久无码| 亚洲最大成人网色香蕉| 亚洲人成电影在线观看青青| 亚洲国产精品综合福利专区| 亚洲喷奶水中文字幕电影| 亚洲欧洲校园自拍都市| 亚洲精品国产手机| 亚洲日韩乱码中文无码蜜桃臀| 亚洲国产精品网站久久| 亚洲人成高清在线播放| 中文字幕在线观看亚洲日韩| 亚洲AV无码AV吞精久久| 全亚洲最新黄色特级网站| 亚洲最大av无码网址| 国产V亚洲V天堂A无码| 无码欧精品亚洲日韩一区| 亚洲一区二区三区高清| 亚洲国产成人超福利久久精品 | 亚洲人成综合网站7777香蕉| 亚洲综合激情五月丁香六月| 亚洲欧洲无码AV不卡在线| mm1313亚洲精品无码又大又粗| 亚洲一级Av无码毛片久久精品| 国产亚洲人成网站在线观看不卡| 亚洲制服中文字幕第一区| 亚洲剧情在线观看| 亚洲精华国产精华精华液网站| 亚洲国产成人久久综合区| 亚洲国产综合无码一区|