亚洲香蕉在线观看,亚洲成熟xxxxx电影,中文字幕亚洲综合久久综合

通過X寶數據學習爬蟲，python scrapy requests與response對象

網友投稿 983 2022-05-29

本篇博客復盤一下 scrapy 相關知識，首先從 Resquest 和 Response 對象開始。

Request 對象

在 scrapy 中 Request 對象代表著請求，即向服務器發送數據，該對象的構造函數原型如下所示：

def __init__(self, url, callback=None, method='GET', headers=None, body=None, cookies=None, meta=None, encoding='utf-8', priority=0, dont_filter=False, errback=None, flags=None, cb_kwargs=None)

其中只有 url 為必填參數，具體說明如下：

callback：頁面解析函數，當 Request 請求獲取到 Response 響應之后，設定的函數會被調用，默認是 self.parse 方法；

method：請求類型，默認為 GET，所以使用 Request 是可以發送 POST 的請求的，FormRequest 類是 Request 類的子類；

headers：請求頭，字典類型；

body：請求的正文，需要 bytes 類型或 str 類型；

cookies：Cookie 字典，dict 類型；

meta：元數據字典，dict 類型，可以給其它組件傳遞信息；

encoding：url和body參數的編碼，注意不是數據響應編碼；

priority：請求的優先級，默認為0，數值越大，優先級越高；

dont_filter：默認值為 False，該參數表示是否重復請求相同地址；

errback：請求異常時的回調函數。

Response 對象

在 scrapy 中，Response 對象表示請求響應對象，即服務器返回給爬蟲的數據，其構造函數原型如下：

def __init__(self,url,status=200,headers=None,body=b"", flags=None, request=None,certificate=None,ip_address=None,protocol=None, )

與 Request 一致，該方法中僅 url 為必填參數，不過一般很少用到手動創建一個 Response 對象實例的場景。

Response 類衍生出來一個子類 TextResponse，然后 TextResponse 又衍生出來 HtmlResponse 和 XmlResponse。

Response 包括的屬性和方法如下：

屬性清單

url：響應地址；

status：響應狀態碼；

headers：響應頭；

encoding：響應正文的編碼；

body：響應正文，bytes 類型；

text：文本形式的響應正文，將 body 進行編碼之后的數據；

request：獲取請求對象；

meta：元數據字典，dict 類型，請求傳遞過來的參數；

selector：選擇器對象。

方法清單

xpath()：XPath 選擇器；

css()：CSS 選擇器；

urljoin()：就是 urllib.parse 模塊的 urljoin()；

json()：將響應數據序列化為 JSON 格式；

關于 Request 和 Response 類的相關源碼，可以在 scrapy\http 目錄查看。

ItemPipeline

數據管道在 scrapy 中主要對數據進行處理，在實際開發過程中需要注意一個 ItemPipeline ，只負責一種功能的數據處理，當然在 scrapy 中你可以創建多個 ItemPipeline。

ItemPipeline 的使用場景

數據清洗，例如去重，去除異常數據；

數據保存方式編寫，例如存儲 Mongodb，MySQL，Redis 數據庫。

在編寫 ItemPipeline 類的時候，不需要其繼承特定類，只需要實現固定名稱的方法即可，在之前的博客中已經反復提及，自定義 ItemPipeline 類需要實現 process_item()、open_spider()，close_spider() 方法，其中 process_item() 必須實現。

process_item() 返回值是 Item 或者字典，也可以返回一個 DropItem 類型的數據，此時該項 item 會被忽略，不會被后面的 ItemPipeline 處理。

過濾數據的邏輯實現

如果希望在 ItemPipeline 實現過濾數據，使用集合即可，發現集合中已經存在數據了，拋出 DropItem 即可。

LinkExtractor 提取鏈接

scrapy 編寫的爬蟲在提取大量鏈接時，使用 LinkExtractor 會更加便捷。

使用 from scrapy.linkextractors import LinkExtractor 導入 LinkExtractor ，該類的構造函數如下所示：

def __init__(self, allow=(), deny=(),allow_domains=(),deny_domains=(),restrict_xpaths=(), tags=('a', 'area'),attrs=('href',),canonicalize=False,unique=True,process_value=None, deny_extensions=None,restrict_css=(),strip=True,restrict_text=None, )

其中各個參數說明如下：

allow：一個正則表達式或正則表達式列表，提取正則表達式匹配的 url，默認全部提取；

deny：與 allow 相反；

通過X寶數據學習爬蟲，python scrapy requests與response對象

allow_domains：字符串或者列表，domain 限制；

deny_domains：與上面相反；

restrict_xpaths：按照 xpath 提取；

restrict_css：安裝 css 選擇器提取；

tags：提取指定標簽內的鏈接；

attrs：提取指定屬性內的鏈接；

process_value：函數類型，傳入該參數之后，LinkExtractor 會將其匹配到的所有鏈接，都傳入該函數進行處理。

下面的代碼是提取 Response 對象中的鏈接，需要使用 extract_links() 方法。

def parse(self, response): link = LinkExtractor() all_links = link.extract_links(response) print(all_links)

創建一個LinkExtractor對象；

使用構造器參數描述提取規則；

調用LinkExtractor對象的 extract_links 方法傳入一個Response對象，返回一個列表；

使用列表中的任意元素調用 .url 或者 .text 獲取鏈接和鏈接文本。

爬蟲編碼時間

本次的目標站點是：淘數據-行業報告

完整代碼編寫如下所示，使用 LinkExtractor 提取頁面超鏈接。

import scrapy from tao.items import TaoItem from scrapy.linkextractors import LinkExtractor class TaoDataSpider(scrapy.Spider): name = 'tao_data' allowed_domains = ['taosj.com'] start_urls = [f'https://www.taosj.com/articles?pageNo={page}' for page in range(1, 124)] def parse(self, response): link_extractor = LinkExtractor(allow=r'www\.taosj\.com/articles/\d+', restrict_css='a.report-page-list-title') links = link_extractor.extract_links(response) for l in links: item = { "url": l.url, "text": l.text } yield item

寫在后面

今天是持續寫作的第

256

/ 365 天。

期待

關注

，

、

評論

、

。

Python Scrapy

亞寵展、全球寵物產業風向標——亞洲寵物展覽會深度解析

983 2022-05-29

數據 如何合并成一列，謝謝（如何將兩列數據合并到一列）">兩列數據 如何合并成一列，謝謝（如何將兩列數據合并到一列）

983 2022-05-29

SUBSTITUTE

983 2022-05-29

通過X寶數據 學習爬蟲，python scrapy requests與response對象

亞寵展、全球寵物產業風向標——亞洲寵物展覽會深度解析

數據 如何合并成一列，謝謝（如何將兩列數據合并到一列）">兩列數據 如何合并成一列，謝謝（如何將兩列數據合并到一列）

SUBSTITUTE

推薦文章

企業生產管理是什么，企業生產管理軟件

進盤點進銷存軟件排行榜前十名

進銷存系統哪個簡單好用？進銷存系統優點

工廠生產管理（工廠生產管理流程及制度）

生產管理軟件，機械制造業生產管理，制造業生產過程管理軟件

進銷存軟件和ERP有什么區別？進銷存與erp軟件理解

進銷存如何進行庫存管理

如何利用excel制作銷售訂單管理系統？

數據庫訂單管理系統有哪些功能？數據庫訂單管理系統怎么設計？

什么是數據庫管理系統？

最近發表

熱評文章

零代碼開發是什么？2022低代碼平臺排行榜">零代碼開發是什么？2022低代碼平臺排行榜

進銷存庫存管理 系統（智慧進銷存）">智能進銷存庫存管理系統（智慧進銷存）

在線文檔哪家強？8款在線文檔編輯軟件推薦">在線文檔哪家強？8款在線文檔編輯軟件推薦

WPS2016怎么繪制簡單的價格表?

系統的功能有哪些？餐飲服務系統的構成及工作程序">連鎖餐飲管理系統的功能有哪些？餐飲服務系統的構成及工

進銷存庫存管理盤點">簡單進銷存庫存管理盤點

友情鏈接