亚洲网站在线播放,久久精品亚洲日本波多野结衣,亚洲网站在线观看

用Python爬取豆瓣電影TOP250分析

網友投稿 1381 2025-04-01

/ 01 / Scrapy

之前了解了pyspider框架的使用，但是就它而言，只能應用于一些簡單的爬取。

對于反爬程度高的網站，它就顯得力不從心。

那么就輪到Scrapy上場了，目前Python中使用最廣泛的爬蟲框架。

當然目前我學習的都是簡單爬蟲，上述內容都是道聽途說，并不是切身體會。

Scrapy的安裝相對復雜，依賴的庫較多。

不過通過度娘，最后我是成功安裝了的。放在C盤，如今我的C盤要爆炸。

首先任意文件夾下命令行運行scrapy startproject doubanTop250，創建一個名為doubanTop250的文件夾。

然后在文件夾下的py文件中改寫程序。

進入文件夾里，命令行運行scrapy genspider douban?movie.douban.com/top250。

最后會生成一個douban.py文件，Scrapy用它來從網頁里抓取內容，并解析抓取結果。

最終修改程序如下。

import?scrapy

from?scrapy?import?Spider

from?doubanTop250.items?import?Doubantop250Item

class?DoubanSpider(scrapy.Spider):

name?=?'douban'

allowed_domains?=?['douban.com']

start_urls?=?['https://movie.douban.com/top250/']

def?parse(self,?response):

lis?=?response.css('.info')

for?li?in?lis:

item?=?Doubantop250Item()

#?利用CSS選擇器獲取信息

用Python爬取豆瓣電影TOP250分析

name?=?li.css('.hd?span::text').extract()

title?=?''.join(name)

info?=?li.css('p::text').extract()[1].replace('\n',?'').strip()

score?=?li.css('.rating_num::text').extract_first()

people?=?li.css('.star?span::text').extract()[1]

words?=?li.css('.inq::text').extract_first()

#?生成字典

item['title']?=?title

item['info']?=?info

item['score']?=?score

item['people']?=?people

item['words']?=?words

yield?item

next?=?response.css('.next?a::attr(href)').extract_first()

if?next:

url?=?response.urljoin(next)

yield?scrapy.Request(url=url,?callback=self.parse)

pass

生成的items.py文件，是保存爬取數據的容器，代碼修改如下。

import?scrapy

class?Doubantop250Item(scrapy.Item):

#?define?the?fields?for?your?item?here?like:

#?name?=?scrapy.Field()

title?=?scrapy.Field()

info?=?scrapy.Field()

score?=?scrapy.Field()

people?=?scrapy.Field()

words?=?scrapy.Field()

pass

在這個之后，還需要在settings.py文件添加用戶代理和請求延時。

最后在douban.py所在文件夾下打開命令行，輸入scrapy crawl douban。

命令行就會顯示獲取的結果啦！！！

這里豆瓣的信息有Unicode編碼，我也不知為何要在一個網頁里設置兩種編碼。

在當前文件夾命令行運行scrapy crawl douban -o douban.csv，即可輸出csv文件。

由于在處理的時候沒有去除空格，造成有兩種編碼存在，無法通過Excel查看。

這里就貼一個文本文檔，后續會在數據可視化里去除Unicode編碼。

/ 02 / 數據可視化

01 電影上映年份分布

這里可以看出豆瓣電影TOP250里，電影的上映年份，多分布于80年代以后。

其中有好幾年是在10部及以上的。

02 中外電影上映年份分布

明顯感受到了國產電影和國外電影的差距，90年代還行，還能過過招。

越往后，國產電影就基本就沒有上榜的。

每年電影出得倒是不少，真正質量好的又能有幾部呢？

今天剛好看到新周刊的推文「2018年10大爛片」。

影評人周黎明：如果一部影片既沒有表達，也沒有最基本的技術水準，那應該是最徹底的爛片。

講道理，國產爛片還真不少...

03 中外電影評分情況

通過上張圖，我們知道國外電影是占據了榜單的大多數。

不過這里評分情況，倒是倍感欣慰，說明國產電影中的精品也不錯，和國外電影并沒有太大的差距。

只是這些影片貌似有點老了...

04 電影數TOP10

美國遙遙領先，中國位居其中。

在我的那篇「2018年電影分析」中，中國目前可是個電影高產國，結果呢...

香港都比內地的多。這里不得不佩服90，00年代的香港影業，確實很強！

05 電影評分分布

大多分布于「8.5」到「9.2」之間。最低「8.3」，最高「9.6」。

06 評論人數TOP10

讓我們來看看人氣最高的有哪些影片，你又看過幾部呢？

記得上學的時候，時間多。我根據IMDbTOP250，看了榜上大部分的電影。

于是乎豆瓣電影這個TOP10，我也全看過了，都是一些有故事的電影。

07 排名評分人數三維度

總的來說，排名越靠前，評價人數越多，并且分數也越高。

08 年份評分人數三維度

這里就更加明顯看出榜單上電影分布情況，大部分都是80年代以后的。

在90年代有個小高峰，不僅評價高，人氣還高。

往后的數據就相對平穩，變化不是太大。

09 電影類型圖

和我之前「2018年電影分析」比較一下，發現榜單里「動作」片減少不少，其他差別不大。

這算不算是間接說明國人更喜歡視覺上的東西呢？

/ 03 / 總結

本次只是一個簡單的Scrapy操作，目的就是簡單了解一下它的使用。

以后或許會更深入去學習Scrapy框架，所以慢慢等小F填坑吧！

本文轉載自微信公眾號【java學習之道】。

爬蟲 python

分離 姓名和電話號碼以便進行統計匯總分析（excel怎么分離姓名和電話號碼）">Excel中分離 姓名和電話號碼以便進行統計匯總分析（excel怎么分離姓名和電話號碼）

1381 2025-04-01

巧妙 運用Excel中邊界的附加功能">如何巧妙 運用Excel中邊界的附加功能

1381 2025-04-01

發現的十個Excel偷懶技巧掌握了就可以提高工作效率（excel效率手冊:早做完,不加班）">剛發現的十個Excel偷懶技巧掌握了就可以提高工作效率（excel效率手冊:早做完,不加班）

1381 2025-04-01

用Python爬取豆瓣電影TOP250分析

分離 姓名和電話號碼以便進行統計匯總分析（excel怎么分離姓名和電話號碼）">Excel中分離 姓名和電話號碼以便進行統計匯總分析（excel怎么分離姓名和電話號碼）

巧妙 運用Excel中邊界的附加功能">如何巧妙 運用Excel中邊界的附加功能

發現的十個Excel偷懶技巧掌握了就可以提高工作效率（excel效率手冊:早做完,不加班）">剛發現的十個Excel偷懶技巧掌握了就可以提高工作效率（excel效率手冊:早做完,不加班）

推薦文章

企業生產管理是什么，企業生產管理軟件

進盤點進銷存軟件排行榜前十名

進銷存系統哪個簡單好用？進銷存系統優點

工廠生產管理（工廠生產管理流程及制度）

生產管理軟件，機械制造業生產管理，制造業生產過程管理軟件

進銷存軟件和ERP有什么區別？進銷存與erp軟件理解

進銷存如何進行庫存管理

如何利用excel制作銷售訂單管理系統？

數據庫訂單管理系統有哪些功能？數據庫訂單管理系統怎么設計？

什么是數據庫管理系統？

最近發表

熱評文章

零代碼開發是什么？2022低代碼平臺排行榜">零代碼開發是什么？2022低代碼平臺排行榜

進銷存庫存管理 系統（智慧進銷存）">智能進銷存庫存管理系統（智慧進銷存）

在線文檔哪家強？8款在線文檔編輯軟件推薦">在線文檔哪家強？8款在線文檔編輯軟件推薦

WPS2016怎么繪制簡單的價格表?

定制家居數字化管理模式：提升品質、智能化和個性化的未

智能定制家居管理系統：重新定義家庭生活方式

友情鏈接