1629. 按鍵持續時間最長的鍵
787
2025-04-02
情緒萎靡不振,并不想說話,咱直接看代碼吧。
import requests from fake_useragent import UserAgent import pandas as pd #import requests_cache import json # https://movie.douban.com/j/new_search_subjects?sort=U&range=0,10&tags=&start=20 def get_url_json(url): ''' 使用requests.get方法 獲取url中的json數據 :parameter url:網址https://movie.douban.com/j/new_search_subjects?sort=U&range=0,10&tags=&start=20 :returns 列表,包含電影數據 ''' res = requests.get(url, headers={'User-Agent': UserAgent().random}) if res.status_code == 200: return res.json()['data'] return [] import time def from_douban_to_jsonl(file_name): ''' 調用get_url_json方法獲取數據,并且將數據存儲到jsonl文件中 :parameter file_name:將要存儲的文件名 ''' for i in range(0,200,20): url = 'http://movie.douban.com/j/new_search_subjects?sort=U&range=0,10&tags=&start='+str(i) print(url) movies = get_url_json(url) time.sleep(2) with open(file_name,'a+') as db: for movie in movies: db.write(json.dumps(movie)) db.write('\n') def manage_data(file_name): ''' 將數據從文件中讀取,并對數據進行一波處理 :param file_name: 將要讀取的文件名 :return: ''' df = pd.read_json(file_name,lines=True) # 讀取jsonl文件 df.drop_duplicates(subset='id') # 數據去重 df = df.set_index('id') # 設置索引列,返回一個新的對象 df = df[['casts','cover','directors','rate','star','title','url']] # 選擇要保存的列 # 使用apply方法按列處理演員和導演數據 df['main_cast'] = df['casts'].apply(lambda x:x[0] if len(x)>0 else '') df['director'] = df['directors'].apply(lambda x:x[0] if len(x)>0 else '') # 去掉列表中的‘[]’,轉化為字符串 df['casts'] = df['casts'].apply(lambda x:','.join(x)) df['directors'] = df['casts'].apply(lambda x:','.join(x)) from_douban_to_jsonl('doubanmovie.jsonl') manage_data('doubanmovie.jsonl')
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
33
34
35
36
37
38
39
40
41
42
43
44
45
46
47
48
49
50
51
52
53
54
55
56
57
58
59
60
學到了啥,我覺得除了基本知識以外,最重要的一點就是代碼文檔吧。
以前從來沒有寫過這樣的文檔。
其他
版權聲明:本文內容由網絡用戶投稿,版權歸原作者所有,本站不擁有其著作權,亦不承擔相應法律責任。如果您發現本站中有涉嫌抄襲或描述失實的內容,請聯系我們jiasou666@gmail.com 處理,核實后本網站將在24小時內刪除侵權內容。
版權聲明:本文內容由網絡用戶投稿,版權歸原作者所有,本站不擁有其著作權,亦不承擔相應法律責任。如果您發現本站中有涉嫌抄襲或描述失實的內容,請聯系我們jiasou666@gmail.com 處理,核實后本網站將在24小時內刪除侵權內容。