Python：嘗試對知乎網驗證碼進行處理

網友投稿 940 2022-05-29

許多流行的內容管理系統(tǒng)即使加了驗證碼模塊，其眾所周知的注冊頁面也經常會遭到網絡機器人的垃圾注冊。

那么，這些網絡機器人究，竟是怎么做的呢?既然我們已經，可以成功地識別出保存在電腦上的驗證碼了，那么如何才能實現一個全能的網絡機器人呢?

大多數網站生成的驗證碼圖片都具有以下屬性。

它們是服務器端的程序動態(tài)生成的圖片。驗證碼圖片的 src 屬性可能和普通圖片不太一樣，比如?

text = pytesseract.image_to_string(image)

print "機器識別后的驗證碼為：" + text

command = raw_input("請輸入Y表示同意使用，按其他鍵自行重新輸入：")

if (command == "Y" or command == "y"):

return text

else:

return raw_input('輸入驗證碼：')

def zhihuLogin(username,password):

# 構建一個保存Cookie值的session對象

sessiona = requests.Session()

headers = {'User-Agent':'Mozilla/5.0 (Windows NT 10.0; Win64; x64; rv:47.0) Gecko/20100101 Firefox/47.0'}

# 先獲取頁面信息，找到需要POST的數據（并且已記錄當前頁面的Cookie）

html = sessiona.get('https://www.zhihu.com/#signin', headers=headers).content

# 找到 name 屬性值為 _xsrf 的input標簽，取出value里的值

_xsrf = BeautifulSoup(html ,'lxml').find('input', attrs={'name':'_xsrf'}).get('value')

# 取出驗證碼，r后面的值是Unix時間戳,time.time()

captcha_url = 'https://www.zhihu.com/captcha.gif?r=%d&type=login' % (time.time() * 1000)

response = sessiona.get(captcha_url, headers = headers)

data = {

"_xsrf":_xsrf,

"email":username,

"password":password,

"remember_me":True,

"captcha": captcha(response.content)

}

response = sessiona.post('https://www.zhihu.com/login/email', data = data, headers=headers)

print response.text

response = sessiona.get('https://www.zhihu.com/people/maozhaojun/activities', headers=headers)

print response.text

if __name__ == "__main__":

#username = raw_input("username")

#password = raw_input("password")

zhihuLogin('xxxx@qq.com','ALAxxxxIME')

值得注意的是，有兩種異常情況會導致這個程序運行失敗。第一種情況是，如果 Tesseract 從驗證碼圖片中識別的結果不是四個字符(因為訓練樣本中驗證碼的所有有效答案都必須是四個字符)，結果不會被提交，程序失敗。第二種情況是雖然識別的結果是四個字符，被提交到了表單，但是服務器對結果不認可，程序仍然失敗。

在實際運行過程中，第一種情況發(fā)生的可能性大約為 50%，發(fā)生時程序不會向表單提交，程序直接結束并提示驗證碼識別錯誤。第二種異常情況發(fā)生的概率約為 20%，四個字符都對的概率約是 30%(每個字母的識別正確率大約是 80%，如果是五個字符都識別，正確的總概率是 32.8%)。

Python 網絡

標簽：Python 嘗試知乎網

辦公 自動化(三) | 借助服務器定時爬數據發(fā)郵件">python辦公 自動化(三) | 借助服務器定時爬數據發(fā)郵件

940 2022-05-29

文件很卡的">怎么一次性刪除這個編輯符號，。導致文件很卡的

940 2022-05-29

WPS操作時，總是停頓，嚴重影響工作效率（wps操作頻繁）

940 2022-05-29

Python：嘗試對知乎網驗證碼進行處理

辦公 自動化(三) | 借助服務器定時爬數據發(fā)郵件">python辦公 自動化(三) | 借助服務器定時爬數據發(fā)郵件

文件很卡的">怎么一次性刪除這個編輯符號，。導致文件很卡的

WPS操作時，總是停頓，嚴重影響工作效率（wps操作頻繁）

推薦文章

企業(yè)生產管理是什么，企業(yè)生產管理軟件

進盤點進銷存軟件排行榜前十名

進銷存系統(tǒng)哪個簡單好用？進銷存系統(tǒng)優(yōu)點

工廠生產管理（工廠生產管理流程及制度）

生產管理軟件，機械制造業(yè)生產管理，制造業(yè)生產過程管理軟件

進銷存軟件和ERP有什么區(qū)別？進銷存與erp軟件理解

進銷存如何進行庫存管理

如何利用excel制作銷售訂單管理系統(tǒng)？

數據庫訂單管理系統(tǒng)有哪些功能？數據庫訂單管理系統(tǒng)怎么設計？

什么是數據庫管理系統(tǒng)？

最近發(fā)表

熱評文章

零代碼開發(fā)是什么？2022低代碼平臺排行榜">零代碼開發(fā)是什么？2022低代碼平臺排行榜

進銷存庫存管理 系統(tǒng)（智慧進銷存）">智能進銷存庫存管理系統(tǒng)（智慧進銷存）

在線文檔哪家強？8款在線文檔編輯軟件推薦">在線文檔哪家強？8款在線文檔編輯軟件推薦

WPS2016怎么繪制簡單的價格表?

系統(tǒng)的功能有哪些？餐飲服務系統(tǒng)的構成及工作程序">連鎖餐飲管理系統(tǒng)的功能有哪些？餐飲服務系統(tǒng)的構成及工

進銷存庫存管理盤點">簡單進銷存庫存管理盤點

友情鏈接