<strike id="o80gm"></strike>

<ul id="o80gm"></ul>

[python基礎]關于中文編碼和解碼那點事兒

網友投稿 902 2025-03-31

我們在用Python處理中文的時候，或多或少會遇到這樣一些錯誤

常見錯誤1:

SyntaxError: Non-ASCII character '\xe4' in file C

常見錯誤2:

UnicodeEncodeError: 'ascii' codec can't encode characters in position 0-1: ordinal not in range(128)

毫無疑問，我們在用Python2.7.x的時候都會遇到這種問題，我們常規的解法又是怎么樣的呢

# coding:utf-8 import requests def print_text(): url = 'http://www.cnblogs.com/' print requests.get(url).text.encode('utf-8') print_text()

# coding:utf-8

import requests

def print_text():

url = 'http://www.cnblogs.com/'

print requests.get(url).text.encode('utf-8')

print_text()

首先在文件py文件的頭部加上標識coding:utf-8 ，然后使用encode(‘utf-8’)，一般這樣處理，文字都可以正常顯示到我們的控制臺了。那有沒有想過我們為什么要這樣做？如果你不僅是對寫code感興趣，更想了解其中的原因的話，那我們接著往下看

說起字符的編碼與解碼，那就不得不提字符集了

如圖所示，我們所知的英文編碼都是采用ansi編碼，隨著中國的崛起，國家也開始信息化，但是計算機不認識中國漢字，怎么辦呢，我們制定自己統一的字符集，這就是GB2312，

后來更新的字符集，GBK,GB18030,BIG5 ，都是在原來的基礎之上增加一些新的元素的識別，比如一些生僻字，繁體字認識。

這樣一來不是中文一套，英文一套，那后來的一些其它的國家文字不就都不能互相通用了，那干脆一鍋端，將這些英文，中文，各國的語言文字大一統，Unicode就出現了，不僅兼容了這些文字，與方便了各國的信息交流.

在Unicode編碼方式下，又存在 utf-8,utf-16,utf-32的編碼方式

通過上面的一些例子，我們可以大致對于編碼和解碼有一個大概的印象，那接下來我們看看python2.7.x對于編碼是怎么處理的,還是先上一個圖

basestring下面有兩個對象，unicode,str 那這兩者的關系是怎么樣的？

unicode ? ==encode==> ?str

str ? ? ? ? ==decode==> ? unicode

我們先看python的輸出

# coding:utf-8 s = '中文' print type(s)

# coding:utf-8

[python基礎]關于中文編碼和解碼那點事兒

s = '中文'

print type(s)

輸出:

'str'>

在看看decode之后的處理方式

# coding:utf-8 s = '中文'.decode('utf-8') print type(s)

# coding:utf-8

s = '中文'.decode('utf-8')

print type(s)

輸出:

'unicode'>

這樣實驗我們可以很直觀的感受到，當我們要輸出一個中文的時候：我們輸出的是一個經過unicode原始對象encode后的str，那當我們拿到一個返回對象，最常見的在爬蟲里面得到返回字符串的時候我們怎么處理呢？

首先我們要在py文件頭部聲明處理編碼，因為我們的py文件默認采用的是ascii編碼，當返回的字符串寫回到文檔時就與文檔編碼相沖突，這里就會報銷:

#coding:utf-8

一般我們加上coding:utf-8就夠了，或者coding:gbk也可以

然后對于返回對象我們可以查看一下類型type(response.text)

如果是unicode ，那這response.text.encode(‘utf-8’)就可以得到我們要的str對象，如果是str，我們可以直接print出來，或者先解碼，在按你需要的方式編碼.

參考文章:

中文編碼雜談

python進階-編碼處理小結

Python

標簽：Python 基礎關于

辦公 自動化(三) | 借助服務器定時爬數據發郵件">python辦公 自動化(三) | 借助服務器定時爬數據發郵件

902 2025-03-31

Python3 網絡爬蟲開發實戰] 1.4.3-Redis 的安裝">[Python3 網絡爬蟲開發實戰] 1.4.3-Redis 的安裝

902 2025-03-31

Python 庫的安裝">Elasticsearch Python 庫的安裝

902 2025-03-31

<ul id="yiwws"></ul>

[python基礎]關于中文編碼和解碼那點事兒

辦公 自動化(三) | 借助服務器定時爬數據發郵件">python辦公 自動化(三) | 借助服務器定時爬數據發郵件

Python3 網絡爬蟲開發實戰] 1.4.3-Redis 的安裝">[Python3 網絡爬蟲開發實戰] 1.4.3-Redis 的安裝

Python 庫的安裝">Elasticsearch Python 庫的安裝

推薦文章

企業生產管理是什么，企業生產管理軟件

進盤點進銷存軟件排行榜前十名

進銷存系統哪個簡單好用？進銷存系統優點

工廠生產管理（工廠生產管理流程及制度）

生產管理軟件，機械制造業生產管理，制造業生產過程管理軟件

進銷存軟件和ERP有什么區別？進銷存與erp軟件理解

進銷存如何進行庫存管理

如何利用excel制作銷售訂單管理系統？

數據庫訂單管理系統有哪些功能？數據庫訂單管理系統怎么設計？

什么是數據庫管理系統？

最近發表

熱評文章

零代碼開發是什么？2022低代碼平臺排行榜">零代碼開發是什么？2022低代碼平臺排行榜

進銷存庫存管理 系統（智慧進銷存）">智能進銷存庫存管理系統（智慧進銷存）

在線文檔哪家強？8款在線文檔編輯軟件推薦">在線文檔哪家強？8款在線文檔編輯軟件推薦

WPS2016怎么繪制簡單的價格表?

定制家居數字化管理模式：提升品質、智能化和個性化的未

智能定制家居管理系統：重新定義家庭生活方式

友情鏈接

[python基礎]關于中文編碼和解碼那點事兒

辦公自動化(三) | 借助服務器定時爬數據發郵件">python辦公自動化(三) | 借助服務器定時爬數據發郵件

Python3 網絡爬蟲開發實戰] 1.4.3-Redis 的安裝">[Python3 網絡爬蟲開發實戰] 1.4.3-Redis 的安裝

Python 庫的安裝">Elasticsearch Python 庫的安裝

推薦文章

最近發表

熱評文章

零代碼開發是什么？2022低代碼平臺排行榜">零代碼開發是什么？2022低代碼平臺排行榜

進銷存庫存管理系統（智慧進銷存）">智能進銷存庫存管理系統（智慧進銷存）

在線文檔哪家強？8款在線文檔編輯軟件推薦">在線文檔哪家強？8款在線文檔編輯軟件推薦

友情鏈接

零代碼開發是什么？2022低代碼平臺排行榜">零代碼開發是什么？2022低代碼平臺排行榜

在線文檔哪家強？8款在線文檔編輯軟件推薦">在線文檔哪家強？8款在線文檔編輯軟件推薦