python中的解碼與編碼
1. 基本概念
比特(bit):計算機中最小的數據單位,是單個的二進制數值0或1
字節(byte):計算機村塾數據的單元,1個字節由8個比特組成,如b’\xc3\xc0\xc0\xf6\xc8\xcb\xc9\xfa’(b開頭表示字節,一個斜杠就是一個字節)
字符:人類能夠識別的符號,如“中國”、“cat”等。一個常用漢字用GBK編碼后占用2個字節,用utf-8編碼后占3個字節。
編碼:將人類可以識別的字符轉換為及其可識別的字節
解碼:編碼的反向過程。
簡介:Unicode編碼是人類可識別的字符格式;ASCII、utf-8,gbk等都是及其可識別的編碼格式。我們在寫py3代碼時,字符的格式就是Unicode,而字符是以字節為存儲單位保存在文件中,文件保存在內存/物理磁盤中。
Python3中,計算機內存中的數據,統一用Unicode編碼,如我在jupyter notebook中輸入s = ‘中國’,這個s在計算機內存中,編碼方式為Unicode。
Python3中,數據傳輸或保存到硬盤中,默認使用utf-8編碼。如保存一個df成csv文件時,如果不指定encoding,則默認為utf-8
指定編碼,在文件開頭,例如:Python 文件通常這樣寫:-- coding:utf-8 --;HTML 文件通常這樣寫:
Python
版權聲明:本文內容由網絡用戶投稿,版權歸原作者所有,本站不擁有其著作權,亦不承擔相應法律責任。如果您發現本站中有涉嫌抄襲或描述失實的內容,請聯系我們jiasou666@gmail.com 處理,核實后本網站將在24小時內刪除侵權內容。
版權聲明:本文內容由網絡用戶投稿,版權歸原作者所有,本站不擁有其著作權,亦不承擔相應法律責任。如果您發現本站中有涉嫌抄襲或描述失實的內容,請聯系我們jiasou666@gmail.com 處理,核實后本網站將在24小時內刪除侵權內容。