1629. 按鍵持續(xù)時(shí)間最長(zhǎng)的鍵
641
2025-03-31
Python基礎(chǔ)二
一. 格式化輸出
現(xiàn)有一練習(xí)需求,問(wèn)用戶(hù)的姓名、年齡、工作、愛(ài)好 ,然后打印成以下格式
------------?info?of?太白金星??----------- Name??:?太白金星 Age???:?22 job???:?Teacher Hobbie:?girl -------------?end?-----------------
你怎么實(shí)現(xiàn)呢?你會(huì)發(fā)現(xiàn),用字符拼接的方式還難實(shí)現(xiàn)這種格式的輸出,所以一起來(lái)學(xué)一下新姿勢(shì)
只需要把要打印的格式先準(zhǔn)備好, 由于里面的 一些信息是需要用戶(hù)輸入的,你沒(méi)辦法預(yù)設(shè)知道,因此可以先放置個(gè)占位符,再把字符串里的占位符與外部的變量做個(gè)映射關(guān)系就好啦
name?=?input("Name:") age?=?input("Age:") job?=?input("Job:") hobbie?=?input("Hobbie:") info?=?''' ------------?info?of?%s?-----------?#這里的每個(gè)%s就是一個(gè)占位符,本行的代表?后面拓號(hào)里的?name? Name??:?%s??#代表?name? Age???:?%s??#代表?age?? job???:?%s??#代表?job? Hobbie:?%s??#代表?hobbie? -------------?end?----------------- '''?%(name,name,age,job,hobbie)??#?這行的?%?號(hào)就是?把前面的字符串?與拓號(hào)?后面的?變量?關(guān)聯(lián)起來(lái)? print(info)
%s就是代表字符串占位符,除此之外,還有%d,是數(shù)字占位符, 如果把上面的age后面的換成%d,就代表你必須只能輸入數(shù)字啦
age?????:?%d
我們運(yùn)行一下,但是發(fā)現(xiàn)出錯(cuò)了。。。
說(shuō)%d需要一個(gè)數(shù)字,而不是str, what? 我們明明輸入的是數(shù)字呀,22,22呀。
不用擔(dān)心 ,不要相信你的眼睛我們調(diào)試一下,看看輸入的到底是不是數(shù)字呢?怎么看呢?查看數(shù)據(jù)類(lèi)型的方法是什么來(lái)著?type()
name?=?input("Name:") age?=?input("Age:")print(type(age))
執(zhí)行輸出是
Name:AlexAge:22
讓我大聲告訴你,input接收的所有輸入默認(rèn)都是字符串格式!
要想程序不出錯(cuò),那怎么辦呢?簡(jiǎn)單,你可以把str轉(zhuǎn)成int
age?=?int(??input("Age:")??)print(type(age))
肯定沒(méi)問(wèn)題了。相反,能不能把字符串轉(zhuǎn)成數(shù)字呢?必然可以,str( yourStr )
問(wèn)題:現(xiàn)在有這么行代碼
msg?=?"我是%s,年齡%d,目前學(xué)習(xí)進(jìn)度為80%"%('金鑫',18) print(msg)
這樣會(huì)報(bào)錯(cuò)的,因?yàn)樵?a target="_blank" href="http://m.bai1xia.com/news/tags-835.html"style="font-weight:bold;">格式化輸出里,你出現(xiàn)%默認(rèn)為就是占位符的%,但是我想在上面一條語(yǔ)句中最后的80%就是表示80%而不是占位符,怎么辦?
msg?=?"我是%s,年齡%d,目前學(xué)習(xí)進(jìn)度為80%%"%('金鑫',18) print(msg)
這樣就可以了,第一個(gè)%是對(duì)第二個(gè)%的轉(zhuǎn)譯,告訴Python解釋器這只是一個(gè)單純的%,而不是占位符。
二. 流程控制之--while循環(huán)
Why:在生活中,我們遇到過(guò)循環(huán)的事情吧?比如吃飯睡覺(jué)工作,循環(huán)聽(tīng)歌等等。在python程序中,循環(huán)也是存在的。
What:那么這個(gè)循環(huán)在Python中就是流程控制語(yǔ)句while。
while?條件:
# 循環(huán)體
# 如果條件為真,那么循環(huán)體則執(zhí)行
# 如果條件為假,那么循環(huán)體不執(zhí)行
while?True:???? ????print('癢')???? ????print('社會(huì)搖')???? ????print('喜洋洋')???? ????print('我要這鐵棒有何用')
那么大家都看到了,while循環(huán)他的執(zhí)行結(jié)果就是這樣一直循環(huán),只要電腦不死機(jī),直至天荒地老....... 他的內(nèi)部是怎么執(zhí)行的呢?
這樣大家就能清楚的明白while到底是如何進(jìn)行循環(huán)的了,那么問(wèn)題也來(lái)了:這個(gè)循環(huán)如何終止呢?
改變條件(根據(jù)上面的流程,只要改變條件,就會(huì)終止循環(huán))。
關(guān)鍵字:break。
調(diào)用系統(tǒng)命令:quit(),exit() 后面會(huì)講到,不建議大家使用。
關(guān)鍵字:continue(終止本次循環(huán))。
2.3.1 終止循環(huán)的第一個(gè)方法:利用改變條件,終止循環(huán)。給大家引入標(biāo)志位的概念。
flag?=?True while?flag: ????print('癢') ????print('社會(huì)搖') ????print('喜洋洋') ????flag?=?False ????print('我要這鐵棒有何用')
count?=?1 flag?=?True while?flag: ????print(count) ????count?=?count?+?1 ????if?count?==?101: ????????flag?=?False 練習(xí)1:輸出1~100所有的數(shù)字
''' 思路:你要想從1+2+3......+100一直加到100,那么最起碼你得有一個(gè)自變量,比如count,這個(gè)count每次循環(huán)都會(huì)自加1,除了這個(gè)之外,你還有有一個(gè)變量,讓這個(gè)變量一直去加這個(gè)count,這個(gè)基礎(chǔ)變量還不能影響最終的結(jié)果,所以這個(gè)基礎(chǔ)變量初始值為0,按照這個(gè)思路寫(xiě)一下。 ''' count?=?1 s?=?0 while?count?101: ????s?=?s?+?count ????count?=?count?+?1 print(s) 練習(xí)2:使用while循環(huán)求出1-100所有數(shù)的和.
2.3.2 終止循環(huán)的第二方法:break
break:很簡(jiǎn)單,就是Python給大家提供的關(guān)鍵字,什么是關(guān)鍵字?就是python中具有一定特殊意義的單詞,比如if,str,int等,這些不能用作變量對(duì)吧?
那么break的用法是什么? 即:循環(huán)中,只要遇到break馬上退出循環(huán)。舉例說(shuō)明:
flag?=?True print(111) while?flag: ????print('癢') ????print('社會(huì)搖') ????print('喜洋洋') ????break ????print('我要這鐵棒有何用') print(222)
''' 思路:所有的偶數(shù),偶數(shù)有什么特點(diǎn)??對(duì)2取余為0,取余在python中用%表示。再循環(huán)時(shí),你要先打印出1~100所有的數(shù),會(huì)吧??在這個(gè)基礎(chǔ)上加以改動(dòng):當(dāng)count為偶數(shù)時(shí)打印,否則什么操作都不做。 ''' #?方法一: count?=?1 while?True: ????if?count?%?2?==?0: ????????print(count) ????count?=?count?+?1 ????if?count?==?101: ????????break #?方法二: count?=?1 while?count?101: ????if?count?%?2?==?0: ????????print(count) ????count?=?count?+?1 #?方法三: count?=?2 while?count?101: ????print(count) ????count?=?count?+?2 練習(xí)3:打印1~100所有的偶數(shù)
2.3.3 終止循環(huán)的第三個(gè)方法:今天先不講了,后面會(huì)給大家補(bǔ)充。
2.3.4 continue
continue 用于終止本次循環(huán),繼續(xù)下一次循環(huán)。舉例說(shuō)明:
flag?=?True print(111) while?flag: ????print('癢') ????print('社會(huì)搖') ????print('喜洋洋') ????continue ????print('我要這鐵棒有何用') print(222)
count?=?0 while?count?10: ????count?=?count?+?1 ????if?count?==?7: ????????continue ????print(count) 練習(xí)4:?使用while循環(huán)打印?1?2?3?4?5?6?8?9?10
count?=?0 while?count?<=?100?:? ????count?+=?1 ????if?count?>?5?and?count?95:?#只要count在6-94之間,就不走下面的print語(yǔ)句,直接進(jìn)入下一次loop ????????continue? ????print(?count) 練習(xí)5:請(qǐng)輸出1,2,3,4,5,95,96,97,98,99,100
與其它語(yǔ)言else 一般只與if 搭配不同,在Python 中還有個(gè)while ...else 語(yǔ)句
while 后面的else 作用是指,當(dāng)while 循環(huán)正常執(zhí)行完,中間沒(méi)有被break 中止的話(huà),就會(huì)執(zhí)行else后面的語(yǔ)句
count?=?0 while?count?<=?5?: ????count?+=?1 ????print("Loop",count) else: ????print("循環(huán)正常執(zhí)行完啦") print("-----out?of?while?loop?------")
輸出
Loop?1 Loop?2 Loop?3 Loop?4 Loop?5 Loop?6 循環(huán)正常執(zhí)行完啦 -----out?of?while?loop?------
如果執(zhí)行過(guò)程中被break啦,就不會(huì)執(zhí)行else的語(yǔ)句啦
count?=?0 while?count?<=?5?: ????count?+=?1 ????if?count?==?3:break ????print("Loop",count) else: ????print("循環(huán)正常執(zhí)行完啦") print("-----out?of?while?loop?------")
輸出
Loop?1Loop?2 -----out?of?while?loop?------
三. 基本運(yùn)算符
運(yùn)算符
計(jì)算機(jī)可以進(jìn)行的運(yùn)算有很多種,可不只加減乘除這么簡(jiǎn)單,運(yùn)算按種類(lèi)可分為算數(shù)運(yùn)算、比較運(yùn)算、邏輯運(yùn)算、賦值運(yùn)算、成員運(yùn)算、身份運(yùn)算、位運(yùn)算,今天我們暫只學(xué)習(xí)算數(shù)運(yùn)算、比較運(yùn)算、邏輯運(yùn)算、賦值運(yùn)算、成員運(yùn)算
算數(shù)運(yùn)算
以下假設(shè)變量:a=10,b=20
比較運(yùn)算
以下假設(shè)變量:a=10,b=20
賦值運(yùn)算
以下假設(shè)變量:a=10,b=20
邏輯運(yùn)算
針對(duì)邏輯運(yùn)算的進(jìn)一步研究:
1,在沒(méi)有()的情況下not 優(yōu)先級(jí)高于?and,and優(yōu)先級(jí)高于or,即優(yōu)先級(jí)關(guān)系為( )>not>and>or,同一優(yōu)先級(jí)從左往右計(jì)算。
例題:
判斷下列邏輯語(yǔ)句的True,F(xiàn)alse。
1,3>4?or?4<3?and?1==1 2,1?2?and?3?4?or?1>2? 3,2?>?1?and?3?4?or?4?>?5?and?2?1 4,1?>?2?and?3?4?or?4?>?5?and?2?>?1?or?9?8 5,1?>?1?and?3?4?or?4?>?5?and?2?>?1?and?9?>?8?or?7?6 6,not?2?>?1?and?3?4?or?4?>?5?and?2?>?1?and?9?>?8?or?7?6
2 , ?x or y , x為真,值就是x,x為假,值是y;
x and y, x為真,值是y,x為假,值是x。
例題:求出下列邏輯語(yǔ)句的值。
8?or?40?and?30?or?4?and?3?or?7?or?9?and?6
成員運(yùn)算:
除了以上的一些運(yùn)算符之外,Python還支持成員運(yùn)算符,測(cè)試實(shí)例中包含了一系列的成員,包括字符串,列表或元組。
判斷子元素是否在原字符串(字典,列表,集合)中:
例如:
#print('喜歡'?in?'dkfljadklf喜歡hfjdkas') #print('a'?in?'bcvd') #print('y'?not?in?'ofkjdslaf')
Python運(yùn)算符優(yōu)先級(jí)
以下表格列出了從最高到最低優(yōu)先級(jí)的所有運(yùn)算符:
四. 編碼的初識(shí)
咱們都看過(guò)諜戰(zhàn)片吧?是不是都看過(guò)發(fā)電報(bào)的場(chǎng)景?電報(bào)發(fā)的是什么?滴滴滴,滴滴。是不是高低電平?
在回到咱們的電腦上,咱們的電腦,存儲(chǔ)和發(fā)送文件,發(fā)送的是什么?電腦里面是不是有成千上萬(wàn)個(gè)二極管,亮的代表是1,不亮的代表是0,這樣實(shí)際上電腦的存儲(chǔ)和發(fā)送是不是都是010101?
來(lái)找個(gè)同學(xué),咱們模擬一下諜戰(zhàn)時(shí)期的情景:
我發(fā)給你一句話(huà):今晚嗨去呀?
前提是不是需要一個(gè)對(duì)照本?010101?代表什么文字?
今??? 01
晚??? 101
嗨??? 00111
去??? 1001
這樣我給你發(fā)過(guò)去你能看懂么?
011010001111001
是不是應(yīng)該斷句?規(guī)定幾個(gè)01是一個(gè)文字?
所以我規(guī)定了八位為一段,
今??? 0000 0001
晚??? 0000 0101
嗨??? 0000 0111
去??? 0000 1001
00000001 00000101 00000111 00001001
這樣,你就能明白了,所以asiic碼就相當(dāng)于這個(gè)密碼本,這個(gè)密碼本記錄的就是0101010 與 文字之間的對(duì)應(yīng)關(guān)系。
那么咱們重新捋順序一遍:
計(jì)算機(jī)是需要存儲(chǔ)數(shù)據(jù)和通過(guò)網(wǎng)絡(luò)傳輸數(shù)據(jù)的,計(jì)算機(jī)存儲(chǔ)在磁盤(pán)中的數(shù)據(jù)或者通過(guò)網(wǎng)絡(luò)發(fā)送的數(shù)據(jù)本質(zhì)發(fā)送的都是bit流也就是所謂的01010101101,那么這些010010是需要與咱們熟知的文字有標(biāo)準(zhǔn)的對(duì)應(yīng)關(guān)系,這樣咱們才可以識(shí)別這些數(shù)據(jù)。
計(jì)算機(jī)起初使用的密碼本是:ASCII碼(American Standard Code for Information Interchange,美國(guó)標(biāo)準(zhǔn)信息交換代碼)是基于拉丁字母的一套電腦編碼系統(tǒng)ASCII碼中只包含英文字母,數(shù)字以及特殊字符與二進(jìn)制的對(duì)應(yīng)關(guān)系,主要用于顯示現(xiàn)代英語(yǔ)和其他西歐語(yǔ)言,其最多只能用 8 位來(lái)表示(一個(gè)字節(jié)),即:2**8 = 256,所以,ASCII碼最多只能表示 256 個(gè)符號(hào)。
ASCII碼:包含英文字母,數(shù)字,特殊字符與01010101對(duì)應(yīng)關(guān)系。
在計(jì)算機(jī)中,所有的數(shù)據(jù)在存儲(chǔ)和運(yùn)算時(shí)都要使用二進(jìn)制數(shù)表示(因?yàn)橛?jì)算機(jī)用高電平和低電平分別表示1和0),例如,像a、b、c、d這樣的52個(gè)字母(包括大寫(xiě))以及0、1等數(shù)字還有一些常用的符號(hào)(例如*、#、@等)在計(jì)算機(jī)中存儲(chǔ)時(shí)也要使用二進(jìn)制數(shù)來(lái)表示,而具體用哪些二進(jìn)制數(shù)字表示哪個(gè)符號(hào),當(dāng)然每個(gè)人都可以約定自己的一套(這就叫編碼),而大家如果要想互相通信而不造成混亂,那么大家就必須使用相同的編碼規(guī)則,于是美國(guó)有關(guān)的標(biāo)準(zhǔn)化組織就出臺(tái)了ASCII編碼,統(tǒng)一規(guī)定了上述常用符號(hào)用哪些二進(jìn)制數(shù)來(lái)表示。?[2]? 美國(guó)標(biāo)準(zhǔn)信息交換代碼是由美國(guó)國(guó)家標(biāo)準(zhǔn)學(xué)會(huì)(American?National?Standard?Institute?,?ANSI?)制定的,標(biāo)準(zhǔn)的單字節(jié)字符編碼方案,用于基于文本的數(shù)據(jù)。起始于50年代后期,在1967年定案。它最初是美國(guó)國(guó)家標(biāo)準(zhǔn),供不同計(jì)算機(jī)在相互通信時(shí)用作共同遵守的西文字符編碼標(biāo)準(zhǔn),它已被國(guó)際標(biāo)準(zhǔn)化組織(International?Organization?for?Standardization,?ISO)定為國(guó)際標(biāo)準(zhǔn),稱(chēng)為ISO?646標(biāo)準(zhǔn)。適用于所有拉丁文字字母。 ASCII碼產(chǎn)生原因以及時(shí)間
下面是具體的ASCII碼:
Bin(二進(jìn)制)
Dec(十進(jìn)制)
Hex(十六進(jìn)制)
縮寫(xiě)/字符
解釋
0000 0000
0
0
00
NUL(null)
空字符
0000 0001
1
1
01
SOH(start of headline)
標(biāo)題開(kāi)始
0000 0010
2
2
02
STX (start of text)
正文開(kāi)始
0000 0011
3
3
03
ETX (end of text)
正文結(jié)束
0000 0100
4
4
04
EOT (end of transmission)
傳輸結(jié)束
0000 0101
5
5
05
ENQ (enquiry)
請(qǐng)求
0000 0110
6
6
06
ACK (acknowledge)
收到通知
0000 0111
7
7
07
BEL (bell)
響鈴
0000 1000
10
8
08
BS (backspace)
退格
0000 1001
11
9
09
HT (horizontal tab)
水平制表符
0000 1010
12
10
0A
LF (NL line feed, new line)
換行鍵
0000 1011
13
11
0B
VT (vertical tab)
垂直制表符
0000 1100
14
12
0C
FF (NP form feed, new page)
換頁(yè)鍵
0000 1101
15
13
0D
CR (carriage return)
回車(chē)鍵
0000 1110
16
14
0E
SO (shift out)
不用切換
0000 1111
17
15
0F
SI (shift in)
啟用切換
0001 0000
20
16
10
DLE (data link escape)
數(shù)據(jù)鏈路轉(zhuǎn)義
0001 0001
21
17
11
DC1 (device control 1)
設(shè)備控制1
0001 0010
22
18
12
DC2 (device control 2)
設(shè)備控制2
0001 0011
23
19
13
DC3 (device control 3)
設(shè)備控制3
0001 0100
24
20
14
DC4 (device control 4)
設(shè)備控制4
0001 0101
25
21
15
NAK (negative acknowledge)
拒絕接收
0001 0110
26
22
16
SYN (synchronous idle)
同步空閑
0001 0111
27
23
17
ETB (end of trans. block)
結(jié)束傳輸塊
0001 1000
30
24
18
CAN (cancel)
取消
0001 1001
31
25
19
EM (end of medium)
媒介結(jié)束
0001 1010
32
26
1A
SUB (substitute)
代替
0001 1011
33
27
1B
ESC (escape)
換碼(溢出)
0001 1100
34
28
1C
FS (file separator)
文件分隔符
0001 1101
35
29
1D
GS (group separator)
分組符
0001 1110
36
30
1E
RS (record separator)
記錄分隔符
0001 1111
37
31
1F
US (unit separator)
單元分隔符
0010 0000
40
32
20
(space)
空格
0010 0001
41
33
21
!
0010 0010
42
34
22
"
0010 0011
43
35
23
#
0010 0100
44
36
24
$
0010 0101
45
37
25
%
0010 0110
46
38
26
&
0010 0111
47
39
27
'
0010 1000
50
40
28
(
開(kāi)括號(hào)
0010 1001
51
41
29
)
閉括號(hào)
0010 1010
52
42
2A
*
0010 1011
53
43
2B
+
0010 1100
54
44
2C
,
0010 1101
55
45
2D
-
0010 1110
56
46
2E
.
00101111
57
47
2F
/
00110000
60
48
30
0
00110001
61
49
31
1
00110010
62
50
32
2
00110011
63
51
33
3
00110100
64
52
34
4
00110101
65
53
35
5
00110110
66
54
36
6
00110111
67
55
37
7
00111000
70
56
38
8
00111001
71
57
39
9
00111010
72
58
3A
:
00111011
73
59
3B
;
00111100
74
60
3C
<
00111101
75
61
3D
=
00111110
76
62
3E
>
00111111
77
63
3F
?
01000000
100
64
40
@
01000001
101
65
41
A
01000010
102
66
42
B
01000011
103
67
43
C
01000100
104
68
44
D
01000101
105
69
45
E
01000110
106
70
46
F
01000111
107
71
47
G
01001000
110
72
48
H
01001001
111
73
49
I
01001010
112
74
4A
J
01001011
113
75
4B
K
01001100
114
76
4C
L
01001101
115
77
4D
M
01001110
116
78
4E
N
01001111
117
79
4F
O
01010000
120
80
50
P
01010001
121
81
51
Q
01010010
122
82
52
R
01010011
123
83
53
S
01010100
124
84
54
T
01010101
125
85
55
U
01010110
126
86
56
V
01010111
127
87
57
W
01011000
130
88
58
X
01011001
131
89
59
Y
01011010
132
90
5A
Z
01011011
133
91
5B
[
01011100
134
92
5C
\
01011101
135
93
5D
]
01011110
136
94
5E
^
01011111
137
95
5F
_
01100000
140
96
60
`
01100001
141
97
61
a
01100010
142
98
62
b
01100011
143
99
63
c
01100100
144
100
64
d
01100101
145
101
65
e
01100110
146
102
66
f
01100111
147
103
67
g
01101000
150
104
68
h
01101001
151
105
69
i
01101010
152
106
6A
j
01101011
153
107
6B
k
01101100
154
108
6C
l
01101101
155
109
6D
m
01101110
156
110
6E
n
01101111
157
111
6F
o
01110000
160
112
70
p
01110001
161
113
71
q
01110010
162
114
72
r
01110011
163
115
73
s
01110100
164
116
74
t
01110101
165
117
75
u
01110110
166
118
76
v
01110111
167
119
77
w
01111000
170
120
78
x
01111001
171
121
79
y
01111010
172
122
7A
z
01111011
173
123
7B
{
01111100
174
124
7C
|
01111101
175
125
7D
}
01111110
176
126
7E
~
01111111
177
127
7F
DEL (delete)
#?思考:python中一個(gè)字符串為?'abc',那么如果用ASCII碼編碼,這個(gè)字符串占幾個(gè)字節(jié)? #?ASCII碼?一個(gè)字符用一個(gè)字節(jié)表示,所以字符串'abc'占三個(gè)字節(jié),'abc'如果存儲(chǔ)在磁盤(pán)中其實(shí)存儲(chǔ)的是:0110?0001?0110?0010?0110?0011
隨著計(jì)算機(jī)的發(fā)展. 以及普及率的提高. 流?到歐洲和亞洲. 這時(shí)ASCII碼就不合適了. 比如: 中?漢字有幾萬(wàn)個(gè). 而ASCII 多也就256個(gè)位置. 所以ASCII不行了. 怎么辦呢? 這時(shí), 不同的國(guó)家就提出了不同的編碼用來(lái)適用于各自的語(yǔ)言環(huán)境(每個(gè)國(guó)家都有每個(gè)國(guó)家的GBK,每個(gè)國(guó)家的GBK都只包含ASCII碼中內(nèi)容以及本國(guó)自己的文字). 比如, 中國(guó)的GBK, GB2312, BIG5, ISO-8859-1等等. 這時(shí)各個(gè)國(guó)家都可以使用計(jì)算機(jī)了.
GBK:只包含本國(guó)文字(以及英文字母,數(shù)字,特殊字符)與0101010對(duì)應(yīng)關(guān)系。
GBK全稱(chēng)《漢字內(nèi)碼擴(kuò)展規(guī)范》(GBK即“國(guó)標(biāo)”、“擴(kuò)展”漢語(yǔ)拼音的第一個(gè)字母,英文名稱(chēng):Chinese?Internal?Code?Specification)?,中華人民共和國(guó)全國(guó)信息技術(shù)標(biāo)準(zhǔn)化技術(shù)委員會(huì)1995年12月1日制訂,國(guó)家技術(shù)監(jiān)督局標(biāo)準(zhǔn)化司、電子工業(yè)部科技與質(zhì)量監(jiān)督司1995年12月15日聯(lián)合以技監(jiān)標(biāo)函1995?229號(hào)文件的形式,將它確定為技術(shù)規(guī)范指導(dǎo)性文件。這一版的GBK規(guī)范為1.0版。 GBK?向下與?GB?2312?編碼兼容,向上支持?ISO?10646.1國(guó)際標(biāo)準(zhǔn),是前者向后者過(guò)渡過(guò)程中的一個(gè)承上啟下的產(chǎn)物。ISO?10646?是國(guó)際標(biāo)準(zhǔn)化組織?ISO?公布的一個(gè)編碼標(biāo)準(zhǔn),即?Universal?Multilpe-Octet?Coded?Character?Set(簡(jiǎn)稱(chēng)UCS),大陸譯為《通用多八位編碼字符集》,臺(tái)灣譯為《廣用多八位元編碼字元集》,它與?Unicode?組織的?Unicode?編碼完全兼容。ISO?10646.1?是該標(biāo)準(zhǔn)的第一部分《體系結(jié)構(gòu)與基本多文種平面》。我國(guó)?1993?年以?GB?13000.1?國(guó)家標(biāo)準(zhǔn)的形式予以認(rèn)可(即?GB?13000.1?等同于?ISO?10646.1)。 GBK編碼,是在GB2312-80標(biāo)準(zhǔn)基礎(chǔ)上的內(nèi)碼擴(kuò)展規(guī)范,使用了雙字節(jié)編碼方案,其編碼范圍從8140至FEFE(剔除xx7F),共23940個(gè)碼位,共收錄了21003個(gè)漢字,完全兼容GB2312-80標(biāo)準(zhǔn),支持國(guó)際標(biāo)準(zhǔn)ISO/IEC10646-1和國(guó)家標(biāo)準(zhǔn)GB13000-1中的全部中日韓漢字,并包含了BIG5編碼中的所有漢字。GBK編碼方案于1995年10月制定,?1995年12月正式發(fā)布,目前中文版的WIN95、WIN98、WINDOWS?NT以及WINDOWS?2000、WINDOWS?XP、WIN?7等都支持GBK編碼方案。 知識(shí)鏈接: 我們經(jīng)常使用各種編碼標(biāo)準(zhǔn)的漢字,編碼到底是什么呢?所謂編碼,是以固定的順序排列字符,并以此做為記錄、存貯、傳遞、交換的統(tǒng)一內(nèi)部特征,這個(gè)字符排列順序被稱(chēng)為“編碼”。和中文字庫(kù)有關(guān)的編碼標(biāo)準(zhǔn)有:國(guó)標(biāo)GB碼、GBK碼、港臺(tái)BIG-5碼等,不同編碼的漢字字庫(kù)都與漢字的應(yīng)用有密切關(guān)系。 很多人在使用過(guò)程中,發(fā)現(xiàn)字不夠用,因?yàn)槟壳按蠹沂褂玫闹饕荊B編碼字庫(kù),此編碼標(biāo)準(zhǔn)只收錄了6763個(gè)常用漢字,而GB字庫(kù)以外大量漢字,只能通過(guò)方正女?huà)z補(bǔ)字軟件拼字或其它造字程序補(bǔ)字。盡管補(bǔ)出的漢字在字形上滿(mǎn)足需要,但在字體風(fēng)格、大小、結(jié)構(gòu)方面難以協(xié)調(diào)統(tǒng)一,而采用手工貼圖的方式補(bǔ)字,更不雅觀(guān)。進(jìn)而言之,如果用戶(hù)建立信息系統(tǒng),或需要查詢(xún)新聞、出版內(nèi)容時(shí),靠補(bǔ)字是無(wú)法實(shí)現(xiàn)的。方正開(kāi)發(fā)的GBK字庫(kù),將極大地緩解缺字現(xiàn)象。 從GB字庫(kù)擴(kuò)充到GBK字庫(kù),增加了1萬(wàn)4千多字。北大方正從1996年投入大量人力,開(kāi)始做黑、宋、仿、楷GBK字庫(kù),并于1998年4月成為第一家通過(guò)國(guó)家權(quán)威部門(mén)組織的GBK字庫(kù)鑒定的專(zhuān)業(yè)廠(chǎng)商。到現(xiàn)在為止,北大方正已將全部字體轉(zhuǎn)換成GBK字庫(kù),共46款,其中18款字?jǐn)?shù)達(dá)21003個(gè),是擁有GBK字庫(kù)款數(shù)最多的廠(chǎng)商。 ISO?10646?是一個(gè)包括世界上各種語(yǔ)言的書(shū)面形式以及附加符號(hào)的編碼體系。其中的漢字部分稱(chēng)為“CJK?統(tǒng)一漢字”(C?指中國(guó),J?指日本,K?指朝鮮)。而其中的中國(guó)部分,包括了源自中國(guó)大陸的?GB?2312、GB?12345、《現(xiàn)代漢語(yǔ)通用字表》等法定標(biāo)準(zhǔn)的漢字和符號(hào),以及源自臺(tái)灣的?CNS?11643?標(biāo)準(zhǔn)中第?1、2?字面(基本等同于?BIG-5?編碼)、第?14?字面的漢字和符號(hào)。 GBK的知識(shí)擴(kuò)展
經(jīng)實(shí)際測(cè)試和查閱文檔,GBK是采用單雙字節(jié)變長(zhǎng)編碼,英文使用單字節(jié)編碼,完全兼容ASCII字符編碼,中文部分采用雙字節(jié)編碼。
對(duì)于A(yíng)SCII碼中的內(nèi)容,GBK完全沿用的ASCII碼,所以一個(gè)英文字母(數(shù)字,特殊字母)用一個(gè)字節(jié)表示,而對(duì)于中文來(lái)說(shuō),一個(gè)中文用兩個(gè)字節(jié)表示。
#?思考:python中一個(gè)字符串為?'a太白',那么如果用GBK碼編碼,這個(gè)字符串占幾個(gè)字節(jié)? #一個(gè)英文用一個(gè)字節(jié),一個(gè)中文用兩個(gè)字節(jié),所以:'a太白'?如果是GBK編碼占5個(gè)字節(jié)。
但是GBK只包含中文,不能包含其他文字,言外之意,GBK編碼是不能識(shí)別其他國(guó)家的文字的,舉個(gè)例子:如果你購(gòu)買(mǎi)了一個(gè)日本的游戲盤(pán),在用中國(guó)的計(jì)算機(jī)去玩,那么此時(shí)中國(guó)的計(jì)算機(jī)只有g(shù)bk編碼和ascii碼,那么你在玩游戲的過(guò)程中,只要出現(xiàn)日本字,那就會(huì)出錯(cuò)或者出現(xiàn)亂碼.......
但是,隨著全球化的普及,由于網(wǎng)絡(luò)的連通,以及互聯(lián)網(wǎng)產(chǎn)品的共用(不同國(guó)家的游戲,軟件,建立聯(lián)系等),各個(gè)國(guó)家都需要產(chǎn)生各種交集,此時(shí)急需一個(gè)密碼本:要包含全世界所有的文字與二進(jìn)制0101010的對(duì)應(yīng)關(guān)系,所以創(chuàng)建了萬(wàn)國(guó)碼:
Unicode: 包含全世界所有的文字與二進(jìn)制0101001的對(duì)應(yīng)關(guān)系。
Unicode(統(tǒng)一碼、萬(wàn)國(guó)碼、單一碼)是計(jì)算機(jī)科學(xué)領(lǐng)域里的一項(xiàng)業(yè)界標(biāo)準(zhǔn),包括字符集、編碼方案等。Unicode?是為了解決傳統(tǒng)的字符編碼方案的局限而產(chǎn)生的,它為每種語(yǔ)言中的每個(gè)字符設(shè)定了統(tǒng)一并且唯一的二進(jìn)制編碼,以滿(mǎn)足跨語(yǔ)言、跨平臺(tái)進(jìn)行文本轉(zhuǎn)換、處理的要求。1990年開(kāi)始研發(fā),1994年正式公布。 因?yàn)橛?jì)算機(jī)只能處理數(shù)字,如果要處理文本,就必須先把文本轉(zhuǎn)換為數(shù)字才能處理。最早的計(jì)算機(jī)在設(shè)計(jì)時(shí)采用8個(gè)比特(bit)作為一個(gè)字節(jié)(byte),所以,一個(gè)字節(jié)能表示的最大的整數(shù)就是255(二進(jìn)制11111111=十進(jìn)制255),0?-?255被用來(lái)表示大小寫(xiě)英文字母、數(shù)字和一些符號(hào),這個(gè)編碼表被稱(chēng)為ASCII編碼,比如大寫(xiě)字母A的編碼是65,小寫(xiě)字母z的編碼是122。 如果要表示中文,顯然一個(gè)字節(jié)是不夠的,至少需要兩個(gè)字節(jié),而且還不能和ASCII編碼沖突,所以,中國(guó)制定了GB2312編碼,用來(lái)把中文編進(jìn)去。 類(lèi)似的,日文和韓文等其他語(yǔ)言也有這個(gè)問(wèn)題。為了統(tǒng)一所有文字的編碼,Unicode應(yīng)運(yùn)而生。Unicode把所有語(yǔ)言都統(tǒng)一到一套編碼里,這樣就不會(huì)再有亂碼問(wèn)題了。 Unicode通常用兩個(gè)字節(jié)表示一個(gè)字符,原有的英文編碼從單字節(jié)變成雙字節(jié),只需要把高字節(jié)全部填為0就可以。 因?yàn)镻ython的誕生比Unicode標(biāo)準(zhǔn)發(fā)布的時(shí)間還要早,所以最早的Python只支持ASCII編碼,普通的字符串'ABC'在Python內(nèi)部都是ASCII編碼的。 Unicode?是為了解決傳統(tǒng)的字符編碼方案的局限而產(chǎn)生的,例如ISO?8859所定義的字符雖然在不同的國(guó)家中廣泛地使用,可是在不同國(guó)家間卻經(jīng)常出現(xiàn)不兼容的情況。很多傳統(tǒng)的編碼方式都有一個(gè)共同的問(wèn)題,即容許電腦處理雙語(yǔ)環(huán)境(通常使用拉丁字母以及其本地語(yǔ)言),但卻無(wú)法同時(shí)支持多語(yǔ)言環(huán)境(指可同時(shí)處理多種語(yǔ)言混合的情況)。 Unicode?編碼包含了不同寫(xiě)法的字,如“ɑ/a”、“戶(hù)/戶(hù)/戸”。然而在漢字方面引起了一字多形的認(rèn)定爭(zhēng)議。 在文字處理方面,統(tǒng)一碼為每一個(gè)字符而非字形定義唯一的代碼(即一個(gè)整數(shù))。換句話(huà)說(shuō),統(tǒng)一碼以一種抽象的方式(即數(shù)字)來(lái)處理字符,并將視覺(jué)上的演繹工作(例如字體大小、外觀(guān)形狀、字體形態(tài)、文體等)留給其他軟件來(lái)處理,例如網(wǎng)頁(yè)瀏覽器或是文字處理器。 幾乎所有電腦系統(tǒng)都支持基本拉丁字母,并各自支持不同的其他編碼方式。Unicode為了和它們相互兼容,其首256字符保留給ISO?8859-1所定義的字符,使既有的西歐語(yǔ)系文字的轉(zhuǎn)換不需特別考量;并且把大量相同的字符重復(fù)編到不同的字符碼中去,使得舊有紛雜的編碼方式得以和Unicode編碼間互相直接轉(zhuǎn)換,而不會(huì)丟失任何信息。舉例來(lái)說(shuō),全角格式區(qū)段包含了主要的拉丁字母的全角格式,在中文、日文、以及韓文字形當(dāng)中,這些字符以全角的方式來(lái)呈現(xiàn),而不以常見(jiàn)的半角形式顯示,這對(duì)豎排文字和等寬排列文字有重要作用。 在表示一個(gè)Unicode的字符時(shí),通常會(huì)用“U+”然后緊接著一組十六進(jìn)制的數(shù)字來(lái)表示這一個(gè)字符。在基本多文種平面(英文為?Basic?Multilingual?Plane,簡(jiǎn)寫(xiě)?BMP。它又簡(jiǎn)稱(chēng)為“零號(hào)平面”,?plane?0)里的所有字符,要用四位十六進(jìn)制數(shù)(例如U+4AE0,共支持六萬(wàn)多個(gè)字符);在零號(hào)平面以外的字符則需要使用五位或六位十六進(jìn)制數(shù)了。舊版的Unicode標(biāo)準(zhǔn)使用相近的標(biāo)記方法,但卻有些微的差異:在Unicode?3.0里使用“U-”然后緊接著八位數(shù),而“U+”則必須隨后緊接著四位數(shù)。?[1]? Unicode的起源以及知識(shí)擴(kuò)展
通用字符集(Universal Character Set, UCS)是由ISO制定的ISO 10646(或稱(chēng)ISO/IEC 10646)標(biāo)準(zhǔn)所定義的標(biāo)準(zhǔn)字符集。UCS-2用兩個(gè)字節(jié)編碼,UCS-4用4個(gè)字節(jié)編碼。
起初:Unicode規(guī)定一個(gè)字符用兩個(gè)字節(jié)表示:
英文:? a b c? 六個(gè)字節(jié)?? 一個(gè)英文2個(gè)字節(jié)
中文?? 中國(guó)?? 四個(gè)字節(jié)? 一個(gè)中文用2個(gè)字節(jié)
但是這種也不行,這種最多有65535種可能,可是中國(guó)文字有9萬(wàn)多,所以改成一個(gè)字符用四個(gè)字節(jié)表示:.
a? 01000001 01000010 01000011 00000001
b? 01000001 01000010 01100011 00000001
中 01001001 01000010 01100011 00000001
這樣雖然解決了問(wèn)題,但是又引出一個(gè)新的問(wèn)題就是原本a可以用1個(gè)字節(jié)表示,卻必須用4個(gè)字節(jié),這樣非常浪費(fèi)資源,所以對(duì)Uniocde進(jìn)行升級(jí)。
UTF-8:包含全世界所有的文字與二進(jìn)制0101001的對(duì)應(yīng)關(guān)系(最少用8位一個(gè)字節(jié)表示一個(gè)字符)。
UTF-8(8-bit?Unicode?Transformation?Format)是一種針對(duì)Unicode的可變長(zhǎng)度字符編碼,又稱(chēng)萬(wàn)國(guó)碼,由Ken?Thompson于1992年創(chuàng)建。 現(xiàn)在已經(jīng)標(biāo)準(zhǔn)化為RFC?3629。UTF-8用1到6個(gè)字節(jié)編碼Unicode字符。用在網(wǎng)頁(yè)上可以統(tǒng)一頁(yè)面顯示中文簡(jiǎn)體繁體及其它語(yǔ)言(如英文,日文,韓文)。
UTF-8:是對(duì)Unicode編碼的壓縮和優(yōu)化,他不再使用最少使用2個(gè)字節(jié),而是將所有的字符和符號(hào)進(jìn)行分類(lèi):ascii碼中的內(nèi)容用1個(gè)字節(jié)保存、歐洲的字符用2個(gè)字節(jié)保存,東亞的字符用3個(gè)字節(jié)保存... UTF-16:?每個(gè)字符最少占16位. GBK:?每個(gè)字符占2個(gè)字節(jié),?16位.
UTF-8 :最少用8位數(shù),去表示一個(gè)字符.
英文:?????????? 8位,1個(gè)字節(jié)表示.
歐洲文字:? ? ? ? ?16位,兩個(gè)字節(jié)表示一個(gè)字符.
中文,亞洲文字:? ? ? ?24位,三個(gè)字節(jié)表示.
#?思考:python中一個(gè)字符串為?'a太白',那么如果用UTF-8碼編碼,這個(gè)字符串占幾個(gè)字節(jié)? #一個(gè)英文用一個(gè)字節(jié),一個(gè)中文用三個(gè)個(gè)字節(jié),所以:'a太白'?如果是UTF-8編碼占7個(gè)字節(jié)。
以上就是編碼的大致發(fā)展歷程,相信大家對(duì)編碼有了一定的了解,接下來(lái)普及一下單位之間的轉(zhuǎn)換:
8bit?=?1byte 1024byte?=?1KB 1024KB?=?1MB 1024MB?=?1GB 1024GB?=?1TB 1024TB?=?1PB 1024TB?=?1EB 1024EB?=?1ZB 1024ZB?=?1YB 1024YB?=?1NB 1024NB?=?1DB 常?到TB就夠了
軟件開(kāi)發(fā) python 軟件開(kāi)發(fā)云 云計(jì)算
版權(quán)聲明:本文內(nèi)容由網(wǎng)絡(luò)用戶(hù)投稿,版權(quán)歸原作者所有,本站不擁有其著作權(quán),亦不承擔(dān)相應(yīng)法律責(zé)任。如果您發(fā)現(xiàn)本站中有涉嫌抄襲或描述失實(shí)的內(nèi)容,請(qǐng)聯(lián)系我們jiasou666@gmail.com 處理,核實(shí)后本網(wǎng)站將在24小時(shí)內(nèi)刪除侵權(quán)內(nèi)容。
版權(quán)聲明:本文內(nèi)容由網(wǎng)絡(luò)用戶(hù)投稿,版權(quán)歸原作者所有,本站不擁有其著作權(quán),亦不承擔(dān)相應(yīng)法律責(zé)任。如果您發(fā)現(xiàn)本站中有涉嫌抄襲或描述失實(shí)的內(nèi)容,請(qǐng)聯(lián)系我們jiasou666@gmail.com 處理,核實(shí)后本網(wǎng)站將在24小時(shí)內(nèi)刪除侵權(quán)內(nèi)容。