打開線程 | 進程 | 協程的大門
不知從幾何起,可能是大三那年的操作系統考試,也可能是剛經歷完的秋招,這些概念總是迷迷糊糊,可能自己回答的和其他人的答復也差不多,并沒有什么亮點,通常都會以:「我們換個題」的方式結束,有時候也挺尷尬的。我們不妨看看這樣幾個題應該怎么去回答
進程和線程是什么
進程和線程有什么區別
為什么有了進程又出現線程
內核態和用戶態有啥不同
協程有什么特點
太多太多一系列的問題伴隨到學習,工作的各個階段,這些問題確實不怎么好回答,除非你真的理解到它的底層原理,否則很容易就把自己套進去,那么今天我們一起來看看這些問題都是怎么產生的,為什么總是會問這些題,開始吧
前言
進程和線程
進程,平時我們打開一個播放器,開一個記事本,這些都是應用程序,一個軟件的執行副本,這就是進程。從操作系統層面而言,進程是分配資源的基本單位,線程在很長時間被稱為輕量級的進程,是程序執行的基本單位。
這樣看來一個分配資源的基本單位,一個是程序執行的基本單元。以前面試的時候,我經常也就這樣背給面試官了,當自己成為了面試官才發現這些孩子答案為啥都是這個,原來網上大部分的資料也就說了這些呢,直接這樣死記硬背當然不行,讓我們回到最初的計算機時代。
最初的計算機時代是什么樣子呢
那個時代呀,程序員會將寫好的程序放入閃存中,然后插入到機器里,通過電能推動芯片計算,那么芯片從閃存中取出指令,然后執行下一條執行,一旦閃存中的執行執行完了,計算機就要關機了
這在早期叫做單任務模型,也叫做作業(Job)。隨著人們的需求越來越多,生活的多元化,慢慢出現了辦公,聊天,游戲等,這個時候不得不在同一臺計算機中來回的切換,人們就想要不通過線程和進程來處理這個問題
那是怎么處理的方式?
比如說一個游戲,啟動后為一個進程,但是一個游戲場面的呈現需要圖形的渲染,聯網,這些操作不能相互的阻塞,如果阻塞了,卡起就很難受,總覺得這游戲怎么這么 low,我們希望它們能同時的運行,所以將其各個部分設計為線程,這就出現了一個進程有多個線程
既然一個進程有多個線程,這個資源分配如何處理?
啟動一個游戲,首先需要存儲這些游戲參數,所以需要內存資源,當進行攻擊等動作時候,發出的各種動作指令需要計算,所以需要計算資源 CPU,還需要需要存儲一些文件,所以還需要文件資源。由于早期的 OS 沒有線程的概念,所以讓各個進程采用分時的技術交替執行,通過管道等技術讓各個進程進行通信。
這樣看上去比較完美了,啟動一個游戲后出來這么多進程,那么能不能啟動游戲后,在這個進程下面安排一種技術,讓其僅僅分配 CPU 資源呢,這就出現了線程
這個線程如何分配的?
線程概念被提出來以后,因為只分配了CPU 計算資源,所以也叫做輕量級的進程。通過操作系統來調度線程,也就是說操作系統創建進程后,“牽個線”,進程的入口程序被放在主線程中,看起來就感覺是操作系統在調度進程,實際上調度的是進程中線程,這種被操作系統直接調度的線程叫做內核級線程。
既然有內核級別線程,當然有用戶級線程,相當于操作系統調度線程,主線程通過程序的方式實現子線程,這就是用戶級線程,典型的即 Linux 中的 Phread API。既然說到內核態和用戶態,我們來看看兩者有什么作用
用戶態線程
它完全是在用戶空間創建,對于操作系統而言是不知情的,用戶級線程的優勢如下:
切換成本低:用戶空間自己維護,不用走操作系統的調度
管理開銷小:創建和銷毀不用系統調用,系統調用所造成的上下文切換下文會講解
用戶態線程有什么缺點
與內核溝通成本大:因為這種線程大部分時間在用戶空間,如果進行 IO 操作,很難利用內核的優勢,且需要頻繁的用戶態和內核態的切換
線程之間的協作麻煩:想象兩個線程 A 和 B需要通信,通信通常會涉及到 IO 操作,IO 操作涉及到系統調用,系統調用又要發生用戶態和內核套的切換成本,難
操作系統無法針對線程的調度進行優化:如果一個進程的用戶態線程阻塞了操作系統無法及時的發現和處理阻塞問題,它不會切換其他線程從而造成浪費
內核態線程
內核態線程執行在內核態,一般通過系統調用創造一個內核級線程,那么有哪些優點?
操作系統級優化:內核中的線程即使執行 IO 操作也不需要進行系統調用,一個內核阻塞可以讓其他立即執行
充分利用多核優勢:內核權限足夠高,可以在多個 CPU 核心執行內核線程
內核級線程有什么缺點?
創建成本比較高:創建的時候需要使用系統調用即切換到內核態
切換成本高:切換的時候需要進行內核操作
擴展性差:因為一個內核管理,坑位有限,不可能數量太多
用戶態線程和內核態線程的映射關系是怎樣的呢
上面談到用戶態線程和內核態線程都有缺點,用戶態線程創建成本低,不可以利用多核,而內核態線程創建成本高,雖可以利用多核,但是切換速度慢。所以,通常都會在內核中預留一些線程并反復使用這些線程,至此出現了以下幾種映射關系
用戶態和內核態映射之一--多對一
內核線程的創建成本既然高,那么我們就是多個用戶態進程的多線程復用一個內核態線程,可是這樣線程不能并發,所以此模型用戶很少
用戶態和內核態映射之二--一對一
讓每個用戶態線程分配一個單獨的內核態線程,每個用戶態線程通過系統調用創建一個綁定的內核線程,這種模型能夠并發執行,充分利用多核的優勢,出名的 Windows NT即采用這種模型,但是如果線程比較多,對內核的壓力就太大
用戶態和內核態映射之三--多對多
即 n 個用戶態線程對應 m 個內核態線程。m通常小于等于n,m通常設置為核數,這種多對多的關系減少了內核線程且完成了并發,Linux即采用的這種模型
一臺計算機會啟動很多進程,其數量當然是大于 CPU 數量,只好讓 CPU 輪流的分配給它們,讓我們產生了多任務同時執行的錯覺,那有沒有想過這些任務執行之前,CPU都會干啥?
CPU 既然要執行它,勢必會去了解從哪里加載它,又從哪里開始運行,也就是說,需要系統提前將它們設置好 CPU 寄存器和程序計數器
眼中的寄存器和程序計數器是什么?
它雖小不過威力卻很大,速度很快的內存。而程序計數器用來記錄正在執行指令的位置,這些CPU需要依賴的環境即 CPU 的上下文。上下文知道了,那么 CPU 的切換是不是就很好理解
將前一個任務的 CPU 上下文保存下來,加載新任務的上下文到寄存器和程序計數器中,然后跳轉到程序計數器所指向的位置。根據任務的不同又分為進程的上下文和線程的上下文
進程的上下文
進程在用戶空間運行的時候叫做用戶態,陷入到內核空間叫做進程的內核態,如果用戶態的進程想轉變到內核態,則可以通過系統調用的方式完成。進程由內核調度,進程的切換發生在內核態
進程的上下文包含哪些數據?
既然進程的切換發生在內核態,那么進程的上下文不僅僅包括虛擬內存,棧,全局變量等用戶空間資源,還包括了內核堆棧,寄存器等內核空間的狀態
這里的保存上下文和恢復上下文也不是說免費的,需要內核在 CPU 上運行才能完成
線程上下文切換
看到這里,你肯定可以脫口而出兩者的區別在于線程是調度的基本單位,而進程是資源擁有的基本單位。講白了,內核的任務調度實際上調度的是線程,進程只是為線程提供虛擬內存,全局變量等資源,所以這樣理解可能更好:
進程如果只有一個線程,那么認為進程就是線程
如果進程有多個線程,那么多個線程會共享相同的虛擬內存和全局變量等資源,上下文的切換不會影響這些資源
線程擁有自己的私有數據比如棧和寄存器,上下文切換的時候需要提前保存
綜上,線程的上下文切換將分為兩個部分
兩個線程不屬于同一個進程,那么資源不共享,所以切換過程就會涉及到進程的上下文切換
第二種情況即兩個線程屬于同一個進程。因為共享虛擬內存,所以切換的時候這些資源保持不動,只需要切換線程的私有數據等不共享的數據
這也從側面表明了,進程內的線程切換比多進程間的切換會節省不少資源,這也是多線程逐漸替代多進程的一個優勢
那么系統調用又是怎么執行的?
真的是一環接一環,是不是像極了面試,是的,我們對面試官的每一次回答都應該盡全力的讓面試官上鉤,問自己所能回答的問題不是。
如果用戶態的程序要執行系統調用,則需要切換到內核態執行,這個過程如下圖所示,一圖勝千言
既然分為了用戶態和內核態,兩者權限級別不盡相同,用戶態的程序發起系統調用,因為涉及到權限問題,不得不牽扯到特權指令,所以就會通過中斷的方式執行,即上圖的 Trap。
發生中斷以后,內核程序就開始執行,處理完成又要觸發 Trap,切換到用戶態的工作,這里又涉及到了中斷,我們這篇就先簡單了解下中斷
中斷做了什么?
我們以平時經常接觸的鍵盤為例,當我們敲下鍵盤,主板收到按鍵后通知 CPU ,CPU 此時可能在忙處理其他程序,需要先中斷當前執行的程序,然后將 PC 指針跳轉到固定的位置,這就是一次中斷的簡單描述
可是我們不同的組合按鍵對應不同的事件,所以需要根據中斷類型判斷 PC 指針到底跳轉到哪兒,中斷類型的不同,PC 指針所執行的位置也就不同,因此進行了分類,這個類型呢我們稱為中斷識別碼。CPU 通過 PC 指針知道需要跳轉到哪個地址進行處理,這個地址叫做 中斷向量表
舉個例子,使用編號 8 表示按鍵中斷類型A的識別碼,編號 9 表示中斷類型 B 的識別碼。當中斷發生的時候,對于CPU而言,是需要知道到底讓 PC 指針指向哪個地址,這個地址就是中斷向量
假設我們設置了 255 個中斷,編號為 0 - 255,在 32 位機器中差不多需要 1k 的內存地址存儲中斷向量,這里的 1k 空間就是中斷向量表。
因此,當 CPU 接收到中斷,根據中斷類型操作 PC 指針,找到中斷向量,修改中斷向量,插入指令實現跳轉功能
進程和線程都出現了,那么怎么調度?
計算機資源有限,太多的進程消耗機器自然受不住,我們人也一樣,胃也有限嘛,一頓不吃餓得慌,可是吃多了也會走路腳顫抖不是,所以聰明的計算機也會想辦法來處理這個問題。兩手一揮,既然我們的 CPU 的核數有限,要不咋們給每個進程分配一個時間片,排隊一個個執行,超出給定的時間就直接讓另一個進程執行如何
那時間片怎么分配?
假設此時有三個進程,進程1只需要 2 個時間片,進程2需要1個時間片,進程3需要3個時間片。進程1執行到一半的時候,累了,不想執行了,休息會(掛起),進程2執行,進程2一梭子就執行完了,進程3等不及了馬上執行,執行三分之一后,進程1開始執行,這樣循環根據時間片的執行方式即分時技術
剛才有說到進程的狀態,那么有哪些狀態?
一個進程的周期一般會分為下面三種狀態
就緒狀態:進程創建好了會開始排隊,這個時候叫做“就緒狀態”
運行狀態:當一切準備就緒,天時地利人和后開始執行,此時為“運行狀態”
如果將時間片用完了會再次變為就緒狀態
如果進程因為等待某個進程的完成,此時會進入阻塞狀態
為什么需要阻塞狀態
我們想想,有的時候計算機會因為各種原因不能響應我們的請求,可能是因為等待磁盤,可能因為等待打印機,畢竟不會總是的及時的滿足我們的需求,所以它這個時候通過中斷告訴 CPU ,CPU 通過執行中斷處理程序,將控制權給操作系統,操作系統隨后將阻塞的進程狀態修改為就緒狀態,安排重新排隊,再加上因為進程進入阻塞狀態無事可做,但是又不能干癟癟的讓他去排隊(因為需要等待中斷),所以進入到阻塞狀態。
下面對以上所說的三種狀態進行一個小結
就緒狀態( Ready ):可運行,只不過其他進程在運行暫時停止
運行( Running):此時進程占用 CPU
阻塞狀態( blo ck ): 此時可能因為等待相關事件(請求 IO/等待 IO 完成等) 而停止運行,此時即使把 CPU 控制權給它,仍然無法運行
其實,進程還有兩種基本狀態
創建狀態 ( New ):進程剛被創建還沒有提交時的狀態,主要功能為分配和建立進程控制塊等初始化工作。創建進程有兩個階段,第一個階段為為新的進程創建必要的管理信息。第二個階段為讓進程進入就緒狀態
終止狀態 ( Exit ):進程退出的狀態,即回收除了進程控制塊以外的資源。也分為兩個階段,第一個階段為等待操作系統進行善后處理,第二個階段為釋放主存
所以一共就包含了五個狀態,為了更加直觀,其變遷圖如下
Null---->創建狀態:最初創建的第一個狀態
創建狀態----->就緒狀態:進行一些列的初始化稱為就緒狀態
就緒狀態----->運行狀態:當操作系統調度就緒狀態的進程并分配給 CPU 變為運行狀態
運行狀態------>結束狀態:當進程完成相應任務或出錯則被操作系統結束的狀態
運行狀態------>阻塞狀態:運行狀態的進程由于時間片用完,操作系統將進程更改為就緒狀態
阻塞狀態------->就緒狀態:阻塞狀態的進程等待某事件結束進入就緒狀態
其實不是賣光子,實際上還有兩種狀態,分別是就緒掛起和阻塞掛起,那我們看看那這兩者有啥不一樣
掛起是一種行為,而阻塞是進程的狀態
導致進程掛起的原因通常是因為內存不足或者用戶的請求,進程的修改等,而進程的阻塞是進程正在等待某個事件發生,可能是等待資源或響應
掛起對應的是行為的激活,將外存中的進程掉入內存中,而處于阻塞狀態的進程需要等待其他進程或系統喚醒
掛起屬于被動行為,進程被迫從內存轉移到外存,而進入阻塞為主動的行為
綜上,現在咋們的進程圖就變為了七種狀態,如下
進程與線程的底層原理
上面我們了解了進程,線程的由來以及狀態變遷,但是顯然不能讓我自如的了解進程和線程,至于其如何在內存表示等問題還是比較空虛的,所以我們繼續往下看
進程和線程在內存中如何表示
在整個設計過程中,涉及了兩張表,分別是進程表和線程表。其中進程表會記錄進程在內存的位置,PID是多少,以及當前什么狀態,內存給它分配了多大使用空間以及屬于哪個用戶,假設沒有這張表,操作系統就不知道有哪些進程,也就更不清楚怎么去調度,就仿佛失去XXX,不知道了方向
尤其需要注意進程表這樣幾個部分
資源信息
資源信息會記錄這個進程有哪些資源,比如進程和虛擬內存怎么映射,擁有哪些文件等
內存布局
內存的知識點太多,如果在這里寫文章將會非常的長,所以打算單獨使用一篇文章寫。
在 Linux 中,操作系統采用虛擬內存管理技術,使得進程都擁有獨立的虛擬內存空間,理由也比較直接,物理內存不夠用且不安全(用戶不能直接訪問物理內存),使用虛擬內存不但更安全且可以使用比物理內存更大的地址空間。
另外,在 32 位的操作系統中,4GB 的進程地址空間分為兩個部分,用戶空間和內核空間,用戶空間為 0~3G,內核地址空間占據 3~4G,用戶不能直接操作內核空間虛擬地址,只有通過系統調用的方式訪問內核空間。
操作系統會告訴進程如何使用內存,大概分為哪些區域以及每個區域做什么。簡單描述下下圖各個段的作用。
棧:系統自動分配釋放,平時經常使用的函數參數值,局部變量,返回地址等就在此
堆:存放動態分配的數據,通常由開發人員自行管理,如果開發人員使用后不釋放,那么程序結束后可能會被操作系統收回
數據段:存放的是全局變量和靜態變量。其中初始化數據段(.data)存放顯示初始化的全局變量和靜態變量,未初始化數據段,此段通常也被稱為BSS段(.bss),存放未進行顯示初始化的全局變量和靜態變量。
描述信息
描述信息包含進程的唯一識別號,進程的名稱以及用戶等
除了給進程安排一張表以外,給線程也安排了一張表,這就是線程表。線程表也包含了一個 ID,這 ID 叫做 ThreadID,同時也會記錄自己在不同階段的狀態,比如阻塞,運行,就緒。由于多個線程會共用 CPU 且需要不停的切換,所以需要記錄程序計數器和寄存器的值。
說到了用戶級的線程和內核級的線程,兩者又是怎么個親密關系
兩者映射的關系如何去表示
可以想像在內核中有一個線程池,給予用戶空間使用,每次用戶級線程把程序計數器等傳遞過去,執行結束后,內核線程不銷毀,等待下一個任務,從這里可以看出創建進程開銷大、成本高;創建線程開銷小,成本低。
這么多進程難道共用內存?
操作系統太多的進程,為了讓他們各司其職,互不干擾,考慮為他們分配完全隔離的內存區域,即使程序內部讀取相同的內存地址,但實際上他們的物理地址也不一樣。就仿佛我在 X 座的 501 和你在 Y 座的501一樣卻不是一個房子,這就是地址空間
所以在正常的情況下 A 進程不能訪問 B 進程的內存,除非你植入一個木馬,惡意操作 B 進程的內存或者通過我們后面說的進程間通信的方式進行訪問
那進程線程怎么切換的呢?
操作系統的大量進程需要來回的切換,保持有借有還再借不難的傳統美德,每次切換之前需要先記錄下當前寄存器值的內存地址,方便下次回到原位置繼續執行。恢復執行的時候就從內存中讀取,然后恢復狀態執行即可
為了詳細的讓大家理解這個過程,我將其拆分為下面幾個步驟
操作系統感知到有個進程需要切換,先發出一個中斷信號給 CPU ,讓其停止當前進程
CPU 收到中斷信號后,正在執行的進程會停止,好心的操作系統會想辦法先保存當前的狀態
操作系統接管中斷后,執行一段匯編程序幫助寄存器之前進程的狀態
當操作系統保存好狀態后就會執行調度程序,讓其決定下一個將要執行的進程
最后操作系統會執行下一個進程
中斷以后如何恢復之前進程運行呢
上面說到操作系統會執行一段代碼幫助進程恢復狀態,其實現方式中,有一種方式即通過棧的先進后出的數據結構,所以對吧,大學中的基礎課程真的好重要。
進程(線程)中斷后,操作系統負責壓棧關鍵數據(比如寄存器)。恢復執行時,操作系統負責出棧和恢復寄存器的值。
協程
第一次接觸協程是一次自動駕駛項目中,一起干活的同事說這個庫底層使用了協程,我一臉懵逼,啊?攜程?準備收拾行李回家了?半天想過來了,其有個底層庫使用了協程,當時還一臉懵逼,進程,線程就已經夠折騰人了,怎么又來個協程,當時想著到時候面試官是不是又多了問問題的思路
什么是協程
協程和進程,線程的區別是什么
協程有什么優缺點
你們說頭不禿怎么破?行嘛,為了生活,不,喜愛計算機,止不住學習的步伐,下面我們看看這個東西是什么
為什么需要協程?
我們在執行多任務的時候通常采用多線程的方式并發執行。我們以最近非常火熱的電商促銷茅臺為例,不管茅臺是在緩存中還是后端的數據,最開始的用戶也就是10個,每當收到10條付款信息就開啟10個線程去查詢數據庫,此時用戶量少,馬上就可返回,第二天增加到100人,使用100個線程去查詢,感覺確實效果不錯,加大促銷力度,當同時出現1000個人的時候感覺到有點吃力了
1000-10000,看了前面的內容應該清楚創建銷毀線程還是挺費資源的,假設每個線程占用 4M內存空間,那么10000個線程大概需要消耗 39G 內存,可是服務器也就 8G 內存。
此時的方案要么增加服務器要么提升代碼效率。多個線程在進行作業的時候,難免會遇到某個線程等待 IO 的情況,此時會阻塞當前線程切換到其他線程,使得其他線程照常執行,線程少的時候沒什么問題,當線程數量變多就會出現問題,線程數量的增加不僅占用非常多的內存空間且過多的線程的切換也會占用大量的系統時間
此時就可以通過協程的方式解決這個問題
協程運行在線程之上,協程執行完成后,可以選擇主動讓出,讓另一個協程運行在當前線程之上。即協程并沒有增加線程的數量,而是在線程的基礎上通過分時復用的方式運行多個協程,還有關鍵一點是它的切換發生在用戶態,所有也不存在用戶態到內核態的切換,代價更低
類比上面,我們只需要啟動 100 個線程,然后每個線程跑100個協程就可以完成上述同時處理10000個任務
那么協程在使用的過程中需要主要哪些內容呢
剛說協程運行于線程之上,如果線程等待 IO 的時候阻塞了,這時候會出現什么情況?其實操作系統主要關心線程,協程調用阻塞IO的時候,操作系統會讓進程處于阻塞狀態,此時當前的協程和綁定在線程之上的協程都會陷入阻塞而得不到調度,這樣就很難受了
因此協程中,不能調用導致線程阻塞的操作,即協程最好了異步 IO 結合起來才能發揮最大的威力
怎么處理在協程中調用阻塞IO的操作呢
比較簡答的思路是當調用阻塞 IO 的時候,重新啟動一個線程去執行這個操作,等執行完成后,協程再去讀取結果,這是不是和多線程很像
將系統 IO 進行封裝,改為異步調用的方式,此時需要大量的工作,所以需要寄生于編程語言的原生支持
所以對于計算密集型的任務不太建議使用協程,計算機密集型的任務需要大量的線程切換,線程切換涉及太多的資源交換
總結
線程進程涉及的知識點好復雜,本文包含了線程,進程是什么,兩者的區別,內核級線程與用戶態線程,線程進程的上下文切換,系統調用的過程等一系列知識點,并沒有對進程的調度等做詳細的介紹,自己還需要多多補充知識。
不知不覺中這篇文章從素材的確認,關鍵字的過濾,上下文的銜接,畫圖,算下來差不多兩周,不過在這個過程確實學習了不少新的知識點。有點收獲不妨,在看,謝謝!
任務調度
版權聲明:本文內容由網絡用戶投稿,版權歸原作者所有,本站不擁有其著作權,亦不承擔相應法律責任。如果您發現本站中有涉嫌抄襲或描述失實的內容,請聯系我們jiasou666@gmail.com 處理,核實后本網站將在24小時內刪除侵權內容。