Docker技術三大要點:cgroup, namespace和unionFS的理解

      網友投稿 962 2022-05-29

      www.docker.com的網頁有這樣一張有意思的動畫:

      從這張gif圖片,我們不難看出Docker網站想傳達這樣一條信息, 使用Docker加速了build,ship和run的過程。

      Docker最早問世是2013年,以一個開源項目的方式被大家熟知。

      Docker的奠基者是dotcloud,一家開發PaaS平臺的技術公司。

      不過可惜的是,這家公司把Docker開源之后,于2016年倒閉了,因為其主業務PaaS無法和微軟,亞馬遜等PaaS業界巨頭競爭,不禁讓人唏噓。

      Docker其實是容器化技術的具體技術實現之一,采用go語言開發。很多朋友剛接觸Docker時,認為它就是一種更輕量級的虛擬機,這種認識其實是錯誤的,Docker和虛擬機有本質的區別。容器本質上講就是運行在操作系統上的一個進程,只不過加入了對資源的隔離和限制。而Docker是基于容器的這個設計思想,基于Linux Container技術實現的核心管理引擎。

      為什么資源的隔離和限制在云時代更加重要?在默認情況下,一個操作系統里所有運行的進程共享CPU和內存資源,如果程序設計不當,最極端的情況,某進程出現死循環可能會耗盡CPU資源,或者由于內存泄漏消耗掉大部分系統資源,這在企業級產品場景下是不可接受的,所以進程的資源隔離技術是非常必要的。

      我當初剛接觸Docker時,以為這是一項新的技術發明,后來才知道,Linux操作系統本身從操作系統層面就支持虛擬化技術,叫做Linux container,也就是大家到處能看到的LXC的全稱。

      LXC的三大特色:cgroup,namespace和unionFS。

      cgroup:

      CGroups 全稱control group,用來限定一個進程的資源使用,由Linux 內核支持,可以限制和隔離Linux進程組 (process groups) 所使用的物理資源 ,比如cpu,內存,磁盤和網絡IO,是Linux container技術的物理基礎。

      namespace:

      另一個維度的資源隔離技術,大家可以把這個概念和我們熟悉的C++和Java里的namespace相對照。

      如果CGroup設計出來的目的是為了隔離上面描述的物理資源,那么namespace則用來隔離PID(進程ID),IPC,Network等系統資源。

      我們現在可以將它們分配給特定的Namespace,每個Namespace里面的資源對其他Namespace都是透明的。

      不同container內的進程屬于不同的Namespace,彼此透明,互不干擾。

      我們用一個例子來理解namespace的必要。

      假設多個用戶購買了一臺Linux服務器的Nginx服務,每個用戶在該服務器上被分配了一個Linux系統的賬號。我們希望每個用戶只能訪問分配給其的文件夾,這當然可以通過Linux文件系統本身的權限控制來實現,即一個用戶只能訪問屬于他本身的那些文件夾。

      但是有些操作仍然需要系統級別的權限,比如root,但我們肯定不可能給每個用戶都分配root權限。因此我們就可以使用namespace技術:

      我們能夠為UID = n的用戶,虛擬化一個namespace出來,在這個namespace里面,該用戶具備root權限,但是在宿主機上,該UID =n的用戶還是一個普通用戶,也感知不到自己其實不是一個真的root用戶這件事。

      同樣的方式可以通過namespace虛擬化進程樹。

      在每一個namespace內部,每一個用戶都擁有一個屬于自己的init進程,pid = 1,對于該用戶來說,仿佛他獨占一臺物理的Linux服務器。

      對于每一個命名空間,從用戶看起來,應該像一臺單獨的Linux計算機一樣,有自己的init進程(PID為1),其他進程的PID依次遞增,A和B空間都有PID為1的init進程,子容器的進程映射到父容器的進程上,父容器可以知道每一個子容器的運行狀態,而子容器與子容器之間是隔離的。從圖中我們可以看到,進程3在父命名空間里面PID 為3,但是在子命名空間內,他就是1.也就是說用戶從子命名空間 A 內看進程3就像 init 進程一樣,以為這個進程是自己的初始化進程,但是從整個 host 來看,他其實只是3號進程虛擬化出來的一個空間而已。

      看下面的圖加深理解。

      父容器有兩個子容器,父容器的命名空間里有兩個進程,id分別為3和4, 映射到兩個子命名空間后,分別成為其init進程,這樣命名空間A和B的用戶都認為自己獨占整臺服務器。

      Linux操作系統到目前為止支持的六種namespace:

      unionFS:

      顧名思義,unionFS可以把文件系統上多個目錄(也叫分支)內容聯合掛載到同一個目錄下,而目錄的物理位置是分開的。

      要理解unionFS,我們首先要認識bootfs和rootfs。

      1. boot file system (bootfs):包含操作系統boot loader 和 kernel。用戶不會修改這個文件系統。

      一旦啟動完成后,整個Linux內核加載進內存,之后bootfs會被卸載掉,從而釋放出內存。

      同樣內核版本的不同的 Linux 發行版,其bootfs都是一致的。

      Docker技術三大要點:cgroup, namespace和unionFS的理解

      2. root file system (rootfs):包含典型的目錄結構,包括 /dev, /proc, /bin, /etc, /lib, /usr, and /tmp

      就是我下面這張圖里的這些文件夾:

      等再加上要運行用戶應用所需要的所有配置文件,二進制文件和庫文件。這個文件系統在不同的Linux 發行版中是不同的。而且用戶可以對這個文件進行修改。

      Linux 系統在啟動時,roofs 首先會被掛載為只讀模式,然后在啟動完成后被修改為讀寫模式,隨后它們就可以被修改了。

      不同的Linux版本,實現unionFS的技術可能不一樣,使用命令docker info查看,比如我的機器上實現技術是overlay2:

      看個實際的例子。

      新建兩個文件夾abap和java,在里面用touch命名分別創建兩個空文件:

      新建一個mnt文件夾,用mount命令把abap和java文件夾merge到mnt文件夾下,-t執行文件系統類型為aufs:

      sudo mount -t aufs -o dirs=./abap:./java none ./mnt

      mount完成后,到mnt文件夾下查看,發現了來自abap和java文件夾里總共4個文件:

      現在我到java文件夾里修改spring,比如加上一行spring is awesome, 然后到mnt文件夾下查看,發現mnt下面的文件內容也自動被更新了。

      那么反過來會如何呢?比如我修改mnt文件夾下的aop文件:

      而java文件夾下的原始文件沒有受到影響:

      實際上這就是Docker容器鏡像分層實現的技術基礎。如果我們瀏覽Docker hub,能發現大多數鏡像都不是從頭開始制作,而是從一些base鏡像基礎上創建,比如debian基礎鏡像。

      而新鏡像就是從基礎鏡像上一層層疊加新的邏輯構成的。這種分層設計,一個優點就是資源共享。

      想象這樣一個場景,一臺宿主機上運行了100個基于debian base鏡像的容器,難道每個容器里都有一份重復的debian拷貝呢?這顯然不合理;借助Linux的unionFS,宿主機只需要在磁盤上保存一份base鏡像,內存中也只需要加載一份,就能被所有基于這個鏡像的容器共享。

      當某個容器修改了基礎鏡像的內容,比如 /bin文件夾下的文件,這時其他容器的/bin文件夾是否會發生變化呢?

      根據容器鏡像的寫時拷貝技術,某個容器對基礎鏡像的修改會被限制在單個容器內。

      這就是我們接下來要學習的容器 Copy-on-Write 特性。

      容器鏡像由多個鏡像層組成,所有鏡像層會聯合在一起組成一個統一的文件系統。如果不同層中有一個相同路徑的文件,比如 /text,上層的 /text 會覆蓋下層的 /text,也就是說用戶只能訪問到上層中的文件 /text。

      假設我有如下這個dockerfile:

      FROM debian

      RUN apt-get install emacs

      RUN apt-get install apache2

      CMD ["/bin/bash"]

      執行docker build .看看發生了什么。

      生成的容器鏡像如下:

      當用docker run啟動這個容器時,實際上在鏡像的頂部添加了一個新的可寫層。這個可寫層也叫容器層。

      容器啟動后,其內的應用所有對容器的改動,文件的增刪改操作都只會發生在容器層中,對容器層下面的所有只讀鏡像層沒有影響。

      Docker 容器鏡像服務 SWR 鏡像服務

      版權聲明:本文內容由網絡用戶投稿,版權歸原作者所有,本站不擁有其著作權,亦不承擔相應法律責任。如果您發現本站中有涉嫌抄襲或描述失實的內容,請聯系我們jiasou666@gmail.com 處理,核實后本網站將在24小時內刪除侵權內容。

      上一篇:Spark基于搜狗日志數據分析
      下一篇:Unity3D占用內存太大的解決方法
      相關文章
      亚洲自偷自拍另类图片二区| 亚洲午夜久久久影院伊人| 久久亚洲精品成人综合| 亚洲国产精品13p| 欧美色欧美亚洲另类二区| 亚洲精品国产suv一区88| 99亚偷拍自图区亚洲| 亚洲乱码在线观看| 亚洲自偷自偷在线成人网站传媒| 亚洲入口无毒网址你懂的| 亚洲综合色区中文字幕| 亚洲AV无码专区在线亚| 亚洲人成网站日本片| 精品亚洲AV无码一区二区三区| 亚洲性一级理论片在线观看| 亚洲精品综合久久中文字幕 | 亚洲av无码成h人动漫无遮挡| 国产亚洲精品资在线| 久久精品国产精品亚洲人人| 国产精品亚洲产品一区二区三区 | 精品日韩99亚洲的在线发布| 亚洲久悠悠色悠在线播放| 亚洲国产精品免费观看 | 亚洲国产无套无码av电影| 亚洲国产精品成人久久| 亚洲av午夜福利精品一区人妖| 亚洲AV日韩精品久久久久久 | 成人亚洲国产精品久久| 婷婷亚洲综合一区二区| 亚洲成网777777国产精品| 亚洲中文字幕成人在线| 亚洲精品亚洲人成人网| 亚洲av日韩av天堂影片精品| 老色鬼久久亚洲AV综合| 亚洲国产成AV人天堂无码| 亚洲色大成网站www久久九| 欧美亚洲国产SUV| 国产午夜亚洲精品理论片不卡| 亚洲AV永久无码精品一百度影院| 日木av无码专区亚洲av毛片| 亚洲免费电影网站|