原來 8 張圖,就可以搞懂「零拷貝」了(原來葉宇宸是我的處方藥)

      網友投稿 670 2025-04-03

      磁盤可以說是計算機系統最慢的硬件之一,讀寫速度相差內存 10 倍以上,所以針對優化磁盤的技術非常的多,比如零拷貝、直接 I/O、異步 I/O 等等,這些優化的目的就是為了提高系統的吞吐量,另外操作系統內核中的磁盤高速緩存區,可以有效的減少磁盤的訪問次數。


      這次,我們就以「文件傳輸」作為切入點,來分析 I/O 工作方式,以及如何優化傳輸文件的性能。

      正文

      為什么要有 DMA 技術?

      在沒有 DMA 技術前,I/O 的過程是這樣的:

      CPU 發出對應的指令給磁盤控制器,然后返回;

      磁盤控制器收到指令后,于是就開始準備數據,會把數據放入到磁盤控制器的內部緩沖區中,然后產生一個中斷;

      CPU 收到中斷信號后,停下手頭的工作,接著把磁盤控制器的緩沖區的數據一次一個字節地讀進自己的寄存器,然后再把寄存器里的數據寫入到內存,而在數據傳輸的期間 CPU 是無法執行其他任務的。

      為了方便你理解,我畫了一副圖:

      可以看到,整個數據的傳輸過程,都要需要 CPU 親自參與搬運數據的過程,而且這個過程,CPU 是不能做其他事情的。

      簡單的搬運幾個字符數據那沒問題,但是如果我們用千兆網卡或者硬盤傳輸大量數據的時候,都用 CPU 來搬運的話,肯定忙不過來。

      計算機科學家們發現了事情的嚴重性后,于是就發明了 DMA 技術,也就是直接內存訪問(Direct Memory Access) 技術。

      什么是 DMA 技術?簡單理解就是,在進行 I/O 設備和內存的數據傳輸的時候,數據搬運的工作全部交給 DMA 控制器,而 CPU 不再參與任何與數據搬運相關的事情,這樣 CPU 就可以去處理別的事務。

      那使用 DMA 控制器進行數據傳輸的過程究竟是什么樣的呢?下面我們來具體看看。

      具體過程:

      用戶進程調用 read 方法,向操作系統發出 I/O 請求,請求讀取數據到自己的內存緩沖區中,進程進入阻塞狀態;

      操作系統收到請求后,進一步將 I/O 請求發送 DMA,然后讓 CPU 執行其他任務;

      DMA 進一步將 I/O 請求發送給磁盤;

      磁盤收到 DMA 的 I/O 請求,把數據從磁盤讀取到磁盤控制器的緩沖區中,當磁盤控制器的緩沖區被讀滿后,向 DMA 發起中斷信號,告知自己緩沖區已滿;

      DMA 收到磁盤的信號,將磁盤控制器緩沖區中的數據拷貝到內核緩沖區中,此時不占用 CPU,CPU 可以執行其他任務;

      當 DMA 讀取了足夠多的數據,就會發送中斷信號給 CPU;

      CPU 收到 DMA 的信號,知道數據已經準備好,于是將數據從內核拷貝到用戶空間,系統調用返回;

      可以看到, 整個數據傳輸的過程,CPU 不再參與數據搬運的工作,而是全程由 DMA 完成,但是 CPU 在這個過程中也是必不可少的,因為傳輸什么數據,從哪里傳輸到哪里,都需要 CPU 來告訴 DMA 控制器。

      早期 DMA 只存在在主板上,如今由于 I/O 設備越來越多,數據傳輸的需求也不盡相同,所以每個 I/O 設備里面都有自己的 DMA 控制器。

      傳統的文件傳輸有多糟糕?

      如果服務端要提供文件傳輸的功能,我們能想到的最簡單的方式是:將磁盤上的文件讀取出來,然后通過網絡協議發送給客戶端。

      傳統 I/O 的工作方式是,數據讀取和寫入是從用戶空間到內核空間來回復制,而內核空間的數據是通過操作系統層面的 I/O 接口從磁盤讀取或寫入。

      代碼通常如下,一般會需要兩個系統調用:

      read(file, tmp_buf, len); write(socket, tmp_buf, len);

      代碼很簡單,雖然就兩行代碼,但是這里面發生了不少的事情。

      首先,期間共發生了 4 次用戶態與內核態的上下文切換,因為發生了兩次系統調用,一次是 read() ,一次是 write(),每次系統調用都得先從用戶態切換到內核態,等內核完成任務后,再從內核態切換回用戶態。

      上下文切換到成本并不小,一次切換需要耗時幾十納秒到幾微秒,雖然時間看上去很短,但是在高并發的場景下,這類時間容易被累積和放大,從而影響系統的性能。

      其次,還發生了 4 次數據拷貝,其中兩次是 DMA 的拷貝,另外兩次則是通過 CPU 拷貝的,下面說一下這個過程:

      第一次拷貝,把磁盤上的數據拷貝到操作系統內核的緩沖區里,這個拷貝的過程是通過 DMA 搬運的。

      第二次拷貝,把內核緩沖區的數據拷貝到用戶的緩沖區里,于是我們應用程序就可以使用這部分數據了,這個拷貝到過程是由 CPU 完成的。

      第三次拷貝,把剛才拷貝到用戶的緩沖區里的數據,再拷貝到內核的 socket 的緩沖區里,這個過程依然還是由 CPU 搬運的。

      第四次拷貝,把內核的 socket 緩沖區里的數據,拷貝到網卡的緩沖區里,這個過程又是由 DMA 搬運的。

      我們回過頭看這個文件傳輸的過程,我們只是搬運一份數據,結果卻搬運了 4 次,過多的數據拷貝無疑會消耗 CPU 資源,大大降低了系統性能。

      這種簡單又傳統的文件傳輸方式,存在冗余的上文切換和數據拷貝,在高并發系統里是非常糟糕的,多了很多不必要的開銷,會嚴重影響系統性能。

      所以,要想提高文件傳輸的性能,就需要減少「用戶態與內核態的上下文切換」和「內存拷貝」的次數。

      如何優化文件傳輸的性能?

      先來看看,如何減少「用戶態與內核態的上下文切換」的次數呢?

      讀取磁盤數據的時候,之所以要發生上下文切換,這是因為用戶空間沒有權限操作磁盤或網卡,內核的權限最高,這些操作設備的過程都需要交由操作系統內核來完成,所以一般要通過內核去完成某些任務的時候,就需要使用操作系統提供的系統調用函數。

      而一次系統調用必然會發生 2 次上下文切換:首先從用戶態切換到內核態,當內核執行完任務后,再切換回用戶態交由進程代碼執行。

      所以,要想減少上下文切換到次數,就要減少系統調用的次數。

      再來看看,如何減少「數據拷貝」的次數?

      在前面我們知道了,傳統的文件傳輸方式會歷經 4 次數據拷貝,而且這里面,「從內核的讀緩沖區拷貝到用戶的緩沖區里,再從用戶的緩沖區里拷貝到 socket 的緩沖區里」,這個過程是沒有必要的。

      因為文件傳輸的應用場景中,在用戶空間我們并不會對數據「再加工」,所以數據實際上可以不用搬運到用戶空間,因此用戶的緩沖區是沒有必要存在的。

      如何實現零拷貝?

      零拷貝技術實現的方式通常有 2 種:

      mmap + write

      sendfile

      下面就談一談,它們是如何減少「上下文切換」和「數據拷貝」的次數。

      在前面我們知道,read() 系統調用的過程中會把內核緩沖區的數據拷貝到用戶的緩沖區里,于是為了減少這一步開銷,我們可以用 mmap() 替換 read() 系統調用函數。

      buf = mmap(file, len); write(sockfd, buf, len);

      mmap() 系統調用函數會直接把內核緩沖區里的數據「映射」到用戶空間,這樣,操作系統內核與用戶空間就不需要再進行任何的數據拷貝操作。

      具體過程如下:

      應用進程調用了 mmap() 后,DMA 會把磁盤的數據拷貝到內核的緩沖區里。接著,應用進程跟操作系統內核「共享」這個緩沖區;

      應用進程再調用 write(),操作系統直接將內核緩沖區的數據拷貝到 socket 緩沖區中,這一切都發生在內核態,由 CPU 來搬運數據;

      最后,把內核的 socket 緩沖區里的數據,拷貝到網卡的緩沖區里,這個過程是由 DMA 搬運的。

      我們可以得知,通過使用 mmap() 來代替 read(), 可以減少一次數據拷貝的過程。

      但這還不是最理想的零拷貝,因為仍然需要通過 CPU 把內核緩沖區的數據拷貝到 socket 緩沖區里,而且仍然需要 4 次上下文切換,因為系統調用還是 2 次。

      在 Linux 內核版本 2.1 中,提供了一個專門發送文件的系統調用函數 sendfile(),函數形式如下:

      #include ssize_t sendfile(int out_fd, int in_fd, off_t *offset, size_t count);

      它的前兩個參數分別是目的端和源端的文件描述符,后面兩個參數是源端的偏移量和復制數據的長度,返回值是實際復制數據的長度。

      首先,它可以替代前面的 read() 和 write() 這兩個系統調用,這樣就可以減少一次系統調用,也就減少了 2 次上下文切換的開銷。

      其次,該系統調用,可以直接把內核緩沖區里的數據拷貝到 socket 緩沖區里,不再拷貝到用戶態,這樣就只有 2 次上下文切換,和 3 次數據拷貝。如下圖:

      但是這還不是真正的零拷貝技術,如果網卡支持 SG-DMA(The Scatter-Gather Direct Memory Access)技術(和普通的 DMA 有所不同),我們可以進一步減少通過 CPU 把內核緩沖區里的數據拷貝到 socket 緩沖區的過程。

      你可以在你的 Linux 系統通過下面這個命令,查看網卡是否支持 scatter-gather 特性:

      $ ethtool -k eth0 | grep scatter-gather scatter-gather: on

      于是,從 Linux 內核 2.4 版本開始起,對于支持網卡支持 SG-DMA 技術的情況下, sendfile() 系統調用的過程發生了點變化,具體過程如下:

      第一步,通過 DMA 將磁盤上的數據拷貝到內核緩沖區里;

      第二步,緩沖區描述符和數據長度傳到 socket 緩沖區,這樣網卡的 SG-DMA 控制器就可以直接將內核緩存中的數據拷貝到網卡的緩沖區里,此過程不需要將數據從操作系統內核緩沖區拷貝到 socket 緩沖區中,這樣就減少了一次數據拷貝;

      所以,這個過程之中,只進行了 2 次數據拷貝,如下圖:

      這就是所謂的零拷貝(Zero-copy)技術,因為我們沒有在內存層面去拷貝數據,也就是說全程沒有通過 CPU 來搬運數據,所有的數據都是通過 DMA 來進行傳輸的。。

      零拷貝技術的文件傳輸方式相比傳統文件傳輸的方式,減少了 2 次上下文切換和數據拷貝次數,只需要 2 次上下文切換和數據拷貝次數,就可以完成文件的傳輸,而且 2 次的數據拷貝過程,都不需要通過 CPU,2 次都是由 DMA 來搬運。

      所以,總體來看,零拷貝技術可以把文件傳輸的性能提高至少一倍以上。

      事實上,Kafka 這個開源項目,就利用了「零拷貝」技術,從而大幅提升了 I/O 的吞吐率,這也是 Kafka 在處理海量數據為什么這么快的原因之一。

      如果你追溯 Kafka 文件傳輸的代碼,你會發現,最終它調用了 Java NIO 庫里的 transferTo 方法:

      @Overridepublic long transferFrom(FileChannel fileChannel, long position, long count) throws IOException { return fileChannel.transferTo(position, count, socketChannel); }

      如果 Linux 系統支持 sendfile() 系統調用,那么 transferTo() 實際上最后就會使用到 sendfile() 系統調用函數。

      曾經有大佬專門寫過程序測試過,在同樣的硬件條件下,傳統文件傳輸和零拷拷貝文件傳輸的性能差異,你可以看到下面這張測試數據圖,使用了零拷貝能夠縮短 65% 的時間,大幅度提升了機器傳輸數據的吞吐量。

      另外,Nginx 也支持零拷貝技術,一般默認是開啟零拷貝技術,這樣有利于提高文件傳輸的效率,是否開啟零拷貝技術的配置如下:

      http { ... sendfile on ... }

      sendfile 配置的具體意思:

      設置為 on 表示,使用零拷貝技術來傳輸文件:sendfile ,這樣只需要 2 次上下文切換,和 2 次數據拷貝。

      設置為 off 表示,使用傳統的文件傳輸技術:read + write,這時就需要 4 次上下文切換,和 4 次數據拷貝。

      當然,要使用 sendfile,Linux 內核版本必須要 2.1 以上的版本。

      PageCache 有什么作用?

      回顧前面說道文件傳輸過程,其中第一步都是先需要先把磁盤文件數據拷貝「內核緩沖區」里,這個「內核緩沖區」實際上是磁盤高速緩存(PageCache)。

      由于零拷貝使用了 PageCache 技術,可以使得零拷貝進一步提升了性能,我們接下來看看 PageCache 是如何做到這一點的。

      讀寫磁盤相比讀寫內存的速度慢太多了,所以我們應該想辦法把「讀寫磁盤」替換成「讀寫內存」。于是,我們會通過 DMA 把磁盤里的數據搬運到內存里,這樣就可以用讀內存替換讀磁盤。

      但是,內存空間遠比磁盤要小,內存注定只能拷貝磁盤里的一小部分數據。

      那問題來了,選擇哪些磁盤數據拷貝到內存呢?

      我們都知道程序運行的時候,具有「局部性」,所以通常,剛被訪問的數據在短時間內再次被訪問的概率很高,于是我們可以用 PageCache 來緩存最近被訪問的數據,當空間不足時淘汰最久未被訪問的緩存。

      所以,讀磁盤數據的時候,優先在 PageCache 找,如果數據存在則可以直接返回;如果沒有,則從磁盤中讀取,然后緩存 PageCache 中。

      還有一點,讀取磁盤數據的時候,需要找到數據所在的位置,但是對于機械磁盤來說,就是通過磁頭旋轉到數據所在的扇區,再開始「順序」讀取數據,但是旋轉磁頭這個物理動作是非常耗時的,為了降低它的影響,PageCache 使用了「預讀功能」。

      比如,假設 read 方法每次只會讀 32 KB 的字節,雖然 read 剛開始只會讀 0 ~ 32 KB 的字節,但內核會把其后面的 32~64 KB 也讀取到 PageCache,這樣后面讀取 32~64 KB 的成本就很低,如果在 32~64 KB 淘汰出 PageCache 前,進程讀取到它了,收益就非常大。

      所以,PageCache 的優點主要是兩個:

      緩存最近被訪問的數據;

      預讀功能;

      這兩個做法,將大大提高讀寫磁盤的性能。

      但是,在傳輸大文件(GB 級別的文件)的時候,PageCache 會不起作用,那就白白浪費 DMA 多做的一次數據拷貝,造成性能的降低,即使使用了 PageCache 的零拷貝也會損失性能

      這是因為如果你有很多 GB 級別文件需要傳輸,每當用戶訪問這些大文件的時候,內核就會把它們載入 PageCache 中,于是 PageCache 空間很快被這些大文件占滿。

      另外,由于文件太大,可能某些部分的文件數據被再次訪問的概率比較低,這樣就會帶來 2 個問題:

      PageCache 由于長時間被大文件占據,其他「熱點」的小文件可能就無法充分使用到 PageCache,于是這樣磁盤讀寫的性能就會下降了;

      PageCache 中的大文件數據,由于沒有享受到緩存帶來的好處,但卻耗費 DMA 多拷貝到 PageCache 一次;

      所以,針對大文件的傳輸,不應該使用 PageCache,也就是說不應該使用零拷貝技術,因為可能由于 PageCache 被大文件占據,而導致「熱點」小文件無法利用到 PageCache,這樣在高并發的環境下,會帶來嚴重的性能問題。

      大文件傳輸用什么方式實現?

      原來 8 張圖,就可以搞懂「零拷貝」了(原來葉宇宸是我的處方藥)

      那針對大文件的傳輸,我們應該使用什么方式呢?

      我們先來看看最初的例子,當調用 read 方法讀取文件時,進程實際上會阻塞在 read 方法調用,因為要等待磁盤數據的返回,如下圖:

      具體過程:

      當調用 read 方法時,會阻塞著,此時內核會向磁盤發起 I/O 請求,磁盤收到請求后,便會尋址,當磁盤數據準備好后,就會向內核發起 I/O 中斷,告知內核磁盤數據已經準備好;

      內核收到 I/O 中斷后,就將數據從磁盤控制器緩沖區拷貝到 PageCache 里;

      最后,內核再把 PageCache 中的數據拷貝到用戶緩沖區,于是 read 調用就正常返回了。

      對于阻塞的問題,可以用異步 I/O 來解決,它工作方式如下圖:

      它把讀操作分為兩部分:

      前半部分,內核向磁盤發起讀請求,但是可以不等待數據就位就可以返回,于是進程此時可以處理其他任務;

      后半部分,當內核將磁盤中的數據拷貝到進程緩沖區后,進程將接收到內核的通知,再去處理數據;

      而且,我們可以發現,異步 I/O 并沒有涉及到 PageCache,所以使用異步 I/O 就意味著要繞開 PageCache。

      繞開 PageCache 的 I/O 叫直接 I/O,使用 PageCache 的 I/O 則叫緩存 I/O。通常,對于磁盤,異步 I/O 只支持直接 I/O。

      前面也提到,大文件的傳輸不應該使用 PageCache,因為可能由于 PageCache 被大文件占據,而導致「熱點」小文件無法利用到 PageCache。

      于是,在高并發的場景下,針對大文件的傳輸的方式,應該使用「異步 I/O + 直接 I/O」來替代零拷貝技術。

      直接 I/O 應用場景常見的兩種:

      應用程序已經實現了磁盤數據的緩存,那么可以不需要 PageCache 再次緩存,減少額外的性能損耗。在 MySQL 數據庫中,可以通過參數設置開啟直接 I/O,默認是不開啟;

      傳輸大文件的時候,由于大文件難以命中 PageCache 緩存,而且會占滿 PageCache 導致「熱點」文件無法充分利用緩存,從而增大了性能開銷,因此,這時應該使用直接 I/O。

      另外,由于直接 I/O 繞過了 PageCache,就無法享受內核的這兩點的優化:

      內核的 I/O 調度算法會緩存盡可能多的 I/O 請求在 PageCache 中,最后「合并」成一個更大的 I/O 請求再發給磁盤,這樣做是為了減少磁盤的尋址操作;

      內核也會「預讀」后續的 I/O 請求放在 PageCache 中,一樣是為了減少對磁盤的操作;

      于是,傳輸大文件的時候,使用「異步 I/O + 直接 I/O」了,就可以無阻塞地讀取文件了。

      所以,傳輸文件的時候,我們要根據文件的大小來使用不同的方式:

      傳輸大文件的時候,使用「異步 I/O + 直接 I/O」;

      傳輸小文件的時候,則使用「零拷貝技術」;

      在 nginx 中,我們可以用如下配置,來根據文件的大小來使用不同的方式:

      location /video/ { sendfile on; aio on; directio 1024m; }

      當文件大小大于 directio 值后,使用「異步 I/O + 直接 I/O」,否則使用「零拷貝技術」。

      總結

      早期 I/O 操作,內存與磁盤的數據傳輸的工作都是由 CPU 完成的,而此時 CPU 不能執行其他任務,會特別浪費 CPU 資源。

      于是,為了解決這一問題,DMA 技術就出現了,每個 I/O 設備都有自己的 DMA 控制器,通過這個 DMA 控制器,CPU 只需要告訴 DMA 控制器,我們要傳輸什么數據,從哪里來,到哪里去,就可以放心離開了。后續的實際數據傳輸工作,都會由 DMA 控制器來完成,CPU 不需要參與數據傳輸的工作。

      傳統 IO 的工作方式,從硬盤讀取數據,然后再通過網卡向外發送,我們需要進行 4 上下文切換,和 4 次數據拷貝,其中 2 次數據拷貝發生在內存里的緩沖區和對應的硬件設備之間,這個是由 DMA 完成,另外 2 次則發生在內核態和用戶態之間,這個數據搬移工作是由 CPU 完成的。

      為了提高文件傳輸的性能,于是就出現了零拷貝技術,它通過一次系統調用(sendfile 方法)合并了磁盤讀取與網絡發送兩個操作,降低了上下文切換次數。另外,拷貝數據都是發生在內核中的,天然就降低了數據拷貝的次數。

      Kafka 和 Nginx 都有實現零拷貝技術,這將大大提高文件傳輸的性能。

      零拷貝技術是基于 PageCache 的,PageCache 會緩存最近訪問的數據,提升了訪問緩存數據的性能,同時,為了解決機械硬盤尋址慢的問題,它還協助 I/O 調度算法實現了 IO 合并與預讀,這也是順序讀比隨機讀性能好的原因。這些優勢,進一步提升了零拷貝的性能。

      需要注意的是,零拷貝技術是不允許進程對文件內容作進一步的加工的,比如壓縮數據再發送。

      另外,當傳輸大文件時,不能使用零拷貝,因為可能由于 PageCache 被大文件占據,而導致「熱點」小文件無法利用到 PageCache,并且大文件的緩存命中率不高,這時就需要使用「異步 IO + 直接 IO 」的方式。

      在 Nginx 里,可以通過配置,設定一個文件大小閾值,針對大文件使用異步 IO 和直接 IO,而對小文件使用零拷貝。

      絮叨

      大家好,我是小林,一個專為大家圖解的工具人,如果覺得文章對你有幫助,歡迎分享給你的朋友,這對小林非常重要,謝謝你們,我們下次見!

      一口氣搞懂「文件系統」,就靠這 25 張圖了

      鍵盤敲入 A 字母時,操作系統期間發生了什么…

      Socket編程 網絡

      版權聲明:本文內容由網絡用戶投稿,版權歸原作者所有,本站不擁有其著作權,亦不承擔相應法律責任。如果您發現本站中有涉嫌抄襲或描述失實的內容,請聯系我們jiasou666@gmail.com 處理,核實后本網站將在24小時內刪除侵權內容。

      版權聲明:本文內容由網絡用戶投稿,版權歸原作者所有,本站不擁有其著作權,亦不承擔相應法律責任。如果您發現本站中有涉嫌抄襲或描述失實的內容,請聯系我們jiasou666@gmail.com 處理,核實后本網站將在24小時內刪除侵權內容。

      上一篇:excel如何繪制施工進度圖表
      下一篇:總投資80億的光芯片測試和高速封裝總部基地項目落戶湖北
      相關文章
      亚洲裸男gv网站| 亚洲国产精品无码久久| 亚洲狠狠色丁香婷婷综合| 亚洲AV成人噜噜无码网站| 亚洲AV人无码综合在线观看| 久久夜色精品国产亚洲av| 国产精品亚洲专区在线播放| 亚洲欧美在线x视频| 国产亚洲精品美女| 亚洲精品无码久久久| 亚洲一区二区三区在线视频| 亚洲一级片免费看| 久久久久亚洲AV成人网| 亚洲一区精品伊人久久伊人| 亚洲真人日本在线| 亚洲人成影院在线无码按摩店| 亚洲综合无码AV一区二区| 国产亚洲av人片在线观看| 自拍偷自拍亚洲精品被多人伦好爽 | 亚洲欧洲第一a在线观看| 亚洲国产综合精品中文第一区 | 亚洲成a∧人片在线观看无码| 亚洲国产区男人本色| 国产精品亚洲专区无码WEB| 国产亚洲视频在线| 亚洲人成色7777在线观看不卡| 亚洲午夜国产片在线观看| 国产精品亚洲综合一区| 亚洲中文字幕无码爆乳AV| 亚洲成av人在线视| 亚洲视频在线免费看| 国产成人精品日本亚洲专| 亚洲欧美国产欧美色欲| 国产91成人精品亚洲精品| 亚洲色一色噜一噜噜噜| 国产亚洲成av片在线观看| 久久亚洲精品中文字幕| 亚洲一区二区三区高清视频| 亚洲精品无码mⅴ在线观看| 国产亚洲男人的天堂在线观看 | jlzzjlzz亚洲乱熟在线播放|