粉嫩av一区二区三区高清,暴雨入室侵犯进出肉体免费观看,日本亚洲中文无线码在线观看

本文探討 Linux系統(tǒng) 中主要的幾種零拷貝技術(shù) 以及零拷貝技術(shù) 適用的場(chǎng)景。為了迅速建立起零拷貝的概念，我們拿一個(gè)常用的場(chǎng)景進(jìn)行引入：

　　引文

　　在寫(xiě)一個(gè)服務(wù)端程序時(shí)（Web Server 或者文件服務(wù)器），文件下載是一個(gè)基本功能。這時(shí)候服務(wù)端的任務(wù)是：將服務(wù)端主機(jī)磁盤(pán)中的文件不做修改地從已連接的 socket 發(fā)出去，我們通常用下面的代碼完成：

　　while(( n = read( diskfd, buf, BUF_SIZE)) > 0)

　　write( sockfd, buf , n);

　　基本操作就是循環(huán)的從磁盤(pán)讀入文件內(nèi)容到緩沖區(qū)，再將緩沖區(qū)的內(nèi)容發(fā)送到 socket 。但是由于Linux 的 I/O 操作默認(rèn)是緩沖 I/O 。這里面主要使用的也就是 read 和 write 兩個(gè)系統(tǒng)調(diào)用，我們并不知道操作系統(tǒng)在其中做了什么。實(shí)際上在以上 I/O 操作中，發(fā)生了多次的數(shù)據(jù)拷貝。

　　當(dāng)應(yīng)用程序訪問(wèn)某塊數(shù)據(jù)時(shí)，操作系統(tǒng)首先會(huì)檢查，是不是最近訪問(wèn)過(guò)此文件，文件內(nèi)容是否緩存在內(nèi)核緩沖區(qū)，如果是，操作系統(tǒng)則直接根據(jù) read 系統(tǒng)調(diào)用提供的 buf 地址，將內(nèi)核緩沖區(qū)的內(nèi)容拷貝到 buf 所指定的用戶空間緩沖區(qū)中去。如果不是，操作系統(tǒng)則首先將磁盤(pán)上的數(shù)據(jù)拷貝的內(nèi)核緩沖區(qū)，這一步目前主要依靠 DMA 來(lái)傳輸，然后再把內(nèi)核緩沖區(qū)上的內(nèi)容拷貝到用戶緩沖區(qū)中。

　　接下來(lái)， write 系統(tǒng)調(diào)用再把用戶緩沖區(qū)的內(nèi)容拷貝到網(wǎng)絡(luò)堆棧相關(guān)的內(nèi)核緩沖區(qū)中，最后 socket 再把內(nèi)核緩沖區(qū)的內(nèi)容發(fā)送到網(wǎng)卡上。

　　說(shuō)了這么多，不如看圖清楚：

數(shù)據(jù)拷貝

　　從上圖中可以看出，共產(chǎn)生了四次數(shù)據(jù)拷貝，即使使用了 DMA 來(lái)處理了與硬件的通訊，CPU 仍然需要處理兩次數(shù)據(jù)拷貝，與此同時(shí)，在用戶態(tài)與內(nèi)核態(tài)也發(fā)生了多次上下文切換，無(wú)疑也加重了 CPU 負(fù)擔(dān)。

　　在此過(guò)程中，我們沒(méi)有對(duì)文件內(nèi)容做任何修改，那么在內(nèi)核空間和用戶空間來(lái)回拷貝數(shù)據(jù)無(wú)疑就是一種浪費(fèi)，而零拷貝主要就是為了解決這種低效性。

　　什么是零拷貝技術(shù)（zero-copy）？

　　零拷貝主要的任務(wù)就是避免 CPU 將數(shù)據(jù)從一塊存儲(chǔ)拷貝到另外一塊存儲(chǔ)，主要就是利用各種零拷貝技術(shù)，避免讓 CPU 做大量的數(shù)據(jù)拷貝任務(wù)，減少不必要的拷貝，或者讓別的組件來(lái)做這一類簡(jiǎn)單的數(shù)據(jù)傳輸任務(wù)，讓 CPU 解脫出來(lái)專注于別的任務(wù)。這樣就可以讓系統(tǒng)資源的利用更加有效。

　　我們繼續(xù)回到引文中的例子，我們?nèi)绾螠p少數(shù)據(jù)拷貝的次數(shù)呢？一個(gè)很明顯的著力點(diǎn)就是減少數(shù)據(jù)在內(nèi)核空間和用戶空間來(lái)回拷貝，這也引入了零拷貝的一個(gè)類型：

　　讓數(shù)據(jù)傳輸不需要經(jīng)過(guò)user space

　　使用mmap

　　我們減少拷貝次數(shù)的一種方法是調(diào)用mmap() 來(lái)代替 read 調(diào)用：

　　buf = mmap( diskfd, len);

　　write( sockfd, buf, len);

　　應(yīng)用程序調(diào)用 mmap() ，磁盤(pán)上的數(shù)據(jù)會(huì)通過(guò) DMA 被拷貝的內(nèi)核緩沖區(qū)，接著操作系統(tǒng)會(huì)把這段內(nèi)核緩沖區(qū)與應(yīng)用程序共享，這樣就不需要把內(nèi)核緩沖區(qū)的內(nèi)容往用戶空間拷貝。應(yīng)用程序再調(diào)用 write() , 操作系統(tǒng)直接將內(nèi)核緩沖區(qū)的內(nèi)容拷貝到 socket 緩沖區(qū)中，這一切都發(fā)生在內(nèi)核態(tài)，最后， socket 緩沖區(qū)再把數(shù)據(jù)發(fā)到網(wǎng)卡去。

　　同樣的，看圖很簡(jiǎn)單：

mmap

　　使用mmap 替代 read 很明顯減少了一次拷貝，當(dāng)拷貝數(shù)據(jù)量很大時(shí)，無(wú)疑提升了效率。但是使用 mmap 是有代價(jià)的。當(dāng)你使用 mmap 時(shí)，你可能會(huì)遇到一些隱藏的陷阱。例如，當(dāng)你的程序 map 了一個(gè)文件，但是當(dāng)這個(gè)文件被另一個(gè)進(jìn)程截?cái)?/span>(truncate) 時(shí) , write 系統(tǒng)調(diào)用會(huì)因?yàn)樵L問(wèn)非法地址而被 SIGBUS 信號(hào)終止。 SIGBUS 信號(hào)默認(rèn)會(huì)殺死你的進(jìn)程并產(chǎn)生一個(gè) coredump , 如果你的服務(wù)器這樣被中止了，那會(huì)產(chǎn)生一筆損失。

　　通常我們使用以下解決方案避免這種問(wèn)題：

　　1. 為SIGBUS信號(hào)建立信號(hào)處理程序

　　當(dāng)遇到 SIGBUS 信號(hào)時(shí)，信號(hào)處理程序簡(jiǎn)單地返回， write 系統(tǒng)調(diào)用在被中斷之前會(huì)返回已經(jīng)寫(xiě)入的字節(jié)數(shù)，并且 errno 會(huì)被設(shè)置成success, 但是這是一種糟糕的處理辦法，因?yàn)槟悴](méi)有解決問(wèn)題的實(shí)質(zhì)核心。

　　2. 使用文件租借鎖

通常我們使用這種方法，在文件描述符上使用租借鎖，我們?yōu)槲募騼?nèi)核申請(qǐng)一個(gè)租借鎖，當(dāng)其它進(jìn)程想要截?cái)噙@個(gè)文件時(shí)，內(nèi)核會(huì)向我們發(fā)送一個(gè)實(shí)時(shí)的 RT_SIGNAL_LEASE 信號(hào)，告訴我們內(nèi)核正在破壞你加持在文件上的讀寫(xiě)鎖。這樣在程序訪問(wèn)非法內(nèi)存并且被 SIGBUS 殺死之前，你的 write 系統(tǒng)調(diào)用會(huì)被中斷。 write 會(huì)返回已經(jīng)寫(xiě)入的字節(jié)數(shù)，并且置 errno 為success 。

　　我們應(yīng)該在 mmap 文件之前加鎖，并且在操作完文件后解鎖：

　　 if(fcntl(diskfd, F_SETSIG, RT_SIGNAL_LEASE) == -1) {

　　perror("kernel lease set signal");

　　 return -1;

　　}/* l_type can be F_RDLCK F_WRLCK 加鎖 *//* l_type can be F_UNLCK 解鎖 */ if(fcntl(diskfd, F_SETLEASE, l_type)){

　　perror("kernel lease set type");

　　 return -1;

　　}

　　使用sendfile

　　從2.1 版內(nèi)核開(kāi)始， Linux 引入了 sendfile 來(lái)簡(jiǎn)化操作:

　　# includessize_t sendfile( int out_fd, int in_fd, off_t *offset, size_t count);

　　系統(tǒng)調(diào)用 sendfile() 在代表輸入文件的描述符 in_fd 和代表輸出文件的描述符 out_fd 之間傳送文件內(nèi)容（字節(jié)）。描述符 out_fd 必須指向一個(gè)套接字，而 in_fd 指向的文件必須是可以 mmap 的。這些局限限制了 sendfile 的使用，使 sendfile 只能將數(shù)據(jù)從文件傳遞到套接字上，反之則不行。

　　使用 sendfile 不僅減少了數(shù)據(jù)拷貝的次數(shù)，還減少了上下文切換，數(shù)據(jù)傳送始終只發(fā)生在 kernel space 。

sendfile 系統(tǒng)調(diào)用過(guò)程

　　在我們調(diào)用 sendfile 時(shí)，如果有其它進(jìn)程截?cái)嗔宋募?huì)發(fā)生什么呢？假設(shè)我們沒(méi)有設(shè)置任何信號(hào)處理程序， sendfile 調(diào)用僅僅返回它在被中斷之前已經(jīng)傳輸?shù)淖止?jié)數(shù)， errno 會(huì)被置為success 。如果我們?cè)谡{(diào)用 sendfile 之前給文件加了鎖， sendfile 的行為仍然和之前相同，我們還會(huì)收到RT_SIGNAL_LEASE 的信號(hào)。

　　目前為止，我們已經(jīng)減少了數(shù)據(jù)拷貝的次數(shù)了，但是仍然存在一次拷貝，就是頁(yè)緩存到socket 緩存的拷貝。那么能不能把這個(gè)拷貝也省略呢？

　　借助于硬件上的幫助，我們是可以辦到的。之前我們是把頁(yè)緩存的數(shù)據(jù)拷貝到socket 緩存中，實(shí)際上，我們僅僅需要把緩沖區(qū)描述符傳到 socket 緩沖區(qū)，再把數(shù)據(jù)長(zhǎng)度傳過(guò)去，這樣 DMA 控制器直接將頁(yè)緩存中的數(shù)據(jù)打包發(fā)送到網(wǎng)絡(luò)中就可以了。

　　總結(jié)一下， sendfile 系統(tǒng)調(diào)用利用 DMA 引擎將文件內(nèi)容拷貝到內(nèi)核緩沖區(qū)去，然后將帶有文件位置和長(zhǎng)度信息的緩沖區(qū)描述符添加socket 緩沖區(qū)去，這一步不會(huì)將內(nèi)核中的數(shù)據(jù)拷貝到 socket 緩沖區(qū)中， DMA 引擎會(huì)將內(nèi)核緩沖區(qū)的數(shù)據(jù)拷貝到協(xié)議引擎中去，避免了最后一次拷貝。

帶DMA 的 sendfile

　　不過(guò)這一種收集拷貝功能是需要硬件以及驅(qū)動(dòng)程序支持的。

　　使用splice

　　sendfile 只適用于將數(shù)據(jù)從文件拷貝到套接字上，限定了它的使用范圍。 Linux 在 2.6.17 版本引入 splice 系統(tǒng)調(diào)用，用于在兩個(gè)文件描述符中移動(dòng)數(shù)據(jù)：

　　# define _GNU_SOURCE /* See feature_test_macros(7) */# include ssize_t splice( int fd_in, loff_t *off_in, int fd_out, loff_t *off_out, size_t len, unsigned int flags);

　　splice 調(diào)用在兩個(gè)文件描述符之間移動(dòng)數(shù)據(jù)，而不需要數(shù)據(jù)在內(nèi)核空間和用戶空間來(lái)回拷貝。他從 fd_in 拷貝 len 長(zhǎng)度的數(shù)據(jù)到 fd_out ，但是有一方必須是管道設(shè)備，這也是目前 splice 的一些局限性。 flags 參數(shù)有以下幾種取值：

　　· SPLICE_F_MOVE ：嘗試去移動(dòng)數(shù)據(jù)而不是拷貝數(shù)據(jù)。這僅僅是對(duì)內(nèi)核的一個(gè)小提示：如果內(nèi)核不能從 pipe 移動(dòng)數(shù)據(jù)或者 pipe 的緩存不是一個(gè)整頁(yè)面，仍然需要拷貝數(shù)據(jù)。Linux 最初的實(shí)現(xiàn)有些問(wèn)題，所以從 2.6.21 開(kāi)始這個(gè)選項(xiàng)不起作用，后面的Linux 版本應(yīng)該會(huì)實(shí)現(xiàn)。

　　· SPLICE_F_NONBLOCK ： splice 操作不會(huì)被阻塞。然而，如果文件描述符沒(méi)有被設(shè)置為不可被阻塞方式的 I/O ，那么調(diào)用 splice 有可能仍然被阻塞。

　　· SPLICE_F_MORE ：后面的 splice 調(diào)用會(huì)有更多的數(shù)據(jù)。

　　splice 調(diào)用利用了 Linux 提出的管道緩沖區(qū)機(jī)制，所以至少一個(gè)描述符要為管道。

　　以上幾種零拷貝技術(shù)都是減少數(shù)據(jù)在用戶空間和內(nèi)核空間拷貝技術(shù)實(shí)現(xiàn)的，但是有些時(shí)候，數(shù)據(jù)必須在用戶空間和內(nèi)核空間之間拷貝。這時(shí)候，我們只能針對(duì)數(shù)據(jù)在用戶空間和內(nèi)核空間拷貝的時(shí)機(jī)上下功夫了。Linux 通常利用寫(xiě)時(shí)復(fù)制(copy on write) 來(lái)減少系統(tǒng)開(kāi)銷，這個(gè)技術(shù)又時(shí)常稱作 COW 。

　　由于篇幅原因，本文不詳細(xì)介紹寫(xiě)時(shí)復(fù)制。大概描述下就是：如果多個(gè)程序同時(shí)訪問(wèn)同一塊數(shù)據(jù)，那么每個(gè)程序都擁有指向這塊數(shù)據(jù)的指針，在每個(gè)程序看來(lái)，自己都是獨(dú)立擁有這塊數(shù)據(jù)的，只有當(dāng)程序需要對(duì)數(shù)據(jù)內(nèi)容進(jìn)行修改時(shí)，才會(huì)把數(shù)據(jù)內(nèi)容拷貝到程序自己的應(yīng)用空間里去，這時(shí)候，數(shù)據(jù)才成為該程序的私有數(shù)據(jù)。如果程序不需要對(duì)數(shù)據(jù)進(jìn)行修改，那么永遠(yuǎn)都不需要拷貝數(shù)據(jù)到自己的應(yīng)用空間里。這樣就減少了數(shù)據(jù)的拷貝。寫(xiě)時(shí)復(fù)制的內(nèi)容可以再寫(xiě)一篇文章了。。。

　　除此之外，還有一些零拷貝技術(shù)，比如傳統(tǒng)的Linux I/O 中機(jī)上 O_DIRECT 標(biāo)記可以直接 I/O ，避免了自動(dòng)緩存，還有尚未成熟的 fbufs 技術(shù)，本文尚未覆蓋所有零拷貝技術(shù)，只是介紹了常見(jiàn)的一些，如有興趣，可以自行研究，一般成熟的服務(wù)端項(xiàng)目也會(huì)自己改造內(nèi)核，提高自己的數(shù)據(jù)傳輸速率。

來(lái)源：簡(jiǎn)書(shū)

99热99这里只有精品6国产,亚洲中文字幕在线天天更新,在线观看亚洲精品国产福利片 ,久久久久综合网

Linux學(xué)習(xí)之零拷貝技術(shù)詳解

熱門帖子

Swift 教程

最新帖子

Xcode 9.4下載