TCP是一個巨複雜的協議,因爲他要解決很多問題,而這些問題又帶出了很多子問題和陰暗面。所以學習 TCP 本身是個比較痛苦的過程,但對於學習的過程卻能讓人有很多收穫。關於 TCP 這個協議的細節,我還是推薦你去看 W.Richard Stevens 的《TCP/IP 詳解 卷1:協議》(當然,你也可以去讀一下 RFC793 以及後面 N 多的 RFC)。另外,本文我會使用英文術語,這樣方便你通過這些英文關鍵詞來查找相關的技術文檔。
之所以想寫這篇文章,目的有三個,
所以,本文不會面面俱到,只是對 TCP 協議、算法和原理的科普。
我本來只想寫一個篇幅的文章的,但是 TCP 真 TMD 的複雜,比 C++ 複雜多了,這 30 多年來,各種優化變種爭論和修改。所以,寫着寫着就發現只有砍成兩篇。
廢話少說,首先,我們需要知道 TCP 在網絡 OSI 的七層模型中的第四層 —— 傳輸層(Transport),IP 在第三層 —— 網絡層(Network),ARP 在第二層 —— 數據鏈路層(Data Link),在第二層上的數據,我們叫 Frame,在第三層上的數據叫 Packet,第四層的數據叫 Segment。
首先,我們需要知道,我們程序的數據首先會打到 TCP 的 Segment 中,然後 TCP 的 Segment 會打到 IP 的 Packet 中,然後再打到以太網 Ethernet 的 Frame 中,傳到對端後,各個層解析自己的協議,然後把數據交給更高層的協議處理。
接下來,我們來看一下 TCP 頭的格式
你需要注意這麼幾點:
src_ip
, src_port
, dst_ip
, dst_port
)準確說是五元組,還有一個是協議。但因爲這裏只是說TCP協議,所以,這裏我只說四元組。關於其它的東西,可以參看下面的圖示
其實,網絡上的傳輸是沒有連接的,包括 TCP 也是一樣的。而 TCP 所謂的“連接”,其實只不過是在通訊的雙方維護一個“連接狀態”,讓它看上去好像有連接一樣。所以,TCP 的狀態變換是非常重要的。
下面是:“TCP 協議的狀態機”(圖片來源) 和 “TCP 建鏈接”、“TCP 斷鏈接”、“傳數據” 的對照圖,我把兩個圖並排放在一起,這樣方便在你對照着看。另外,下面這兩個圖非常非常的重要,你一定要記牢。(吐個槽:看到這樣複雜的狀態機,就知道這個協議有多複雜,複雜的東西總是有很多坑爹的事情,所以 TCP 協議其實也挺坑爹的)
很多人會問,爲什麼建鏈接要 3 次握手,斷鏈接需要 4 次揮手?
另外,有幾個事情需要注意一下:
tcp_syncookies
的參數來應對這個事 —— 當 SYN 隊列滿了後,TCP 會通過源地址端口、目標地址端口和時間戳打造出一個特別的 Sequence Number 發回去(又叫 cookie),如果是攻擊者則不會有響應,如果是正常連接,則會把這個 SYN Cookie 發回來,然後服務端可以通過 cookie 建連接(即使你不在 SYN 隊列中)。請注意,請先千萬別用 tcp_syncookies
來處理正常的大負載的連接的情況。因爲,synccookies
是妥協版的 TCP 協議,並不嚴謹。對於正常的請求,你應該調整三個 TCP 參數可供你選擇,第一個是:tcp_synack_retries
可以用他來減少重試次數;第二個是:tcp_max_syn_backlog
,可以增大 SYN 連接數;第三個是:tcp_abort_on_overflow
處理不過來乾脆就直接拒絕連接了。tcp_tw_reuse
,另一個叫 tcp_tw_recycle
的參數,這兩個參數默認值都是被關閉的,後者 recyle 比前者 resue 更爲激進,resue 要溫柔一些。另外,如果使用 tcp_tw_reuse
,必需設置 tcp_timestamps = 1
,否則無效。這裏,你一定要注意,打開這兩個參數會有比較大的坑 —— 可能會讓 TCP 連接出一些詭異的問題(因爲如上述一樣,如果不等待超時重用連接的話,新的連接可能會建不上。正如官方文檔上說的一樣“It should not be changed without advice/request of technical experts”)。tcp_tw_reuse
。官方文檔上說 tcp_tw_reuse
加上 tcp_timestamps
(又叫 PAWS, for Protection Against Wrapped Sequence Numbers)可以保證協議的角度上的安全,但是你需要 tcp_timestamps
在兩邊都被打開(你可以讀一下 tcp_twsk_unique
的源碼 )。我個人估計還是有一些場景會有問題。tcp_tw_recycle
。如果是 tcp_tw_recycle
被打開了話,會假設對端開啓了 tcp_timestamps
,然後會去比較時間戳,如果時間戳變大了,就可以重用。但是,如果對端是一個 NAT 網絡的話(如:一個公司只用一個 IP 出公網)或是對端的 IP 被另一臺重用了,這個事就複雜了。建鏈接的 SYN 可能就被直接丟掉了(你可能會看到 connection time out 的錯誤)(如果你想觀摩一下 Linux 的內核代碼,請參看源碼 tcp_timewait_state_process
)。tcp_max_tw_buckets
。這個是控制並發的 TIME_WAIT 的數量,默認值是 180000,如果超限,那麼,系統會把多的給 destory 掉,然後在日誌裏打一個警告(如:time wait bucket table overflow),官網文檔說這個參數是用來對抗 DDoS 攻擊的。也說的默認值 180000 並不小。這個還是需要根據實際情況考慮。Again,使用
tcp_tw_reuse
和tcp_tw_recycle
來解決 TIME_WAIT 的問題是非常非常危險的,因爲這兩個參數違反了TCP協議(RFC 1122) 。
下圖是我從 Wireshark 中截了個我在訪問 coolshell.cn 時的有數據傳輸的圖給你看一下,SeqNum 是怎麼變的。(使用 Wireshark 菜單中的 Statistics -> Flow Graph…
)
你可以看到,SeqNum 的增加是和傳輸的字節數相關的。上圖中,三次握手後,來了兩個 Len:1440 的包,而第二個包的 SeqNum 就成了 1441。然後第一個 ACK 回的是 1441,表示第一個 1440 收到了。
注意:如果你用 Wireshark 抓包程序看 3 次握手,你會發現 SeqNum 總是爲0,不是這樣的,Wireshark 爲了顯示更友好,使用了 Relative SeqNum —— 相對序號,你只要在右鍵菜單中的 protocol preference 中取消掉就可以看到“Absolute SeqNum”了。
TCP 要保證所有的數據包都可以到達,所以,必需要有重傳機制。
注意,接收端給發送端的 Ack 確認只會確認最後一個連續的包,比如,發送端發了 1,2,3,4,5 一共五份數據,接收端收到了 1,2,於是回 ack 3,然後收到了 4(注意此時 3 沒收到),此時的 TCP 會怎麼辦?我們要知道,因爲正如前面所說的,SeqNum 和 Ack 是以字節數爲單位,所以 ack 的時候,不能跳着確認,只能確認最大的連續收到的包,不然,發送端就以爲之前的都收到了。
一種是不回 ack,死等 3,當發送方發現收不到 3 的 ack 超時後,會重傳 3。一旦接收方收到 3 後,會 ack 回 4 —— 意味着 3 和 4 都收到了。
但是,這種方式會有比較嚴重的問題,那就是因爲要死等 3,所以會導致 4 和 5 即便已經收到了,而發送方也完全不知道發生了什麼事,因爲沒有收到 Ack,所以,發送方可能會悲觀地認爲也丟了,所以有可能也會導致 4 和 5 的重傳。
對此有兩種選擇:
這兩種方式有好也有不好。第一種會節省帶寬,但是慢,第二種會快一點,但是會浪費帶寬,也可能會有無用功。但總體來說都不好。因爲都在等 timeout,timeout 可能會很長(在下篇會說 TCP 是怎麼動態地計算出 timeout 的)
於是,TCP 引入了一種叫 Fast Retransmit 的算法,不以時間驅動,而以數據驅動重傳。也就是說,如果,包沒有連續到達,就 ack 最後那個可能被丟了的包,如果發送方連續收到 3 次相同的 ack,就重傳。Fast Retransmit 的好處是不用等 timeout 了再重傳。
比如:如果發送方發出了 1,2,3,4,5 份數據,第一份先到送了,於是就 ack 回 2,結果 2 因爲某些原因沒收到,3 到達了,於是還是 ack 回 2,後面的 4 和 5 都到了,但是還是 ack 回 2,因爲 2 還是沒有收到,於是發送端收到了三個 ack = 2 的確認,知道了 2 還沒有到,於是就馬上重轉 2。然後,接收端收到了 2,此時因爲 3,4,5 都收到了,於是 ack 回 6。示意圖如下:
Fast Retransmit 只解決了一個問題,就是 timeout 的問題,它依然面臨一個艱難的選擇,就是重轉之前的一個還是重裝所有的問題。對於上面的示例來說,是重傳 #2 呢還是重傳 #2,#3,#4,#5 呢?因爲發送端並不清楚這連續的 3 個 ack(2) 是誰傳回來的?也許發送端發了 20 份數據,是 #6,#10,#20 傳來的呢。這樣,發送端很有可能要重傳從 2 到 20 的這堆數據(這就是某些 TCP 的實際的實現)。可見,這是一把雙刃劍。
另外一種更好的方式叫:Selective Acknowledgment (SACK)(參看 RFC 2018),這種方式需要在 TCP 頭里加一個 SACK 的東西,ACK 還是 Fast Retransmit 的 ACK,SACK 則是彙報收到的數據碎版。參看下圖:
這樣,在發送端就可以根據回傳的 SACK 來知道哪些數據到了,哪些沒有到。於是就優化了 Fast Retransmit 的算法。當然,這個協議需要兩邊都支持。在 Linux 下,可以通過 tcp_sack
參數打開這個功能(Linux 2.4 後默認打開)。
這裏還需要注意一個問題 —— 接收方 Reneging,所謂 Reneging 的意思就是接收方有權把已經報給發送端 SACK 裏的數據給丟了。這樣幹是不被鼓勵的,因爲這個事會把問題複雜化了,但是,接收方這麼做可能會有些極端情況,比如要把內存給別的更重要的東西。所以,發送方也不能完全依賴 SACK,還是要依賴 ACK,並維護 Time-Out,如果後續的 ACK 沒有增長,那麼還是要把 SACK 的東西重傳,另外,接收端這邊永遠不能把 SACK 的包標記爲 Ack。
注意:SACK 會消費發送方的資源,試想,如果一個攻擊者給數據發送方發一堆 SACK 的選項,這會導致發送方開始要重傳甚至遍歷已經發出的數據,這會消耗很多發送端的資源。詳細的東西請參看《TCP SACK的性能權衡》
Duplicate SACK 又稱 D-SACK,其主要使用了 SACK 來告訴發送方有哪些數據被重複接收了。RFC-2833 裏有詳細描述和示例。下面舉幾個例子(來源於 RFC-2833)
D-SACK使用了SACK的第一個段來做標誌,
下面的示例中,丟了兩個 ACK,所以,發送端重傳了第一個數據包(3000 - 3499),於是接收端發現重複收到,於是回了一個 SACK = 3000 - 3500,因爲 ACK 都到了 4000 意味着收到了 4000 之前的所有數據,所以這個 SACK 就是 D-SACK —— 旨在告訴發送端我收到了重複的數據,而且我們的發送端還知道,數據包沒有丟,丟的是 ACK 包。
1 | Transmitted Received ACK Sent |
下面的示例中,網絡包(1000 - 1499)被網絡給延誤了,導致發送方沒有收到 ACK,而後面到達的三個包觸發了“Fast Retransmit 算法”,所以重傳,但重傳時,被延誤的包又到了,所以,回了一個 SACK = 1000 - 1500,因爲 ACK 已到了 3000,所以,這個 SACK 是 D-SACK —— 標識收到了重複的包。
這個案例下,發送端知道之前因爲“Fast Retransmit 算法”觸發的重傳不是因爲發出去的包丟了,也不是因爲迴應的 ACK 包丟了,而是因爲網絡延時了。
1 | Transmitted Received ACK Sent |
可見,引入了 D-SACK,有這麼幾個好處:
知道這些東西可以很好得幫助TCP瞭解網絡情況,從而可以更好的做網絡上的流控。
Linux 下的 tcp_dsack
參數用於開啓這個功能(Linux 2.4 後默認打開)
好了,上篇就到這裏結束了。如果你覺得我寫得還比較淺顯易懂,那麼,歡迎移步看下篇《TCP的那些事(下)》