Linux內(nèi)核網(wǎng)絡(luò)UDP數(shù)據(jù)包發(fā)送系列:Linux內(nèi)核網(wǎng)絡(luò)UDP數(shù)據(jù)包發(fā)送(一)Linux內(nèi)核網(wǎng)絡(luò)UDP數(shù)據(jù)包發(fā)送(二)——UDP協(xié)議層分析
Linux內(nèi)核網(wǎng)絡(luò)UDP數(shù)據(jù)包發(fā)送(三)——IP協(xié)議層分析1. 前言
在繼續(xù)分析?
ce Code Pro", "DejaVu Sans Mono", "Ubuntu Mono", "Anonymous Pro", "Droid Sans Mono", Menlo, Monaco, Consolas, Inconsolata, Courier, monospace, "PingFang SC", "Microsoft YaHei", sans-serif;font-size: 14px;background-color: rgb(249, 242, 244);border-radius: 2px;padding: 2px 4px;line-height: 22px;color: rgb(199, 37, 78);">dev_queue_xmit
?發(fā)送數(shù)據(jù)包之前,我們需要了解以下重要概念。Linux 支持流量控制(traffic control)的功能,此功能允許系統(tǒng)管理員控制數(shù)據(jù)包如何從機(jī)器發(fā)送出去。流量控制系統(tǒng)包含幾組不同的 queue system,每種有不同的排隊(duì)特征。各個(gè)排隊(duì)系統(tǒng)通常稱為 qdisc,也稱為排隊(duì)規(guī)則??梢詫?qdisc 視為
調(diào)度程序, qdisc 決定數(shù)據(jù)包的發(fā)送時(shí)間和方式。Linux 上每個(gè) device 都有一個(gè)與之關(guān)聯(lián)的默認(rèn) qdisc。對于僅支持單發(fā)送隊(duì)列的網(wǎng)卡,使用默認(rèn)的 qdisc
pfifo_fast
。支持多個(gè)發(fā)送隊(duì)列的網(wǎng)卡使用 mq 的默認(rèn) qdisc??梢赃\(yùn)行?
tc qdisc
?來查看系統(tǒng) qdisc 信息。某些設(shè)備支持硬件流量控制,這允許管理員將流量控制 offload 到網(wǎng)絡(luò)硬件,節(jié)省系統(tǒng)的 CPU 資源。現(xiàn)在我們從 net/core/dev.c 繼續(xù)分析?
dev_queue_xmit
。
2.?dev_queue_xmit
?and?__dev_queue_xmit
dev_queue_xmit
?簡單封裝了
__dev_queue_xmit
:
int dev_queue_xmit(struct sk_buff *skb)
{
return __dev_queue_xmit(skb, NULL);
}
EXPORT_SYMBOL(dev_queue_xmit);
__dev_queue_xmit
?才是干臟活累活的地方,我們一點(diǎn)一點(diǎn)來看:
static int __dev_queue_xmit(struct sk_buff *skb, void *accel_priv)
{
struct net_device *dev = skb->dev;
struct netdev_queue *txq;
struct Qdisc *q;
int rc = -ENOMEM;
skb_reset_mac_header(skb);
/* Disable soft irqs for various locks below. Also
* stops preemption for RCU.
*/
rcu_read_lock_bh();
skb_update_prio(skb);
開始的邏輯:
- 聲明變量
- 調(diào)用?
skb_reset_mac_header
,準(zhǔn)備發(fā)送 skb。這會(huì)重置 skb 內(nèi)部的指針,使得 ether 頭可以被訪問 - 調(diào)用?
rcu_read_lock_bh
,為接下來的讀操作加鎖 - 調(diào)用?
skb_update_prio
,如果啟用了網(wǎng)絡(luò)優(yōu)先級 cgroups,這會(huì)設(shè)置 skb 的優(yōu)先級
現(xiàn)在,我們來看更復(fù)雜的部分:
txq = netdev_pick_tx(dev, skb, accel_priv);
這會(huì)選擇發(fā)送隊(duì)列。
2.1?netdev_pick_tx
netdev_pick_tx
?定義在net/core/flow_dissector.c
struct netdev_queue *netdev_pick_tx(struct net_device *dev,
struct sk_buff *skb,
void *accel_priv)
{
int queue_index = 0;
if (dev->real_num_tx_queues != 1) {
const struct net_device_ops *ops = dev->netdev_ops;
if (ops->ndo_select_queue)
queue_index = ops->ndo_select_queue(dev, skb,
accel_priv);
else
queue_index = __netdev_pick_tx(dev, skb);
if (!accel_priv)
queue_index = dev_cap_txqueue(dev, queue_index);
}
skb_set_queue_mapping(skb, queue_index);
return netdev_get_tx_queue(dev, queue_index);
}
如上所示,如果網(wǎng)絡(luò)設(shè)備僅支持單個(gè) TX 隊(duì)列,則會(huì)跳過復(fù)雜的代碼,直接返回單個(gè) TX 隊(duì)列。大多高端服務(wù)器上使用的設(shè)備都有多個(gè) TX 隊(duì)列。具有多個(gè) TX 隊(duì)列的設(shè)備有兩種情況:
- 驅(qū)動(dòng)程序?qū)崿F(xiàn)?
ndo_select_queue
,以硬件或 feature-specific 的方式更智能地選擇 TX 隊(duì)列 - 驅(qū)動(dòng)程序沒有實(shí)現(xiàn)?
ndo_select_queue
,這種情況需要內(nèi)核自己選擇設(shè)備
從 3.13 內(nèi)核開始,沒有多少驅(qū)動(dòng)程序?qū)崿F(xiàn)?
ndo_select_queue
。bnx2x 和 ixgbe 驅(qū)動(dòng)程序?qū)崿F(xiàn)了此功能,但僅用于以太網(wǎng)光纖通道FCoE。鑒于此,我們假設(shè)網(wǎng)絡(luò)設(shè)備沒有實(shí)現(xiàn)?
ndo_select_queue
?和沒有使用 FCoE。在這種情況下,內(nèi)核將使用
__netdev_pick_tx
?選擇 tx 隊(duì)列。一旦
__netdev_pick_tx
?確定了隊(duì)列號,
skb_set_queue_mapping
?將緩存該值(稍后將在流量控制代碼中使用),
netdev_get_tx_queue
?將查找并返回指向該隊(duì)列的指針。讓我們 看一下
__netdev_pick_tx
?在返回
__dev_queue_xmit
?之前的工作原理。
2.2?__netdev_pick_tx
我們來看內(nèi)核如何選擇 TX 隊(duì)列。net/core/flow_dissector.c:
u16 __netdev_pick_tx(struct net_device *dev, struct sk_buff *skb)
{
struct sock *sk = skb->sk;
int queue_index = sk_tx_queue_get(sk);
if (queue_index < 0 || skb->ooo_okay ||
queue_index >= dev->real_num_tx_queues) {
int new_index = get_xps_queue(dev, skb);
if (new_index < 0)
new_index = skb_tx_hash(dev, skb);
if (queue_index != new_index