當(dāng)前位置:首頁 > 公眾號(hào)精選 > AI科技大本營
[導(dǎo)讀]無論是在統(tǒng)治NLP屆的Transformer,還是最近視覺領(lǐng)域的新秀Vision Transformer,我們都能在模型中看到Transpose/Permute算子的身影,特別是在多頭注意力機(jī)制(Multi-Head Attention)中,需要該算子來改變數(shù)據(jù)維度排布。 顯然,作為一個(gè)被高頻使用的算子,其CUDA實(shí)現(xiàn)會(huì)影響到實(shí)際網(wǎng)絡(luò)的訓(xùn)練速度。本文會(huì)介紹優(yōu)化Permute Kernel的技巧,并跟PyTorch的Permute,原生的Copy操作進(jìn)行實(shí)驗(yàn)對(duì)比。

無論是在統(tǒng)治NLP屆的Transformer,還是最近視覺領(lǐng)域的新秀Vision Transformer,我們都能在模型中看到Transpose/Permute算子的身影,特別是在多頭注意力機(jī)制(Multi-Head Attention)中,需要該算子來改變數(shù)據(jù)維度排布。

顯然,作為一個(gè)被高頻使用的算子,其CUDA實(shí)現(xiàn)會(huì)影響到實(shí)際網(wǎng)絡(luò)的訓(xùn)練速度。本文會(huì)介紹優(yōu)化Permute Kernel的技巧,并跟PyTorch的Permute,原生的Copy操作進(jìn)行實(shí)驗(yàn)對(duì)比。
1樸素的Permute實(shí)現(xiàn)
Permute算子的作用是變換張量數(shù)據(jù)維度的順序,舉個(gè)例子:
x = flow.randn(2, 3)
y = x.permute(1, 0)
y.shape
(3, 2)

其實(shí)現(xiàn)原理也可以很容易理解,即輸出Tensor的第i維,對(duì)應(yīng)輸入Tensor的dims[i]維,上述例子中 permute 實(shí)現(xiàn)對(duì)應(yīng)的偽代碼如下:
for row in x.shape[0]:
for col in x.shape[1]:
y[row][col] = x[col][row]

但是實(shí)際情況與上面的偽代碼有出入,張量的Shape是數(shù)學(xué)上的概念,在物理設(shè)備上并不真實(shí)存在。

張量的數(shù)據(jù)都是保存在一塊連續(xù)的內(nèi)存中,下圖分別從上層視角和底層視角描述了形狀為(2, 3)的張量的存儲(chǔ)方式:






Permute實(shí)現(xiàn)原理為:
  • 通過當(dāng)前輸出的一維偏移量(offset)計(jì)算對(duì)應(yīng)的高維索引


  • 然后根據(jù)參數(shù)dims重新排列輸出索引,進(jìn)而得到輸入索引。


  • 將輸入索引轉(zhuǎn)換成輸入偏移量


  • 最后進(jìn)行數(shù)據(jù)移動(dòng),整個(gè)過程的示意圖如下:





完成Permute后,輸出如下圖所示:

整個(gè) permute 計(jì)算過程需要經(jīng)過多次一維偏移量offset和高維索引之間的轉(zhuǎn)換,為了避免一次次手工計(jì)算,提供了一個(gè)工具類NdIndexOffsetHelper來方便做上述轉(zhuǎn)換。

2NdIndexOffsetHelper

NdIndexOffsetHelper的主體方法如下:
  • NdIndexToOffset方法把高維索引轉(zhuǎn)為一維偏移量


  • OffsetToNdIndex方法把一維偏移量轉(zhuǎn)為高維索引



有了這么一個(gè)工具類,那我們就可以很輕松的寫出一版Naive Permute Kernel了,核函數(shù)如下:template
__global__ void PermuteKernel(PermuteKernelParams params) {
using T = typename std::aligned_storage::type;
const T* src = reinterpret_cast(params.src);
T* dst = reinterpret_cast(params.dst);
IndexType src_index[num_dims];
IndexType dst_index[num_dims];
CUDA_1D_KERNEL_LOOP_T(IndexType, i, params.count) {
params.dst_index_helper.OffsetToNdIndex(i, dst_index);
#pragma unroll
for (size_t dim = 0; dim  (2, 3, 0, 1)
x = flow.randn(3, 4, 5, 6)
y = x.permute(2, 3, 0, 1)
y.shape
(5, 6, 3, 4)
顯然這是一個(gè)四維的Permute情形,但這里第2,3維,第0,1維是一起Permute的,所以我們可以看成是一種二維的Permute情形:
# (0, 1, 2, 3) -> ((2, 3), (0, 1))
x = x.reshape(x.shape[0]*x.shape[1], x.shape[2]*x.shape[3])
y = x.permute(1, 0)
y = y.reshape(x.shape[2], x.shape[3], x.shape[0], x.shape[1])

合并維度后,在利用NdIndexOffsetHelper根據(jù)偏移量計(jì)算索引時(shí),合并前需要計(jì)算成四維索引,而合并后我們只需計(jì)算成二維索引。相比合并前減少除法和乘法的次數(shù),進(jìn)而提升速度。

3. 使用更大的訪問粒度

細(xì)心的朋友們可能觀察到核函數(shù)中有一個(gè)模板參數(shù)size_t movement_size,它表示的是訪問元素的粒度。
在Nvidia性能優(yōu)化博客increase Performance with Vectorized Memory Access中提到可以通過向量化內(nèi)存操作來提高CUDA Kernel性能,能夠減少指令數(shù),提高帶寬利用率。鏈接:https://developer.nvidia.com/blog/cuda-pro-tip-increase-performance-with-vectorized-memory-access/)
我們設(shè)置訪問粒度的規(guī)則如下:
  • CUDA支持的訪問粒度為1B,2B,4B,8B,16B,粒度越大性能越好


  • 最后一個(gè)維度是作為整體來移動(dòng)的,即permutation[n-1]==x.dims[n-1],且大小是新訪問粒度的倍數(shù)


  • 保證數(shù)據(jù)指針滿足新訪問粒度的對(duì)齊要求



針對(duì)規(guī)則2,對(duì)應(yīng)著以下Permute場景:(0, 1, 2, 3) -> (0, 2, 1, 3)其中最后一維并沒有變化,僅僅是第1,2維進(jìn)行交換,那么我們可以使用更大的訪問粒度來讀取數(shù)據(jù),再進(jìn)行Permute操作。代碼中通過GetMovementSize函數(shù)來確定訪問粒度的大小。
我們使用Nsight Compute對(duì)PyTorch的Permute和原生Copy操作對(duì)比測試運(yùn)行時(shí)間和帶寬,測試結(jié)果如下:




其中測試環(huán)境為NVIDIA A100 40GB,場景為(0, 1, 2)->(1, 0, 2),橫坐標(biāo)表示數(shù)據(jù)形狀及數(shù)據(jù)類型。測試數(shù)據(jù)覆蓋了16MB到128MB不同大小的數(shù)據(jù),數(shù)據(jù)類型包含fp32和half兩種類型。
從上面兩張圖可以看到,在大部分情況下都可以逼近甚至略高于Copy操作的帶寬。與PyTorch對(duì)比,在操作耗時(shí)上最少快1.24倍,最快能達(dá)1.4倍。這里Permute的帶寬比原生Copy還高一點(diǎn),是因?yàn)镃opy Kernel里沒有做unroll指令間并行優(yōu)化,而Permute Kernel內(nèi)部做了相關(guān)優(yōu)化,這里僅做參考。使用上面的兩個(gè)優(yōu)化技巧,就能輕易做到比PyTorch的實(shí)現(xiàn)要快了。常規(guī)的Permute適用情況比較廣泛,也因此可能存在訪存不合并的情況。在一些特殊的場景下,我們可以通過合并訪存以提升帶寬利用率和速度,這就引出我們下個(gè)關(guān)于BatchTranspose優(yōu)化的話題。
4BatchTranspose優(yōu)化
BatchTranspose操作即矩陣轉(zhuǎn)置,僅交換矩陣最后的兩維,以下情況均符合BatchTranspose的定義,其中括號(hào)內(nèi)容表示維度的順序:
(0, 1) -> (1, 0)
(0, 1, 2) -> (0, 2, 1)

在樸素的Permute方案中,對(duì)于最后一維作為整體移動(dòng)的情況下,已經(jīng)進(jìn)行充分的優(yōu)化。但實(shí)際場景中還存在矩陣轉(zhuǎn)置的情況,此時(shí)無法應(yīng)用第三條增大訪問粒度的優(yōu)化操作,并且不滿足訪存合并要求,導(dǎo)致性能不佳。以Pytorch為例,在數(shù)據(jù)大小為128MB情況下進(jìn)行BatchTranspose時(shí),因?yàn)槲春喜⒌脑L存導(dǎo)致實(shí)際讀取數(shù)據(jù)量遠(yuǎn)大于寫入數(shù)據(jù)量(7-8倍)。

在英偉達(dá)性能優(yōu)化博客An Efficient Matrix Transpose in CUDA C/C (https://developer.nvidia.com/blog/efficient-matrix-transpose-cuda-cc/)中,其做法是設(shè)置一塊Shared Memory,然后將一行數(shù)據(jù)讀取到Shared Memory,再按列順序?qū)hared Memory中的元素寫回到Global Memory中。得益于Shared Memory訪問粒度小的特性(Global Memory是32B,Shared Memory是4B),進(jìn)而避免Global Memory的訪存不連續(xù)的問題。
Shared Memory相比Global Memory有15倍更高的帶寬,20-40倍更低的延遲,因此額外引入的讀寫開銷可以忽略不計(jì)。
此外我們給Shared Memory多padding了一個(gè)元素,進(jìn)而讓以列順序訪問的元素能夠均勻分布在32個(gè)bank上,避免bank conflict。對(duì)應(yīng)的示意圖如下(其中灰色部分代表Padding元素):


基于上述提到的點(diǎn)我們實(shí)現(xiàn)了一版BatchTranspose,代碼如下:
template
__global__ void BatchTransposeKernel(const void* src_ptr, void* dst_ptr, IndexType H, IndexType W,
IndexType num_tile_rows, IndexType num_tile_cols,
int32_t block_nums)
{
using T = typename std::aligned_storage::type;
__shared__ T tile[tile_size][tile_size 1]; // To avoid bank conflict.

const T* src = reinterpret_cast(src_ptr);
T* dst = reinterpret_cast(dst_ptr);

IndexType batch_num_tile = num_tile_rows * num_tile_cols;
for (int i = blockIdx.x, step = gridDim.x; i 
本站聲明: 本文章由作者或相關(guān)機(jī)構(gòu)授權(quán)發(fā)布,目的在于傳遞更多信息,并不代表本站贊同其觀點(diǎn),本站亦不保證或承諾內(nèi)容真實(shí)性等。需要轉(zhuǎn)載請(qǐng)聯(lián)系該專欄作者,如若文章內(nèi)容侵犯您的權(quán)益,請(qǐng)及時(shí)聯(lián)系本站刪除。
換一批
延伸閱讀

9月2日消息,不造車的華為或?qū)⒋呱龈蟮莫?dú)角獸公司,隨著阿維塔和賽力斯的入局,華為引望愈發(fā)顯得引人矚目。

關(guān)鍵字: 阿維塔 塞力斯 華為

加利福尼亞州圣克拉拉縣2024年8月30日 /美通社/ -- 數(shù)字化轉(zhuǎn)型技術(shù)解決方案公司Trianz今天宣布,該公司與Amazon Web Services (AWS)簽訂了...

關(guān)鍵字: AWS AN BSP 數(shù)字化

倫敦2024年8月29日 /美通社/ -- 英國汽車技術(shù)公司SODA.Auto推出其旗艦產(chǎn)品SODA V,這是全球首款涵蓋汽車工程師從創(chuàng)意到認(rèn)證的所有需求的工具,可用于創(chuàng)建軟件定義汽車。 SODA V工具的開發(fā)耗時(shí)1.5...

關(guān)鍵字: 汽車 人工智能 智能驅(qū)動(dòng) BSP

北京2024年8月28日 /美通社/ -- 越來越多用戶希望企業(yè)業(yè)務(wù)能7×24不間斷運(yùn)行,同時(shí)企業(yè)卻面臨越來越多業(yè)務(wù)中斷的風(fēng)險(xiǎn),如企業(yè)系統(tǒng)復(fù)雜性的增加,頻繁的功能更新和發(fā)布等。如何確保業(yè)務(wù)連續(xù)性,提升韌性,成...

關(guān)鍵字: 亞馬遜 解密 控制平面 BSP

8月30日消息,據(jù)媒體報(bào)道,騰訊和網(wǎng)易近期正在縮減他們對(duì)日本游戲市場的投資。

關(guān)鍵字: 騰訊 編碼器 CPU

8月28日消息,今天上午,2024中國國際大數(shù)據(jù)產(chǎn)業(yè)博覽會(huì)開幕式在貴陽舉行,華為董事、質(zhì)量流程IT總裁陶景文發(fā)表了演講。

關(guān)鍵字: 華為 12nm EDA 半導(dǎo)體

8月28日消息,在2024中國國際大數(shù)據(jù)產(chǎn)業(yè)博覽會(huì)上,華為常務(wù)董事、華為云CEO張平安發(fā)表演講稱,數(shù)字世界的話語權(quán)最終是由生態(tài)的繁榮決定的。

關(guān)鍵字: 華為 12nm 手機(jī) 衛(wèi)星通信

要點(diǎn): 有效應(yīng)對(duì)環(huán)境變化,經(jīng)營業(yè)績穩(wěn)中有升 落實(shí)提質(zhì)增效舉措,毛利潤率延續(xù)升勢 戰(zhàn)略布局成效顯著,戰(zhàn)新業(yè)務(wù)引領(lǐng)增長 以科技創(chuàng)新為引領(lǐng),提升企業(yè)核心競爭力 堅(jiān)持高質(zhì)量發(fā)展策略,塑強(qiáng)核心競爭優(yōu)勢...

關(guān)鍵字: 通信 BSP 電信運(yùn)營商 數(shù)字經(jīng)濟(jì)

北京2024年8月27日 /美通社/ -- 8月21日,由中央廣播電視總臺(tái)與中國電影電視技術(shù)學(xué)會(huì)聯(lián)合牽頭組建的NVI技術(shù)創(chuàng)新聯(lián)盟在BIRTV2024超高清全產(chǎn)業(yè)鏈發(fā)展研討會(huì)上宣布正式成立。 活動(dòng)現(xiàn)場 NVI技術(shù)創(chuàng)新聯(lián)...

關(guān)鍵字: VI 傳輸協(xié)議 音頻 BSP

北京2024年8月27日 /美通社/ -- 在8月23日舉辦的2024年長三角生態(tài)綠色一體化發(fā)展示范區(qū)聯(lián)合招商會(huì)上,軟通動(dòng)力信息技術(shù)(集團(tuán))股份有限公司(以下簡稱"軟通動(dòng)力")與長三角投資(上海)有限...

關(guān)鍵字: BSP 信息技術(shù)
關(guān)閉