多核計(jì)算機(jī)的程序設(shè)計(jì)

時(shí)間：2008-04-26 21:43:00

關(guān)鍵字：計(jì)算機(jī) BSP 多線程 OPENMP

手機(jī)看文章

掃描二維碼
隨時(shí)隨地手機(jī)看文章

[導(dǎo)讀]多核計(jì)算機(jī)的程序設(shè)計(jì)

采用多核處理器芯片構(gòu)成計(jì)算機(jī)系統(tǒng)是一個(gè)片內(nèi)多處理器的并行計(jì)算機(jī)系統(tǒng)。這種并行計(jì)算機(jī)系統(tǒng)過去只出現(xiàn)超級(jí)計(jì)算中心和集群計(jì)算機(jī)系統(tǒng)中。現(xiàn)在，隨著處理器芯片進(jìn)入多核時(shí)代，使得千家萬戶的計(jì)算機(jī)系統(tǒng)都成為多處理器的并行計(jì)算機(jī)系統(tǒng)。這種并行計(jì)算機(jī)系統(tǒng)是一種并行進(jìn)程和并行線程的系統(tǒng)，多個(gè)進(jìn)程和線程可以真正地并行運(yùn)行，而不是像在單處理器系統(tǒng)中那樣輪流地在CPU上運(yùn)行。但是在多核系統(tǒng)中，原有的單個(gè)程序的運(yùn)行速度并不能得到提高。要提高單個(gè)程序的運(yùn)行性能，需要重新設(shè)計(jì)原有程序，將單個(gè)計(jì)算任務(wù)分解成多個(gè)并行的子任務(wù)，讓這些子任務(wù)分別在不同的處理器核上運(yùn)行。這樣，需要采用不同的程序設(shè)計(jì)手段。隨著多核時(shí)代的到來，并行程序設(shè)計(jì)將成為軟件行業(yè)的必備知識(shí)和技能。

　　多核與程序設(shè)計(jì)

　　與單處理器系統(tǒng)不同，運(yùn)行在多處理器系統(tǒng)中的程序是多線程的程序。這種程序必須是可重入的，即程序代碼能夠被重疊地啟動(dòng)并且同時(shí)運(yùn)行在多個(gè)上下文中，這些運(yùn)行上下文構(gòu)成多個(gè)線程。代碼的可重入意味著在多次進(jìn)入同一段代碼的線程之間避免競(jìng)態(tài)(race condition)現(xiàn)象。競(jìng)態(tài)現(xiàn)象發(fā)生在對(duì)資源的共享訪問情況下。當(dāng)兩個(gè)運(yùn)行的線程需要訪問相同的數(shù)據(jù)結(jié)構(gòu)或硬件資源時(shí)，兩個(gè)線程會(huì)因?yàn)橘Y源的共享而相互干擾。為避免競(jìng)態(tài)，需要建立起線程間的通信和同步機(jī)制。

　　數(shù)據(jù)競(jìng)爭(zhēng)出現(xiàn)在兩個(gè)數(shù)據(jù)相關(guān)的線程之間。這時(shí)，線程的運(yùn)行結(jié)果與線程的運(yùn)行順序有關(guān)。例如，對(duì)于以下兩個(gè)線程：

　　// 線程1
　　t = x;
　　x = t + 1;
　　// 線程2
　　u = x;
　　x = u + 2;

　　兩個(gè)線程的并行運(yùn)行情況有以下三種可能，導(dǎo)致三種不同的結(jié)果，使得x的分別為1、2和3，如表1所示。解決這個(gè)問題需要采用同步機(jī)制和互斥機(jī)制。同步機(jī)制是并行系統(tǒng)中保持各并行程序正確運(yùn)行的必要的控制機(jī)制。它用于在并行的線程之間進(jìn)行時(shí)間上的協(xié)調(diào)?；コ鈾C(jī)制則是實(shí)現(xiàn)同步機(jī)制的基礎(chǔ)。在單處理器系統(tǒng)中，這種機(jī)制可以建立在存儲(chǔ)器變量的基礎(chǔ)上。在單處理器系統(tǒng)中，線程的訪存操作本身就是一種互斥的機(jī)制。而在多核系統(tǒng)中，這種機(jī)制需要通過存儲(chǔ)器一致性機(jī)制和現(xiàn)成通信機(jī)制來實(shí)現(xiàn)。

　　并行程序的概念

　　多處理器系統(tǒng)并行程序設(shè)計(jì)中需要進(jìn)行任務(wù)劃分、數(shù)據(jù)劃分和數(shù)據(jù)流劃分。任務(wù)劃分的目的是使得各個(gè)處理器都能分配到平衡的工作負(fù)載，從而提高運(yùn)算的并行性。數(shù)據(jù)劃分是將數(shù)據(jù)對(duì)象劃分成多個(gè)并行處理的數(shù)據(jù)子集。數(shù)據(jù)流劃分是根據(jù)數(shù)據(jù)的處理過程進(jìn)行劃分，在不同的處理階段進(jìn)行不同的數(shù)據(jù)劃分。

　　以下用兩個(gè)例子分別介紹在共享存儲(chǔ)器和分布存儲(chǔ)器多處理器系統(tǒng)進(jìn)行上節(jié)中對(duì)64000個(gè)數(shù)據(jù)累加的方法。在共享存儲(chǔ)器系統(tǒng)中，假定有8個(gè)處理器以單總線方式連接。在求和運(yùn)算時(shí)，數(shù)據(jù)A存儲(chǔ)在集中共享的存儲(chǔ)器中，每個(gè)處理器對(duì)共享數(shù)據(jù)中的劃分成不同子集進(jìn)行訪問和累加。設(shè)Pn為處理器數(shù)，所有處理器通過分別運(yùn)行以下程序?qū)ψ蛹械臄?shù)據(jù)進(jìn)行部分和計(jì)算：

　　sum[Pn]=0;
　　for(i=8000*Pn;i<8000*(Pn+1);i=i+1)
　sum[Pn]=sum[Pn]+A[i]; /* sum the assigned areas */

　　這個(gè)循環(huán)將子集的數(shù)據(jù)從共享存儲(chǔ)器中取出。然后將數(shù)據(jù)與部分和相加，形成部分和之后再求得總和。每個(gè)處理器的部分和也存放在共享的存儲(chǔ)器中，用一個(gè)數(shù)組sum[]表示這些部分和。

　　求總和的程序段必須在各個(gè)處理器的部分和都計(jì)算完成時(shí)才開始進(jìn)行，因此需要一種同步機(jī)制來協(xié)調(diào)程序的執(zhí)行時(shí)間。在并行程序中，必須明確規(guī)定關(guān)鍵點(diǎn)的同步。對(duì)于本例，求總和的程序可以采用synch()函數(shù)進(jìn)行同步操作。synch()函數(shù)是一個(gè)屏障同步函數(shù)，它使得所有處理器中的有關(guān)線程都執(zhí)行到這一點(diǎn)時(shí)才繼續(xù)執(zhí)行以后的指令，先到達(dá)同步點(diǎn)的線程必須等待。即當(dāng)一個(gè)或部分線程調(diào)用這個(gè)函數(shù)時(shí)，函數(shù)不返回，只有當(dāng)所有的線程都調(diào)用了這個(gè)函數(shù)時(shí)，這個(gè)函數(shù)才返回，使得所有的線程都可以進(jìn)行下一步的操作。

　　在分布消息傳遞型多處理器系統(tǒng)中，假設(shè)有64個(gè)處理器，通過某種互連網(wǎng)絡(luò)相互連接。進(jìn)行上述求和運(yùn)算的第一步是進(jìn)行數(shù)據(jù)劃分，將數(shù)據(jù)子集分發(fā)到各局部存儲(chǔ)器中，數(shù)據(jù)子集存儲(chǔ)在各局部存儲(chǔ)器中后成為數(shù)組A1。計(jì)算步驟是先計(jì)算部分和，然后對(duì)部分和計(jì)算總和，程序?yàn)椋?/P>

　　sum=0;
　　for(i=0;i<1000;i=i+1)    /* loop over each array */
　　sum=sum+A1[i];     /* sum the local arrays */
　　limit=64;
　　half=64;      /* 64 processors in this MIMD */
　　do {
　　half=half/2;     /* send vs. receive dividing line */
　　if(Pn>=half && Pn<limit) send(Pn%half,sum);
　　if(Pn<half) sum=sum+receive();
　　limit=half;     /* upper limit of senders */
　　} while (half>1);     /* exit with final sum */

　　該程序同時(shí)運(yùn)行在多個(gè)進(jìn)程或處理器中，因?yàn)槎际窃诓煌牡刂房臻g訪問數(shù)據(jù)，通過消息發(fā)送操作傳遞數(shù)據(jù)。程序的前三行計(jì)算部分和，后七行對(duì)部分和進(jìn)行求和。為了匯集各個(gè)進(jìn)程的部分和，這里程序?qū)⑺械奶幚砥鞣殖砂l(fā)送方和接收方，編譯程序需要將send函數(shù)轉(zhuǎn)換成對(duì)發(fā)送消息的庫函數(shù)調(diào)用，將 receive函數(shù)轉(zhuǎn)換成對(duì)接受消息的庫函數(shù)調(diào)用。

　　并行程序的實(shí)現(xiàn)

　　并行程序中，任務(wù)的劃分可以由程序員完成，也可以由編譯程序完成。一般而言，實(shí)現(xiàn)并行程序設(shè)計(jì)的方法有3種：

　　1. 庫函數(shù)。庫函數(shù)方法在串行程序的標(biāo)準(zhǔn)庫的基礎(chǔ)上增加新的支持并行操作的函數(shù)。如MPI的消息傳遞庫和POSIX的Pthread多線程庫。庫函數(shù)方法比較容易實(shí)現(xiàn)，不需要改變編譯程序。但是程序中的并行性問題沒有經(jīng)過編譯程序的檢查、分析、優(yōu)化。程序設(shè)計(jì)的難度較大，容易出現(xiàn)錯(cuò)誤。

　　2. 新的語言構(gòu)造。在原有的程序設(shè)計(jì)語言中增加新的構(gòu)造語句，以表達(dá)并行的操作。在對(duì)并行構(gòu)造語句進(jìn)行分析的時(shí)候，編譯程序可以進(jìn)行檢查，發(fā)現(xiàn)并行運(yùn)行中存在的問題和錯(cuò)誤。但是這種方法需要采用新的編譯程序，并且增加了編譯程序的復(fù)雜性。

　　3. 編譯指導(dǎo)。在原有的語言中增加表達(dá)并行運(yùn)算的編譯指導(dǎo)語句。編譯指導(dǎo)語句能夠被并行編譯程序識(shí)別，串行編譯程序則忽略這些語句。并行編譯程序跟據(jù)這些指導(dǎo)語句將相關(guān)代碼轉(zhuǎn)換成在并行計(jì)算機(jī)中運(yùn)行的代碼。這種方法的例子如OpenMP。這種方法的特點(diǎn)是介于上述兩種方法之間。

　　多線程的編程需要利用操作系統(tǒng)或者軟件開發(fā)環(huán)境提供的庫函數(shù)實(shí)現(xiàn)線程操作，線程操作函數(shù)包括線程的創(chuàng)建和消除、線程的啟動(dòng)運(yùn)行和終止運(yùn)行、線程同步機(jī)制的建立和刪除、線程互斥機(jī)制的建立和刪除、臨界區(qū)機(jī)制的建立和刪除等。最常見的創(chuàng)建新進(jìn)程或者新線程的機(jī)制是分叉和匯集(fork-join)，調(diào)用fork函數(shù)創(chuàng)建一個(gè)新的進(jìn)程或線程并制定進(jìn)程或線程的執(zhí)行入口，調(diào)用join函數(shù)則可以結(jié)束新進(jìn)程或新線程的執(zhí)行。在并行線程的程序設(shè)計(jì)中，程序員需要安排線程的創(chuàng)建、線程的同步和線程間的通信等，需要考慮到同一段代碼將在多個(gè)線程中同時(shí)運(yùn)行而不能相互影響。因此，在采用庫函數(shù)方式下，多線程程序設(shè)計(jì)是對(duì)程序員的一個(gè)挑戰(zhàn)。

　　一般情況下，在消息傳遞型多處理器系統(tǒng)中，每個(gè)處理器執(zhí)行的是各不相同的程序。每個(gè)結(jié)點(diǎn)上運(yùn)行的進(jìn)程或線程的程序代碼都要由程序員分別編寫，進(jìn)程和線程之間的通信通過MPI消息傳遞函數(shù)庫實(shí)現(xiàn)。程序員需要安排好每個(gè)結(jié)點(diǎn)的程序中消息的發(fā)送和對(duì)應(yīng)的接收函數(shù)的調(diào)用，否則就會(huì)造成處理器間的等待，甚至死機(jī)。因此程序設(shè)計(jì)的工作量很大，而且程序的調(diào)試工作十分復(fù)雜。

　　多線程的并行運(yùn)行可以在單個(gè)處理器上進(jìn)行，形成軟件多線程；也可以在支持多線程的處理器核、多個(gè)處理器核或者多個(gè)處理器芯片上運(yùn)行，形成硬件多線程。多線程的運(yùn)行情況可以用線程運(yùn)行狀態(tài)時(shí)空?qǐng)D來表示。圖1是較宏觀的線程時(shí)空?qǐng)D的一個(gè)例子。圖中用不同的灰度的條形圖表示線程所處的不同狀態(tài)。其中，線程通信時(shí)間包括線程等待鎖的時(shí)間、同步操作花費(fèi)的時(shí)間和消息發(fā)送與接收的時(shí)間。在軟件多線程方式下，各個(gè)線程輪流地使用處理器核資源。這一點(diǎn)在線程運(yùn)行狀態(tài)時(shí)空?qǐng)D上可以清楚地看到，同一個(gè)核上的線程運(yùn)行的狀態(tài)相互不會(huì)出現(xiàn)重疊的情況，線程之間的通信也不是通過互連網(wǎng)絡(luò)直接進(jìn)行的，而是通過緩存空間進(jìn)行。在硬件多線程中，運(yùn)行在多個(gè)邏輯處理器上的多線程具有不同的硬件資源，構(gòu)成真正的并行運(yùn)行方式。

　　OpenMP與多核程序設(shè)計(jì)

　　OpenMP標(biāo)準(zhǔn)在1997年形成，作為編寫可移植的多線程應(yīng)用程序的API。OpenMP是對(duì)基本語言的擴(kuò)展，標(biāo)準(zhǔn)內(nèi)容可以從www.openmp.org上獲得。OpenMP適用于共享存儲(chǔ)器的多處理器系統(tǒng)，線程間通過共享變量傳遞數(shù)據(jù)結(jié)果。

　　OpenMP的程序設(shè)計(jì)模型提供了一種與平臺(tái)無關(guān)的編譯指導(dǎo)命令(pragma)、編譯指示符、函數(shù)調(diào)用和環(huán)境變量，顯式地告訴編譯程序在應(yīng)用程序如何使用并行性，在哪里使用并行性。它提供了一個(gè)編寫可移植的多線程應(yīng)用程序的API，可以實(shí)現(xiàn)循環(huán)程序的多線程化。許多循環(huán)程序可通過插入一條 pragma變成多線程的，只要相關(guān)性不妨礙程序的并行執(zhí)行。OpenMP支持多線程間的同步和局部數(shù)據(jù)變量，它采用分叉和匯集(fork-join)的執(zhí)行模式建立多線程，使得編譯和運(yùn)行庫能夠有效地編譯和運(yùn)行程序，減少線程執(zhí)行的開銷。通過將實(shí)現(xiàn)細(xì)節(jié)留給編譯程序和實(shí)時(shí)運(yùn)行庫，程序員不需要對(duì)線程的創(chuàng)建和刪除進(jìn)行編程，可以將精力集中于確定哪些循環(huán)程序段需要并行化，以及如何測(cè)試并行線程的性能。程序員不需要對(duì)線程的同步操作進(jìn)行詳細(xì)編程，也不需要在程序中增加大量的代碼來創(chuàng)建、初始化、管理和終止線程以實(shí)現(xiàn)并行性。用戶對(duì)串行程序添加編譯指導(dǎo)命令的過程就類似于進(jìn)行顯式并行程序設(shè)計(jì)。

　　OpenMP可以對(duì)循環(huán)程序進(jìn)行按循環(huán)迭代的任務(wù)劃分，創(chuàng)建多個(gè)線程，每個(gè)線程完成若干個(gè)循環(huán)迭代的計(jì)算子任務(wù)。例如，以下循環(huán)程序是加入了OpenMP編譯指導(dǎo)的程序：

   #pragma omp parallel for
   for (i=0; i<MAX; i++)
   A[i] = c*A[i] + B[i];

　　其中，pragma表示編譯指導(dǎo)命令，表示這是一條編譯指令；omp表示它是OpenMP的編譯指令，采用OpenMP的規(guī)范； parallel表示對(duì)下面一條語句進(jìn)行并行化，表示多線程并行代碼區(qū)域的開始；for表示對(duì)for循環(huán)語句進(jìn)行多線程分解。這樣，這段程序?qū)⒈簧啥鄠€(gè)線程的代碼。每個(gè)線程完成循環(huán)中的一個(gè)迭代。對(duì)于多重循環(huán)，OpenMP只能將最外層的循環(huán)分解成并行多線程，OpenMP的循環(huán)程序分解不能嵌套進(jìn)行。

　　在大的應(yīng)用程序中，關(guān)鍵的循環(huán)體中常常有遞歸操作。循環(huán)程序中最常見的相關(guān)性是遞歸相關(guān)性。為此，OpenMP提供了一種遞歸 (reduction)子句，它有效地結(jié)合一些變量的算術(shù)遞歸運(yùn)算對(duì)循環(huán)中的變量進(jìn)行計(jì)算。對(duì)于存在遞歸相關(guān)性的情況，可以采用遞歸的編譯指令 reduction。例如，對(duì)于以下求和的遞歸循環(huán)程序：

　　sum = 0;
　　for (i=0; i < 100; i++)
　　{
　　sum += array[i];
　　}
　　如果分解成多個(gè)線程的話，sum變量就是線程之間的共享變量。可以加入遞歸的OpenMP編譯指令，變成：
　　sum = 0;
　　#pragma omp parallel for reduction(+;sum)
　　for (i=0; i < 100; i++)
　　{
　　sum += array[i];
　　}
　　這時(shí)，OpenMP能夠處理各個(gè)線程對(duì)共享變量的訪問互斥性，不需要應(yīng)用程序員操心。

　　在編寫多線程程序時(shí)，理解哪些數(shù)據(jù)是共享的、哪些數(shù)據(jù)是私有的成為一個(gè)極其重要的問題。OpenMP將這種區(qū)別通過一套子句呈現(xiàn)給程序員，例如 shared、private和default。OpenMP還可以有條件地進(jìn)行并行執(zhí)行，方法是使用if子句，該子句可以被加到任何并行結(jié)構(gòu)上。如下面的例子中，在循環(huán)次數(shù)大于16時(shí)才啟動(dòng)并行線程，以避免多線程帶來的開銷：

　　#pragma omp parallel for if(n>=16)
　　for ( k = 0; k < n; k++ ) fn2(k);

　　一個(gè)循環(huán)程序可以分解成大量的線程，將這些線程分配給處理器時(shí)需要考慮各處理器的負(fù)載平衡，使得所有的處理器差不多同時(shí)完成各自的線程，良好的負(fù)載平衡可以獲得最佳的并行處理性能，程序中必須進(jìn)行有效的循環(huán)程序的線程調(diào)度和劃分。OpenMP能夠自動(dòng)根據(jù)運(yùn)行的環(huán)境確定最佳線程的數(shù)量，以實(shí)現(xiàn)使用任意個(gè)數(shù)線程都能具有良好性能的程序。因此，OpenMP是一個(gè)容易入門的多線程程序設(shè)計(jì)手段。

　　并行程序軟件工具

　　并行程序設(shè)計(jì)環(huán)境包括并行程序調(diào)試器。并行程序調(diào)試器應(yīng)當(dāng)能夠通過對(duì)程序代碼的分析發(fā)現(xiàn)程序中問題，應(yīng)當(dāng)能夠快速準(zhǔn)確地定為這些問題。對(duì)并行程序的分析包括數(shù)據(jù)相關(guān)性分析、鎖的分析等，分析出并行程序中的數(shù)據(jù)競(jìng)爭(zhēng)現(xiàn)象和死鎖現(xiàn)象等程序員難以看出的問題。集群系統(tǒng)的調(diào)試器是一種能夠在跨平臺(tái)、異構(gòu)開發(fā)環(huán)境中的使用的并行程序開發(fā)工具。

　　并行程序的優(yōu)化包括分析程序中各個(gè)函數(shù)之間的調(diào)用關(guān)系，從而分析程序中的關(guān)鍵調(diào)用路徑；分析程序中的熱點(diǎn)，即執(zhí)行時(shí)間最長(zhǎng)地函數(shù)；分析線程的負(fù)載平衡情況等。多線程的程序中包含多個(gè)執(zhí)行流，這些執(zhí)行流在同步點(diǎn)上是相互相關(guān)的。關(guān)鍵路徑是其中執(zhí)行時(shí)間最長(zhǎng)的執(zhí)行路徑。例如，對(duì)于圖2(a)所示的線程執(zhí)行流，在時(shí)間軸上的關(guān)鍵路徑的例子如圖2(b)所示，其中關(guān)鍵路徑用特粗線表示，中粗線表示非關(guān)鍵路徑上執(zhí)行的線程，細(xì)線表示空閑的線程。良好的并行程序設(shè)計(jì)環(huán)境應(yīng)當(dāng)能夠分析出這種關(guān)鍵路徑，從而為程序減少程序的總體執(zhí)行時(shí)間提供幫助。在圖3示的線程流程圖上，線程1是貫穿整個(gè)執(zhí)行流程的線程，成為主線程。其余線程是在需要并行執(zhí)行的期間建立的線程，成為子線程。

　　分析線程的運(yùn)行狀態(tài)對(duì)于優(yōu)化多線程程序設(shè)計(jì)十分重要，這種分析有助于程序員了解哪些程序段是影響整個(gè)程序運(yùn)行時(shí)間的關(guān)鍵。從線程之間關(guān)系的角度，可以將線程的運(yùn)行狀態(tài)分成以下4種：

　　·巡航狀態(tài)。這時(shí)線程處于獨(dú)立的執(zhí)行狀態(tài)，保持高速運(yùn)行，線程的運(yùn)行不受其他線程的影響，也不影響其他線程的運(yùn)行。

　　·開銷狀態(tài)。這是線程操作的開銷，如線程的創(chuàng)建、關(guān)閉等。

　　·阻塞狀態(tài)。這時(shí)線程正在等待外部事件，如同步和通信的等待。

　　·影響狀態(tài)。這時(shí)線程處于執(zhí)行狀態(tài)，它阻礙了其他線程的執(zhí)行，其他線程正在等待該線程。

　　線程的并行化狀況反映系統(tǒng)中創(chuàng)建的線程數(shù)量，可以分成空閑(idel)、串行(serial)、偏少(under-subscribed)、并行(parallel)和偏多(oversubscribed)幾種情況。程序員在調(diào)試程序中去分析這種線程數(shù)量狀況是一件煩瑣的事情，通常借助于并行程序調(diào)試工具。

　　支持這種線程調(diào)試和優(yōu)化軟件工具如Intel的Vtune。Vtune是一個(gè)性能測(cè)試工具軟件，能夠從程序的試運(yùn)行中收集系統(tǒng)性能數(shù)據(jù)，顯示出性能數(shù)據(jù)的時(shí)空?qǐng)D，包括顯示函數(shù)調(diào)用關(guān)系圖和程序中的熱點(diǎn)。通過這個(gè)軟件工具，可以對(duì)各種計(jì)算機(jī)系統(tǒng)的軟件性能進(jìn)行分析測(cè)試，包括各種采用Intel系統(tǒng)結(jié)構(gòu)的嵌入式系統(tǒng)和多核的桌上型計(jì)算機(jī)系統(tǒng)，從而對(duì)并行程序進(jìn)行調(diào)試和優(yōu)化。該軟件具有Windows版本和Red Hat Linux版本。

　　Vtune使用高級(jí)性能分析技術(shù)查找性能瓶頸，能夠提供程序流程的圖形化視圖，以幫開發(fā)人員快速確定關(guān)鍵函數(shù)和調(diào)用順序并獲得程序執(zhí)行情況的高級(jí)別算法視圖。Vtune能夠?qū)Τ绦虻倪\(yùn)行中進(jìn)行實(shí)時(shí)采樣，經(jīng)過分析后顯示出線程的關(guān)鍵路徑(critical path view)，可以在線程時(shí)空?qǐng)D上標(biāo)出線程的運(yùn)行狀態(tài)(timeline view)，可以統(tǒng)計(jì)出線程在各種狀態(tài)下所經(jīng)歷的時(shí)間比例(profile view)，還可以分析出線程并行的狀況以及時(shí)間比例(thread view)。調(diào)用關(guān)系圖中清晰地顯示出程序的流程，包括子程序調(diào)用關(guān)系以及程序的關(guān)鍵路徑。

　　Vtune的分析功能包括熱點(diǎn)分析。所謂熱點(diǎn)是指系統(tǒng)中發(fā)生大量活動(dòng)的位置，如cache失效、分支預(yù)測(cè)失效、流水線停頓等。在Vtune中使用“計(jì)數(shù)器監(jiān)視器”可以在運(yùn)行時(shí)跟蹤系統(tǒng)活動(dòng)與資源消耗情況，幫助快速確定系統(tǒng)層面的性能問題。