高德技術(shù)評測建設(shè)之路

時間：2020-05-11 16:21:28

關(guān)鍵字： SE 自動化互聯(lián)網(wǎng) 模型

手機(jī)看文章

掃描二維碼
隨時隨地手機(jī)看文章

[導(dǎo)讀]來自：高德技術(shù) 前言近幾十年是互聯(lián)網(wǎng)高速發(fā)展的時代。隨著互聯(lián)網(wǎng)行業(yè)的發(fā)展壯大，必然會出現(xiàn)角色的細(xì)分，從而演化出了不同的職能崗位。隨著日益激烈的市場競爭，修煉內(nèi)功，提升產(chǎn)品效果也成為了各公司發(fā)展的重要工作。產(chǎn)品效果如何評估？用戶體驗(yàn)如何度量？

高德技術(shù)評測建設(shè)之路

來自：高德技術(shù)

前言

近幾十年是互聯(lián)網(wǎng)高速發(fā)展的時代。隨著互聯(lián)網(wǎng)行業(yè)的發(fā)展壯大，必然會出現(xiàn)角色的細(xì)分，從而演化出了不同的職能崗位。隨著日益激烈的市場競爭，修煉內(nèi)功，提升產(chǎn)品效果也成為了各公司發(fā)展的重要工作。產(chǎn)品效果如何評估？用戶體驗(yàn)如何度量？本文試圖闡述評測這一新崗位在高德的主要職責(zé)，發(fā)展進(jìn)化過程，以及這一崗位所負(fù)責(zé)的產(chǎn)品效果評估手段與體系搭建。

當(dāng)你在各搜索引擎輸入評測二字時，看到的相關(guān)搜索通常是這樣的：

高德技術(shù)評測建設(shè)之路

這些問題其實(shí)能代表大部分人對評測的了解——就是除了游戲評測、手機(jī)評測、汽車評測、生活用品評測之外，人們對評測其實(shí)不太了解?；ヂ?lián)網(wǎng)公司里Title是評測的同學(xué)又是做什么的呢？也許大家的了解就更少了。

做了三年多的評測，在第一年經(jīng)常面對的靈魂拷問就是：“你們評測是做什么的？”這種問題回答起來，基本類似于哲學(xué)的終極三問了：“你是誰？你從哪兒來？你到哪兒去？”

評測是誰？這是評測的定位問題。評測從哪兒來？這是評測的根基和起源。評測要到哪兒去？這是評測的發(fā)展目標(biāo)和方向。

評測是誰？

簡單地說，評測是評估產(chǎn)品效果的團(tuán)隊。希望能站在用戶的角度，在上線前驗(yàn)證需求效果，在上線后通過對自身、用戶數(shù)據(jù)和競品的全面分析，建立起產(chǎn)品立體的效果評估體系，也就是評測體系。

評測從哪兒來？

要回答這個問題，其實(shí)就是——為什么要評測？

如同每個版本更新，我們都會關(guān)心性能如何一樣，當(dāng)上線了新的策略時，大家也會同樣關(guān)心產(chǎn)品的效果。產(chǎn)品效果如何評估？策略相關(guān)的需求開發(fā)完成之后，研發(fā)實(shí)現(xiàn)的實(shí)際效果是否和產(chǎn)品經(jīng)理的預(yù)期一致？實(shí)際效果又是否和用戶的預(yù)期一致？在理想情況下，這三者應(yīng)該是無差異的。但我們也應(yīng)該有衡量它們之間是否有差異的方式，給出效果變化是否正向的結(jié)論，以更好地保障用戶的使用體驗(yàn)。

此外，即使上線前，所有人都一致給出了正向結(jié)論，認(rèn)為需求上線后一定會給用戶體驗(yàn)帶來極大提升。真實(shí)的產(chǎn)品體驗(yàn)如何，仍然得用戶說了算。比較大的修改可以通過AB實(shí)驗(yàn)的方式圈出小部分用戶，快速收集用戶數(shù)據(jù)，進(jìn)一步對需求效果是否正向做出評價?；蛘咧苯由暇€，通過對行為數(shù)據(jù)及用戶反饋的分析來完成線上評估。

同時，要在市場上找準(zhǔn)自己的位置，對競品的分析必不可少。

有了這些效果評估及分析的需求，就有了評測團(tuán)隊。

高德技術(shù)評測建設(shè)之路

如何進(jìn)行評測

上線前的離線效果評測及分析、AB實(shí)驗(yàn)及分析、上線后的指標(biāo)監(jiān)控及問題分析、問題挖掘，競品監(jiān)控和分析是常見的評測手段。

高德技術(shù)評測建設(shè)之路

一、離線評測

上線前，針對產(chǎn)品的需求，評測的職責(zé)是通過各種方式分析及驗(yàn)證產(chǎn)品效果，給出是否能達(dá)到上線標(biāo)準(zhǔn)的結(jié)論，同時分析出頭部問題所在。

技術(shù)評測團(tuán)隊成立之初，主要建設(shè)的部分有：確定合作流程、建設(shè)評測專業(yè)能力和建設(shè)評測工具。

合作流程

對標(biāo)一個版本開發(fā)的項(xiàng)目流程，從需求確定到開發(fā)，到測試驗(yàn)證再到上線。評測從需求串講階段開始，明確有哪些需求涉及到效果變化。再根據(jù)變化情況制定評測方案，同時檢查工具是否符合需要，如否則進(jìn)入工具快速開發(fā)階段。然后獲取評測數(shù)據(jù)，進(jìn)入評估驗(yàn)證階段，最后發(fā)送報告，給出需求是否通過評測的結(jié)論，并對出現(xiàn)的問題進(jìn)行總結(jié)分類。

高德技術(shù)評測建設(shè)之路

對于評測介入的不同業(yè)務(wù)線來說，評測的流程大致相同。但由于業(yè)務(wù)不同，評測方案與方式會有很大不同。

評測方案

根據(jù)產(chǎn)品需求，明確效果修改影響范圍，從而確定評測樣本、評測方式和評測標(biāo)準(zhǔn)。

評測樣本

評測樣本通常會根據(jù)需求影響范圍的不同，區(qū)分為隨機(jī)語料和特定語料。

特定語料一般針對需求修改的特定維度、類型進(jìn)行抽取，目的是保證評測任務(wù)的覆蓋率。隨機(jī)語料則是為了反映需求的真實(shí)影響范圍。當(dāng)一個評測任務(wù)需要使用特定語料時。通常建議使用特定及隨機(jī)語料各一份，以同時保證足夠的覆蓋，同時了解真實(shí)影響范圍，確保不會出現(xiàn)不符合預(yù)期的變化。

除真實(shí)語料外，在特定場景下也會使用自己構(gòu)建的語料。通常原因?yàn)椋?）策略上線之前沒有真實(shí)線上語料；2）影響的場景太小，在真實(shí)語料中很難找到足夠的Case。

評測標(biāo)準(zhǔn)

評測標(biāo)準(zhǔn)通常涉及到一個概念，即真值。當(dāng)某類數(shù)據(jù)在現(xiàn)實(shí)世界中有唯一正確答案時，即有絕對真值存在，如數(shù)據(jù)信息。因此我們對這類數(shù)據(jù)的評價標(biāo)準(zhǔn)就是是否跟真值一致。

另一類是相對真值。來源可以是用戶日志。例如，當(dāng)我們在判斷提供給用戶的預(yù)計到達(dá)時間（ETA）是否正確時，可以用用戶在起終點(diǎn)之間的真實(shí)行駛時間作為真值和我們的預(yù)估時間進(jìn)行對比。但由于單一用戶的實(shí)際行駛時間受個人行駛習(xí)慣以及單次的行駛情況所影響，并不是完全準(zhǔn)確的。因此是相對真值。在搜索等業(yè)務(wù)線，用戶的點(diǎn)擊行為，也可以成為相對真值，從而成為效果評測的標(biāo)準(zhǔn)。

是否有真值，真值是否容易獲取，能否大批量自動化的獲取，是在確認(rèn)評測標(biāo)準(zhǔn)時需要做的判斷。

評測方式

對應(yīng)不同的評測目的，我們給出不同的離線評測方式。有真值的業(yè)務(wù)，通過真值的自動獲取或者標(biāo)注，可以實(shí)現(xiàn)自動化評測。而無真值的業(yè)務(wù)線，判斷效果好壞的成本較高，通常需要進(jìn)行人工評測或者半自動化評測。

高德技術(shù)評測建設(shè)之路

人工評測，顧名思義，就是靠人力打分。各搜索公司大概是最早對自己的產(chǎn)品進(jìn)行效果評估的，谷歌、微軟、百度、蘋果等，都采用了類似的方式對質(zhì)量進(jìn)行評價。

Google曾經(jīng)發(fā)布過長達(dá)164頁的人工質(zhì)量評估指南。百度和必應(yīng)也發(fā)布過類似的文檔。

蘋果在介紹自己的評測體系時，也曾經(jīng)專門解釋過Human Judgement metrics, why we track them?

可以在上線前發(fā)現(xiàn)版本問題。
人工評測的指標(biāo)與定量指標(biāo)緊密關(guān)聯(lián)。
可以定義一個版本的整體質(zhì)量，并可持續(xù)跟進(jìn)效果變更。
比用戶反饋更詳細(xì)，更容易定位問題。

人工評測缺點(diǎn)不用多說，成本高、覆蓋面小、效率偏低。因?yàn)樗膬?yōu)點(diǎn)，目前仍然是各公司評測體系不可缺少的一部分。與別的評測手段結(jié)合使用時，能起到很好的效果。

要保證人工評測的質(zhì)量和效率，有三個關(guān)鍵點(diǎn)，一是標(biāo)準(zhǔn)，二是流程，三是工具。

標(biāo)準(zhǔn)文檔，類似于操作手冊，目的是降低人員培訓(xùn)成本，并在一些較難判斷的Case上，盡量減少大家認(rèn)知上的差異。所以標(biāo)準(zhǔn)文檔應(yīng)該越傻瓜越好。定義明確、所有的特殊和例外場景都有示例、在實(shí)踐中反復(fù)檢驗(yàn)，并且保持更新頻率。文檔更新應(yīng)該有專人負(fù)責(zé)，并且明確更新周期，同時將更新點(diǎn)同步到所有評估人員。

人工操作錯誤在所難免，沒人能達(dá)到百分百的準(zhǔn)確。同時需要人工評測的評測對象，通常本身沒有客觀統(tǒng)一的確定答案，因此大家難免在判斷上有差異。這些問題都需要從流程上加以保障。如同一Case必須多人標(biāo)注，僅保留一致率較高的Case，否則便丟棄?；蛘卟捎贸鯇弿?fù)審制，經(jīng)驗(yàn)較少的人員進(jìn)行初審，高級人員進(jìn)行復(fù)審。

盲審，這種方式通常在對比時使用，去掉新舊版或者左右版的標(biāo)識，并且讓結(jié)果隨機(jī)出現(xiàn)，從而保證評測人員的客觀性，不受主觀因素影響。

人工評測中的人，通常也有兩種身份。一種是普通用戶，一種是專家。專家評測需要站在更專業(yè)的視角，結(jié)合自己對業(yè)務(wù)的理解和經(jīng)驗(yàn)才能得出結(jié)論。另一種則是普通用戶也能站在自己的視角給出效果好壞。后一種可以進(jìn)行眾測，達(dá)到較大范圍的收取用戶體驗(yàn)與反饋，同時獲得一些真實(shí)數(shù)據(jù)支持迭代優(yōu)化的效果。地圖導(dǎo)航由于其專業(yè)性，通常需要進(jìn)行專家評測。

評測工具

評測工具是評測效率和質(zhì)量的保證。核心功能包括，數(shù)據(jù)倉庫、任務(wù)管理、任務(wù)的抓取和解析，diff統(tǒng)計和篩選，任務(wù)實(shí)例的展示、評測、流轉(zhuǎn)，抽樣、分配，結(jié)果管理、自動化報告。

高德技術(shù)評測建設(shè)之路

通用流程之外的任務(wù)類型、打分方式、 Case形態(tài)都可以自己定義。由于大部分是對比類的評測任務(wù)，如何做diff也非常關(guān)鍵，盡量把業(yè)務(wù)關(guān)注的各個重點(diǎn)都進(jìn)行diff差分。以便快速了解迭代效果影響面，以及快速定位問題。專家型評測在分析和定位問題時，還需要輔助分析或者判斷的數(shù)據(jù)及工具。工具的接入常常能極大地提高評測效率。

人工評測能夠良好運(yùn)行，有了一定的評測經(jīng)驗(yàn)積累和業(yè)務(wù)了解之后，開始進(jìn)行半自動化和自動化的評測建設(shè)。

方式包括定義指標(biāo)波動閾值和極端Case的冒煙評測，及模擬人工評測的自動打分模型。

自動打分模型通過學(xué)習(xí)人工評測的特征，自動給出GSB的評分，統(tǒng)計評分結(jié)果，對評測任務(wù)的效果進(jìn)行初步判定。目前可以成為輔助判斷的參考手段。

高德技術(shù)評測建設(shè)之路

冒煙評測先定義出業(yè)務(wù)核心關(guān)注的場景和維度，設(shè)定指標(biāo)。并根據(jù)既往評測經(jīng)驗(yàn)計算出可接受的波動閾值。另外定義出在效果變化上不可接受的惡劣Case。對于部分需要快速驗(yàn)證上線的實(shí)驗(yàn)，可以實(shí)現(xiàn)縮短評測周期，并保證無異常的效果。在部分業(yè)務(wù)線借此實(shí)現(xiàn)了自動發(fā)布上線的過程。

指標(biāo)分析+異常檢驗(yàn)的評測方式，是目前無真值業(yè)務(wù)線離線評測的最佳實(shí)踐方式之一。通過定義整體指標(biāo)、場景指標(biāo)、異常指標(biāo)，形成較為全面的指標(biāo)體系。觀察新版本在不同情況下的指標(biāo)整體波動和分布變化。在過程中篩出異常Case再進(jìn)行人工校驗(yàn)。最終根據(jù)指標(biāo)變化情況和人工檢驗(yàn)結(jié)果給出結(jié)論。如無異常則可以快速通過評測。

最后，路測是導(dǎo)航產(chǎn)品效果驗(yàn)證的終極手段。從用戶視角體驗(yàn)并評估全過程。雖然成本高，效率低，但必不可少，與其他手段并用，也是上線前效果保障的方式之一。

二、AB實(shí)驗(yàn)

部分需求尤其是模型調(diào)優(yōu)。需要上線觀察效果。因此在快速通過離線評測之后，進(jìn)入AB階段進(jìn)行效果評估。

高德技術(shù)評測建設(shè)之路

AB的核心鏈路是分流打標(biāo)、指標(biāo)觀測和實(shí)驗(yàn)結(jié)論產(chǎn)出。關(guān)鍵點(diǎn)是實(shí)驗(yàn)的科學(xué)性。效果評估鏈路中，AB能力的具備不難，但AB實(shí)驗(yàn)的建設(shè)是個長期的過程，在此不贅述。

三、線上驗(yàn)證

經(jīng)過離線驗(yàn)證、AB實(shí)驗(yàn)，證明效果都是正向之后，需求通常全量上線，上線之后的效果如何，需要對線上指標(biāo)進(jìn)行分析，并觀察用戶反饋情況，了解是否在核心指標(biāo)上有預(yù)期的收益，以及觀察指標(biāo)是否有異常變化。

一個產(chǎn)品的核心是滿足用戶需求，創(chuàng)造用戶價值。因此是否滿足了用戶需求，用戶滿意度如何，產(chǎn)品在市場上的情況怎么樣，必然是一個產(chǎn)品創(chuàng)造者要長期關(guān)注和回答的問題。以上便是我們試圖去回答這些問題的方式。

結(jié)語

評測的建設(shè)過程，其實(shí)也是產(chǎn)品效果評估立體體系的搭建過程。這個職責(zé)在任何一個互聯(lián)網(wǎng)公司都需要有人承擔(dān)。不過角色也許是測試、也許是產(chǎn)品、也許是運(yùn)營。在高德，之所以把這個角色獨(dú)立出來，源于對用戶體驗(yàn)和產(chǎn)品效果的重視。這一體系當(dāng)然遠(yuǎn)遠(yuǎn)未臻完美，還在不斷搭建進(jìn)化的過程中，我們始終希望能夠通過不斷努力，讓出行更美好。

特別推薦一個分享架構(gòu)+算法的優(yōu)質(zhì)內(nèi)容，還沒關(guān)注的小伙伴，可以長按關(guān)注一下：
長按訂閱更多精彩▼
如有收獲，點(diǎn)個在看，誠摯感謝

免責(zé)聲明：本文內(nèi)容由21ic獲得授權(quán)后發(fā)布，版權(quán)歸原作者所有，本平臺僅提供信息存儲服務(wù)。文章僅代表作者個人觀點(diǎn)，不代表本平臺立場，如有問題，請聯(lián)系我們，謝謝！

高德技術(shù)評測建設(shè)之路

阿維塔、賽力斯已入股！華為引望可能成“中國博世”

Trianz與AWS達(dá)成戰(zhàn)略合作協(xié)議，徹底改變云采用和管理方式

人工智能驅(qū)動工具SODA V將顛覆汽車市場，使汽車開發(fā)時間和成本降低90%

從容應(yīng)對未知風(fēng)險----解密亞馬遜云科技的韌性之道

中國游戲市場開始復(fù)蘇！騰訊、網(wǎng)易等巨頭縮減在日本投資

獨(dú)立自主！華為董事：致力打造不依賴西方的技術(shù)

華為張平安：數(shù)字世界話語權(quán)最終由生態(tài)繁榮決定！

中國通信服務(wù)公布2024年中期業(yè)績

NVI技術(shù)創(chuàng)新聯(lián)盟成立！自主生態(tài)將帶動產(chǎn)業(yè)鏈高速發(fā)展

軟通動力與長三角投資達(dá)成戰(zhàn)略合作共謀數(shù)字生態(tài)新發(fā)展

海南區(qū)6家凱悅系酒店與嵐圖達(dá)成戰(zhàn)略合作，共同推動新能源出行體驗(yàn)

安嵐攜手妮可?巴菲特開啟療愈之旅在秋日紅葉的浪漫中療愈身心

不懼美國封鎖！華為：我們給大家提供系統(tǒng)、存儲等

尼爾森IQ深耕中國四十載，共繪未來新篇章

第二十二屆跨盈年度B2B營銷高管峰會2025聚焦"營銷競?cè)。蚱剖袌鰞?nèi)卷實(shí)現(xiàn)認(rèn)知進(jìn)化"

恒久動力馳騁天地美孚1號攜手周冠宇邀您縱擎馳騁，勁享駕趣體驗(yàn)

美通社母公司Cision發(fā)布CisionOne平臺，進(jìn)軍亞太地區(qū)媒體監(jiān)測市場

移遠(yuǎn)通信推出大模型解決方案，重塑千行百業(yè)智能邊界

高途公布2024年第二季度未經(jīng)審計業(yè)績

華為發(fā)布AI百校計劃：培養(yǎng)AI人才每年獲最高100萬支持