關于機器學習面試的經(jīng)典題目（面試經(jīng)驗和建議）

時間：2020-07-22 10:18:02

關鍵字：機器學習深度學習

手機看文章

掃描二維碼
隨時隨地手機看文章

[導讀] 今年年初以來，作者一直在印度找數(shù)據(jù)科學、機器學習以及深度學習領域的工作。在找工作的這三十四天里，他面試了8到10家公司，其中也包括初創(chuàng)公司、基于服務的公司以及基于產(chǎn)品的公司。作者希望他的面試經(jīng)驗

今年年初以來，作者一直在印度找數(shù)據(jù)科學、機器學習以及深度學習領域的工作。在找工作的這三十四天里，他面試了8到10家公司，其中也包括初創(chuàng)公司、基于服務的公司以及基于產(chǎn)品的公司。作者希望他的面試經(jīng)驗能夠為求職者提供一些有用的信息，因而撰寫了此文。希望你讀后能夠有所收獲！

首先自我介紹一下：

我在機器學習（語音分析、文本分析和圖像分析領域應用）領域有4年以上的從業(yè)經(jīng)驗?？偟膩碚f，我認為這個領域的大多數(shù)工作職位主要包括文本分析（自然語言處理）和圖像分析（計算機視覺）。很少有公司招聘語音或音頻分析的人才。我現(xiàn)在的目標是應聘一個中高級職位，可以帶領一個深度學習或機器學習團隊做一些有趣的項目。

下面是我在應聘過程中被問到的問題，希望能夠對你有所幫助。

公司一：基于全球性服務的某公司（面試時長：20-25min）

你在簡歷中提到曾經(jīng)構建過一個文檔挖掘系統(tǒng)，你都做了哪些工作？能否在主題建模（topic modeling）中使用LDA技術實現(xiàn)文檔聚類？

假設你有數(shù)百兆字節(jié)的數(shù)據(jù)文件，這其中包括PDF文件、文本文件、圖像、掃描的PDF文件等等，請你給出一個分類方案。

你如何閱讀掃描版pdf文件或圖像格式的書面文件的內容？

樸素貝葉斯為什么被稱為“樸素”？

請詳細介紹一下樸素貝葉斯分類器。

什么是深度學習？深度學習和機器學習的區(qū)別是什么？

體驗：除此之外面試官還問了一些問題，但是都把我問懵了，我完全不知道他想聽到什么答案。我一直都想深入的聊一些技術層面的問題，比如訓練一個 tesseract（一款由HP實驗室開發(fā)由Google維護的開源OCR引擎）或語言模型，但是他似乎并不感興趣。或許他只是想聽到一些已經(jīng)實現(xiàn)的成果或者是一個好的解釋，又或者是一些更好的方案。我感覺他們面試一個新手和面試一個有經(jīng)驗的專業(yè)人員之間并沒有什么區(qū)別。

公司二：基于全球性服務的某公司（面試時長：40-45min）

在無監(jiān)督學習中，如何進行文件聚類？

如何找到與某些查詢語句/搜索相關的文件？

解釋下TF-IDF技術。

根據(jù)我的經(jīng)驗來看，TF-IDF技術在文件分類或聚類上效果并不好，你將如何改進？

什么是長短期記憶神經(jīng)網(wǎng)絡（LSTM）？解釋下其工作原理。

什么是word2vec模型？

解釋下python中的可變對象和不可變對象。

你在python中使用過什么數(shù)據(jù)結構？

體驗：整個面試過程都是圍繞著文本相似度提問的，我都順利通過了。但是這次仍舊沒有更深層次的技術探討?；蛟S是公司在文本分析領域有幾個小項目，最終我拿到了公司的offer。

公司三：基于全球性產(chǎn)品和服務的某公司（面試時長：40min）

如何使用不平衡數(shù)據(jù)集（ unbalanced dataset）處理多類別的分類問題？

你如何從一個文本語句中進行語言識別？

如何表示中文或日文中的象形字符？

如何設計一個聊天機器人？（我沒什么想法，但我嘗試用基于TF-IDF相似性的意圖和反饋來回答這個問題。）

能否使用循環(huán)神經(jīng)網(wǎng)絡設計一個聊天機器人來對輸入的問題進行意圖和回答響應。

假設你在Reddit數(shù)據(jù)集上使用循環(huán)神經(jīng)網(wǎng)絡或長短時記憶神經(jīng)網(wǎng)絡設計了一個聊天機器人，它能夠提供10種可能的回復，如何選擇最佳回復，或者說如何刪除其他的回復？

解釋一下支持向量機（SVM）如何學習非線性邊界。

體驗：還有幾個問題我已經(jīng)記不清了，這是我第一次在面試中深入談論技術細節(jié)，隨后我也拿到了這家公司的offer。

公司四：成立一年的醫(yī)療初創(chuàng)公司（面試時長：50min）

什么是精確率（precision）和召回率（recall）？在醫(yī)療診斷中，你認為哪個更重要？

解釋一下精確率和召回率。

如何繪制受試者工作特征曲線（ROC曲線）？ROC曲線下面積是什么意思？

如何為多類別分類任務繪制ROC曲線？

列舉多類別分類任務其他的度量標準。

什么是靈敏度（sensiTIvity）和特異度（specificity）？

隨機森林中的“隨機”指什么？

如何進行文本分類？

如何確定已經(jīng)學會了一個文本？沒有TF-IDF技術是不是不可能實現(xiàn)？（我回答說使用n-gram模型（n=1，2，3，4），并使用TF-IDF技術創(chuàng)建一個長的計數(shù)向量）

你還能利用機器學習做些什么？（我建議將長短期記憶神經(jīng)網(wǎng)絡和word2vec結合起來，或者是一維循環(huán)神經(jīng)網(wǎng)絡與word2vec結合起來，進行分類。但面試官希望改進基于機器學習的算法。）

當神經(jīng)網(wǎng)絡由線性節(jié)點構成時，神經(jīng)網(wǎng)絡如何學習非線性形狀？它學習非線性邊界的原因是什么？

體驗：還有幾個很好的問題我沒有記住。盡管整個面試過程很不錯，但是我們在一些問題上看法并不一致。并且在面試期間，我發(fā)現(xiàn)作為一個初創(chuàng)公司，目前只有2-3個人在做ML、DL和DS。最后我沒有面試成功。

公司五：亞馬遜公司（面試時長：50-55min）

訓練決策樹時，其參數(shù)是什么？

在決策樹的某個節(jié)點處進行分割，其分割標準是什么？

基尼系數(shù)的計算公式是什么？

熵的計算公式是什么？

決策樹如何決定在哪個特征處必須進行分割？

如何利用數(shù)學計算收集來的信息？

簡述隨機森林的優(yōu)點。

簡述boosTIng算法。

梯度提升算法（gradient boosTIng）是怎樣工作的？

簡述AdaBoost算法工作原理。

SVM中用到了哪些內核？SVM的優(yōu)化技術有哪些？

SVM如何學習超平面？論述下其數(shù)學運算細節(jié)。

談一談無監(jiān)督學習？都有哪些算法？

如何定義K-Means聚類算法中K的值？

列舉至少3中定義K-Means聚類算法中K的方法。

除此之外你還知道哪些聚類算法？

介紹一下DB-SCAM算法。

簡述下分層凝聚聚類（Hierarchical AgglomeraTIveclustering）的工作原理。

解釋一下主成分分析算法（PCA），簡述下使用PCA算法的數(shù)學步驟。

20.使用 PCA算法有哪些缺點？

談談卷積神經(jīng)網(wǎng)絡的工作原理？詳細說明其實現(xiàn)細節(jié)。

解釋一下卷積神經(jīng)網(wǎng)絡中的反向傳播。

你如何部署機器學習模型？

我們大部分情況下都要用C++從零開始搭建一個機器學習模型，這一點你能做到嗎？

體驗：我面試的是亞馬遜level 6的職位。他們的主要關注點是在算法和數(shù)學上。但是我并沒有準備數(shù)學方面的知識，我只是談論了我所了解的東西，并沒有在數(shù)學的細節(jié)上做更為詳細的探討，因此面試官認為我并不適合level 6的工作。我相信如果你能記住機器學習算法在數(shù)學上的通用表示，就可以很輕松的通過亞馬遜技術面試。

公司六：某全球服務巨頭（面試時長：50-55min）

Sigmoid 函數(shù)的范圍是什么？

說出scikit-learn能夠實現(xiàn)邏輯回歸的包的名稱。

標準正態(tài)分布的均值和方差分別是多少？

你在Python中都使用什么數(shù)據(jù)結構？

文本分類的方法有哪些？你會怎么做分類？

解釋TF-IDF技術及其缺點，如何克服TF-IDF的缺點？

什么是雙詞搭配（Bigrams）和三詞搭配（Trigrams）？用一個文本語句解釋一下雙詞搭配和三詞搭配的TF-IDF技術。

舉例說明word2vec有哪些應用。

如何設計一個神經(jīng)網(wǎng)絡？如何做到“深度”？這是一個基礎的神經(jīng)網(wǎng)絡問題。

簡述LSTM的工作原理。它是如何記住文本的？

什么是樸素貝葉斯分類器？

拋10次硬幣，4次是正面的概率是多少？

如何獲取Python列表中元素的索引？

如果合并兩個pandas數(shù)據(jù)集？

從用戶行為來看，你需要模擬一個欺詐活動，你會如何解決這個問題？這是可能是一個異常檢測問題或分類問題！

決策樹和隨機森林，你更喜歡哪一個？

邏輯回歸和隨機森林有什么區(qū)別？

你會用決策樹還是隨機森林來解決分類問題？隨機森林有什么優(yōu)點？

體驗：我也拿到了這家公司的offer。事實上，我很喜歡這次技術交流?；蛟S你會覺著這些問題是機器學習和數(shù)據(jù)科學領域最基礎的問題，但是我感覺面試官可能不是這一領域的，或者是對這個領域的發(fā)展了解的并不多。

公司七：全球性商業(yè)管理公司（面試時長：25-30min）

在不平衡數(shù)據(jù)集中，你會選擇什么模型：隨機森林還是Boosting？為什么？

你所了解的Boosting技術有哪些？

采用監(jiān)督學習解決分類問題，你會選擇哪個模型？假設有 40-50個分類！

你怎樣使用合奏（Ensemble）技術？

簡述支持向量機（SVM）的工作原理。

什么是Kernel？簡單介紹一下。

如何實現(xiàn)非線性回歸？

什么是Lasso回歸和Ridge回歸？

體驗：說實話，這次面試有點水，以至于我沒有認真對待。但是問題問的很不錯。我面試的職位是要帶領一個十五六人的團隊做項目，在這之后是經(jīng)理面試和HR面試。最終他們給我提供了崗位咨詢以及不錯的薪資。

公司八：成立4年的生產(chǎn)和服務型公司（60分鐘）

你在簡歷上提到曾經(jīng)做過演講中的發(fā)音識別，具體來講講你的實現(xiàn)方法是什么？

什么是梅爾頻率倒譜（MFCCs）？

什么是高斯混合模型，它是如何完成聚類的？

如何實現(xiàn)期望最大化？講講其實現(xiàn)步驟。

GMM模型中的概率如何計算？

在進行發(fā)音識別時，你是如何為GMM-UBM技術執(zhí)行MAP調整的？

談談你所用的I-vector技術。

在分析語境時，主要因素是什么？

JFA和I-vector的區(qū)別是什么？為什么選擇I-vector而不是JFA？

你有沒有用過PLDA I-vector技術嗎？

有沒有讀過百度的Deep Speaker論文？

如果有兩個模型可供你選擇，你選擇的依據(jù)是什么？（考察模型選擇的技術）

簡述下貝葉斯信息度量（BIC）和赤池信息量（AIC）的數(shù)學工作原理。

貝葉斯信息度量和赤池信息量的工作原理是什么？

如果MFCC特征向量矩陣中的數(shù)據(jù)發(fā)生丟失，應該怎么辦？

如何進行語音辨識？有什么特點？

你的分類器是語音和音樂的分類器，還是語音和非語音的分類器？

深度神經(jīng)網(wǎng)絡是如何應用在語音分析中的？

體驗：是的，你可能會驚訝這都是些什么問題。巧合的是，我們兩個人的研究領域都是語音分析（尤其是發(fā)音識別）。所以整個面試過程一直在圍繞語音分析進行提問。很顯然，面試官很專業(yè)，并且給了我一個正面反饋。之后，這家公司給我提供了AI解決方案架構師的工作。

一些建議

在這整個求職過程中，我大概和25-30位專業(yè)人士有過交流，下面是我為讀者以及求職者提出的建議：

簡歷很重要。一定要在簡歷中寫清楚你參加過的項目、Kaggle競賽、獲得的MOOC課程證書或者論文。我就是在沒有任何推薦人推薦的情況下接到了亞馬遜的面試電話。你的簡歷是打動HR和面試官的利器。

自信心和熱情是成功的一半。參加面試時一定要自信，并且向面試官展示出你的熱情（這一點在面試創(chuàng)業(yè)公司和基于服務的公司時尤為重要）。

不要過于急著回答面試官提出的問題。花些時間組織好答案再回答，如果對問題有不理解的地方，一定要請教面試官。還有就是在面試時一定要冷靜！

在解釋概念時一定要恰當?shù)谋憩F(xiàn)自己。舉幾個你已經(jīng)實現(xiàn)過的項目，并且一定要熟悉簡歷中提到的熟練技能和做過的項目。

大多數(shù)情況下，面試官都是在尋找這個領域內有經(jīng)驗的技術人才。如果你在這個領域還是一個新手，在創(chuàng)建簡歷時可以從自己做過的項目開始。你的GitHub賬號也很有說服力。除此之外，還可以多參加Kaggle競賽和MOOC課程。

面對面試官的時候，一定要謙虛，注意傾聽面試官的意見，否則你就會被拒之門外。有的時候，使用R語言和Python語言的人會相互鄙視，你最好不要陷入這種爭論當中，否則也容易被拒。我個人認為R語言和Python語言都是實現(xiàn)邏輯和概念的工具。

最后，祝大家面試成功！

關于機器學習面試的經(jīng)典題目（面試經(jīng)驗和建議）

阿維塔、賽力斯已入股！華為引望可能成“中國博世”

Trianz與AWS達成戰(zhàn)略合作協(xié)議，徹底改變云采用和管理方式

人工智能驅動工具SODA V將顛覆汽車市場，使汽車開發(fā)時間和成本降低90%

從容應對未知風險----解密亞馬遜云科技的韌性之道

中國游戲市場開始復蘇！騰訊、網(wǎng)易等巨頭縮減在日本投資

獨立自主！華為董事：致力打造不依賴西方的技術

華為張平安：數(shù)字世界話語權最終由生態(tài)繁榮決定！

中國通信服務公布2024年中期業(yè)績

NVI技術創(chuàng)新聯(lián)盟成立！自主生態(tài)將帶動產(chǎn)業(yè)鏈高速發(fā)展

軟通動力與長三角投資達成戰(zhàn)略合作共謀數(shù)字生態(tài)新發(fā)展

海南區(qū)6家凱悅系酒店與嵐圖達成戰(zhàn)略合作，共同推動新能源出行體驗

安嵐攜手妮可?巴菲特開啟療愈之旅在秋日紅葉的浪漫中療愈身心

不懼美國封鎖！華為：我們給大家提供系統(tǒng)、存儲等

尼爾森IQ深耕中國四十載，共繪未來新篇章

第二十二屆跨盈年度B2B營銷高管峰會2025聚焦"營銷競取，打破市場內卷實現(xiàn)認知進化"

恒久動力馳騁天地美孚1號攜手周冠宇邀您縱擎馳騁，勁享駕趣體驗

美通社母公司Cision發(fā)布CisionOne平臺，進軍亞太地區(qū)媒體監(jiān)測市場

移遠通信推出大模型解決方案，重塑千行百業(yè)智能邊界

高途公布2024年第二季度未經(jīng)審計業(yè)績

華為發(fā)布AI百校計劃：培養(yǎng)AI人才每年獲最高100萬支持