從綜藝節(jié)目《危險邊緣》(Jeopardy)的贏家和圍棋大師,再到不光彩的、與廣告有關(guān)的種族定性,我們似乎進入了一個人工智能發(fā)展飛速加快的時代。但是,要創(chuàng)造出這樣一個完全有感知能力的人他的電子“大腦”能夠利用公平的道德判斷來完全參與復雜的認知任務(wù),目前我們的能力還不能做到。
不幸的是,目前的事態(tài)發(fā)展讓人們普遍擔心人工智能未來可能會變成什么。它在最近流行文化中的表現(xiàn)表明,我們對這項技術(shù)的態(tài)度是多么謹慎和悲觀??謶值膯栴}在于,它可能會造成嚴重的后果,有時還會助長無知。
了解人工智能的內(nèi)部運作是解決這些憂慮的一劑良藥。而且,這種認真可以促成負責任的和令人放心的參與。
人工智能的核心基礎(chǔ)是機器學習,這是一種優(yōu)雅而又廣泛使用的工具。但要理解機器學習的意義,我們首先需要研究它的潛力是如何絕對超過它的壞處的。
數(shù)據(jù)是關(guān)鍵
簡單地說,機器學習指的是教計算機如何通過算法來分析數(shù)據(jù)從而解決特定任務(wù)。例如,對于手寫識別,可以通過分類算法,從而分辨出不同人所寫的字母。另一方面,住房數(shù)據(jù)集利用回歸算法,以可量化的方式來評估某一財產(chǎn)的售價。
那么,機器學習最終歸結(jié)為數(shù)據(jù)。幾乎每一個企業(yè)都會以這樣或那樣的方式產(chǎn)生數(shù)據(jù): 請想想市場研究、社交媒體、學校調(diào)查和自動化系統(tǒng)。機器學習應用程序試圖在大數(shù)據(jù)集的混亂中找出隱藏的模式和相關(guān)性,從而開發(fā)能夠預測行為的模型。
數(shù)據(jù)有兩個關(guān)鍵要素樣本和特征。前者表示組中的單個元素;后者則表示它們所共有的特征。
以社交媒體為例:用戶是樣本,他們的使用可以被翻譯為特征。例如,facebook將“贊”活動的不同方面(用戶之間不盡相同)作為用于定向投放廣告的一個重要特征。
Facebook好友也可以作為樣本使用,而他們與他人的聯(lián)系也可以作為特征,建立一個可以研究信息傳播的網(wǎng)絡(luò)。
我的Facebook好友網(wǎng)絡(luò):每個節(jié)點都是一個可能會或可能不會與其他朋友連接的朋友。節(jié)點越大,連接就越多。相似的顏色也代表著相似的社會圈子。
除了社交媒體之外,在工業(yè)過程中作為監(jiān)控工具使用的自動化系統(tǒng),將整個過程的時間快照作為樣本,以特定時間作的傳感器測量為特征。這使得系統(tǒng)能夠?qū)崟r檢測出該過程中的異常現(xiàn)象。
所有這些不同的解決方案都依賴于向機器提供數(shù)據(jù),并教它們在有策略地評估給定信息的情況下,實現(xiàn)自己的預測。這就是機器學習。
以人類智力作為一個起點
任何數(shù)據(jù)都可以被翻譯成這些簡單的概念,任何機器學習應用,包括人工智能,都將這些概念作為其構(gòu)建基矗
一旦數(shù)據(jù)被理解,就該決定如何處理這些信息了。機器學習最普遍、最直觀的應用之一就是分類。系統(tǒng)學習了如何根據(jù)參考數(shù)據(jù)集將數(shù)據(jù)放入不同的組中。
這與我們每天做的各種決定有直接關(guān)系,無論是對類似產(chǎn)品進行分組(例如針對美容產(chǎn)品的廚房用品),還是根據(jù)以往的經(jīng)驗選擇好的電影。雖然這兩個例子可能看起來完全脫節(jié),但它們依賴于一個基本的分類假設(shè):被定義為已確定類別的預測。
舉個例子,當我們拿起一瓶潤膚乳時,我們會使用特定的特征列表(比如容器的形狀,或者產(chǎn)品的氣味)來準確地預測它是一種美容產(chǎn)品。一個類似的策略是通過評估一組特征(比如導演,或者是演員)來預測電影是否屬于兩類其中之一:好還是壞。
通過掌握與一組樣本相關(guān)的各種特征之間的不同關(guān)系,我們可以預測一部電影是否值得觀看,或者,更好的情況是,我們可以創(chuàng)建一個程序來為我們做這件事。
但要想掌握這些信息,我們需要成為一名數(shù)據(jù)科學專家,精通數(shù)學和統(tǒng)計學,有足夠的編程技能讓艾倫圖靈(Alan Turing )和瑪格麗特漢密爾頓(Margaret Hamilton)感到驕傲,對嗎?不完全是。
在日常生活中,我們都掌握了足夠多的母語,即使我們中只有少數(shù)人能涉足語言學和文學。數(shù)學也一樣,它一直都在我們身邊,所以從買東西或測量原料到遵循菜譜的變化并非一種負擔。同樣地,掌握機器學習并不是有意識和有效地對其進行利用的必要條件。
是的,世界上的確有非常優(yōu)秀和專業(yè)的數(shù)據(jù)科學家,但是,任何人幾乎不花費任何努力都可以學習數(shù)據(jù)的基本知識,并改進他們觀察和利用信息的方式。
通過算法來解決問題
回到分類算法上,讓我們考慮一個模仿我們做決定的方式的算法。我們是社會的人,那么社會交往呢?第一印象很重要,我們都有一種內(nèi)部模式,在和別人見面的最初幾分鐘里,評估自己是否喜歡對方。
有兩種可能的結(jié)果:好的或壞的印象。對每個人來說,不同的特性(特征)都被考慮在內(nèi)(即使是無意識的),基于過去的幾次相遇(樣本)??赡苁钦Z氣或外表,或者禮貌程度等。
對于我們遇到的每一個新面孔,我們頭腦中的一個模型都會記錄這些輸入,并建立一個預測。我們可以把這個模型分解成一組輸入,根據(jù)它們對最終結(jié)果的相關(guān)性進行加權(quán)。
對一些人來說,吸引力可能是非常重要的,而對于另一些人來說,幽默感或愛狗則更能說明問題。每個人都將開發(fā)自己的模型,這完全取決于她的經(jīng)驗或數(shù)據(jù)。
不同的數(shù)據(jù)導致不同的模型被訓練,結(jié)果不同。我們的大腦會發(fā)展出一些機制(雖然我們對此并不完全清楚),但這些機制會確定這些因素將如何影響我們對因素的權(quán)重。
機器學習所做的是為機器開發(fā)出精確和數(shù)學的方法,從而計算結(jié)果,特別是在我們無法輕易處理數(shù)據(jù)量的情況下?,F(xiàn)在超過了以往任何時候,數(shù)據(jù)是巨大、永恒的。有了一個可以積極使用這些數(shù)據(jù)來解決實際問題的工具,比如人工智能,這意味著每個人都應該并且能夠探索和利用這一點。我們應該這樣做,這樣不僅可以創(chuàng)造出有用的應用,還可以把機器學習和人工智能放在一個更光明、更不令人擔憂的角度。
現(xiàn)在有很多資源供機器學習使用,但這些資源確實需要一些編程能力。許多適合機器學習的流行語言都提供從基礎(chǔ)教程到完整的課程。只需一個下午的時間,就可以開始冒險,獲得明顯的結(jié)果。
所有這一切并不是說,具有人類思維的機器的概念不應該讓我們感到擔憂。但是,更多地了解這些想法將如何發(fā)揮作用,將使我們有能力成為積極變革的推動者,從而使我們能夠保持對人工智能的控制,而不是反過來。