智慧城市的數(shù)據(jù)管理
掃描二維碼
隨時(shí)隨地手機(jī)看文章
以下為鄔院士在第三屆中國國際物聯(lián)網(wǎng)大會上演講的文字實(shí)錄:
智慧城市的基礎(chǔ)設(shè)施
這里首先說一下智慧城市的基礎(chǔ)設(shè)施。
什么是智慧城市?最初其實(shí)是無線城市,無線設(shè)施是數(shù)字城市設(shè)施的關(guān)鍵組成,但無線城市僅僅是數(shù)字城市的第一步,數(shù)字城市可能還要求比電信網(wǎng)絡(luò)有更多的有線寬帶設(shè)施。
智慧城市是使用智能計(jì)算技術(shù)使得城市的關(guān)鍵基礎(chǔ)設(shè)施的組成和服務(wù)更智能、互聯(lián)和有效。對人力與社會資源和傳統(tǒng)及現(xiàn)代設(shè)施的投資,促進(jìn)可持續(xù)經(jīng)濟(jì)發(fā)展和高質(zhì)量生活,同時(shí)通過提供參與治理的機(jī)會實(shí)現(xiàn)對自然資源的管理,這時(shí),一個(gè)城市就可以被稱為智慧城市。
智慧城市本身應(yīng)該是可測量、可監(jiān)控、可分析的,另外也是能整合的,同時(shí)還是創(chuàng)新以及協(xié)作的。那么,智慧城市跟物聯(lián)網(wǎng)以及跟未來網(wǎng)絡(luò)有什么關(guān)系呢?物聯(lián)網(wǎng)是智慧城市網(wǎng)絡(luò)能力的基礎(chǔ),但智慧城市的網(wǎng)絡(luò)能力內(nèi)涵更為豐富,具有對未來網(wǎng)絡(luò)所期待的特征。我們可以從許多方面看到,傳感網(wǎng)僅僅是未來網(wǎng)絡(luò)的一部分,除了英特網(wǎng)以外,未來網(wǎng)絡(luò)還應(yīng)該包括數(shù)據(jù)與內(nèi)容、物品與傳感器、用戶與知識等等。未來感知?jiǎng)t包括服務(wù)感知、數(shù)據(jù)感知、環(huán)境感知和社會與經(jīng)濟(jì)感知。
物聯(lián)網(wǎng)底層有很多感知對象和感知的單元,通過網(wǎng)絡(luò)把它們匯集,然后通過應(yīng)用領(lǐng)域?qū)?shí)現(xiàn)更智慧的決策。智慧城市的信息要有非常強(qiáng)大的基礎(chǔ)設(shè)施,包括有線網(wǎng)絡(luò)、無線網(wǎng)絡(luò)、移動(dòng)網(wǎng)絡(luò),有時(shí)候還需要利用衛(wèi)星等手段。除了傳統(tǒng)手段以外,靠近用戶端有物聯(lián)網(wǎng)網(wǎng)端,有時(shí)候還需要云計(jì)算平臺的支撐。
智慧城市的信息基礎(chǔ)設(shè)施是下一代互聯(lián)網(wǎng)和未來網(wǎng)絡(luò),我們希望這個(gè)網(wǎng)絡(luò)更安全,能夠具有移動(dòng)性的普適計(jì)算,能夠跨越物理與Cyber空間,而且還是自治連網(wǎng)。
那么智慧城市跟云計(jì)算是什么關(guān)系呢?事實(shí)上,我們國家很多智慧城市都以建立云計(jì)算基地和提供云服務(wù)為主要目標(biāo),像北京有祥云工程,上海有“云海計(jì)劃”,天津有六云產(chǎn)業(yè)和三云應(yīng)用,重慶希望建立云端智能城市,廣州有天云計(jì)劃。
我舉個(gè)例子,比如上海的智慧閔行,閔行有很多的數(shù)據(jù)庫,然后建立閔行區(qū)私有云和民生云,希望通過數(shù)據(jù)挖掘、智能圖像識別和網(wǎng)絡(luò)檢索技術(shù),來實(shí)現(xiàn)智慧政務(wù)、智慧醫(yī)療、智慧交通。
早年我們沒有談云計(jì)算,20世紀(jì)80年代談數(shù)據(jù)庫,90年代談IDC,現(xiàn)在我們更多的開始談云計(jì)算,實(shí)際上更多的是云服務(wù)。在云計(jì)算上面有l(wèi)aaS系統(tǒng),上面有PaaS市系統(tǒng),再上面有SaaS系統(tǒng)。但是我個(gè)人認(rèn)為,做laaS僅僅是數(shù)字房地產(chǎn),房地產(chǎn)隨著時(shí)間是增值的,那么laaS隨著時(shí)間會貶值,更多的應(yīng)該做PaaS,提供很多的開發(fā)環(huán)境,利用這個(gè)環(huán)境開發(fā)企業(yè)需要的軟件。對于更多的中小企業(yè),即使有PaaS自身也不會開發(fā),因此需要提供SaaS,這里面就需要提供非常多的軟件。
通常來講,一般企業(yè)可以利用共有云,對于大企業(yè)來講,往往建自己的云,但并不妨礙跟共有云發(fā)生關(guān)系。更多企業(yè)既想把一些裝置放在公用平臺上,但又擔(dān)心安全,所以經(jīng)常是使用私有云。
美國政府IT預(yù)算的25%投入云計(jì)算平臺
下面是本報(bào)告的重點(diǎn),講一下智慧城市的數(shù)據(jù)管理。我們大家可以想一想,互聯(lián)網(wǎng)上的一分鐘可以干一些什么?實(shí)際上,到2015年,大概1個(gè)人要花五年時(shí)間,才能看完在互聯(lián)網(wǎng)上一秒鐘所傳的所有視頻。那么互聯(lián)網(wǎng)上一天可以干什么呢?對Twitter,一天新增2億條微博,7個(gè)TB。50億個(gè)單詞,幾乎是60年來《紐約時(shí)報(bào)》單詞量的兩倍。對于Facebook,一天可以上載2.5億張照片,相當(dāng)于300個(gè)TB。那么在中國,淘寶網(wǎng)站一天又交易數(shù)千萬筆,大概數(shù)據(jù)量是20個(gè)TB。全世界互聯(lián)網(wǎng)上一天的信息量如果裝在DVD光盤上,要裝1.68億張光盤,大概是80萬個(gè)硬盤,約占800EB。
對于互聯(lián)網(wǎng)流量的變化來說,1998年,平均一個(gè)網(wǎng)民一個(gè)月的流量才1MB,2000年達(dá)到10MB,到2008年,平均一個(gè)網(wǎng)民是1000MB,到2014年將達(dá)到10000MB。
2011年4月,美國國會圖書館收集了235TB的數(shù)據(jù)。全球新產(chǎn)生的數(shù)據(jù)年增40%,全球信息總量每兩年就可以翻番。而對新增數(shù)據(jù)的處理能力以及其利用率的增長則不足5%,且所有數(shù)據(jù)量的90%的數(shù)字內(nèi)容屬于非結(jié)構(gòu)化內(nèi)容。
最近兩個(gè)月,在YOUTube上上載的視頻超過了ABC、NBC和CBS電視臺自1948年以來連續(xù)播出的內(nèi)容。
那么什么是大數(shù)據(jù)呢?大數(shù)據(jù)是指沒有辦法在容許的時(shí)間內(nèi)用常規(guī)的軟件工具對它進(jìn)行技術(shù)抓取、管理和處理的數(shù)據(jù)。也就是說,在規(guī)定的時(shí)間里用常規(guī)軟件工具是做不到的。大數(shù)據(jù)目前的標(biāo)準(zhǔn)是指單一數(shù)據(jù)集的大小在幾十TB到數(shù)PB之間。
大數(shù)據(jù)本身有四個(gè)特征:超量、高速、變異、價(jià)值。大數(shù)據(jù)的應(yīng)用領(lǐng)域很廣泛,有醫(yī)療、交通、財(cái)務(wù)、物流、安全等等,應(yīng)該說想得到的領(lǐng)域都可以發(fā)生很多應(yīng)用。
比如企業(yè),企業(yè)有管理部門、開發(fā)部門、銷售部門、服務(wù)部門,這些部門是有交互的,通常的企業(yè)管理可能很難得到最優(yōu)化,如果利用大數(shù)據(jù),就可以改善它的管理,在性能上可以提高40%?60%的管理效率。
美國有一個(gè)公司InFormatica為幫助美國一家零售公司,把交易型的數(shù)據(jù)與社交媒體產(chǎn)生的數(shù)據(jù)進(jìn)行關(guān)聯(lián)分析,找到“最佳客戶”并分析他們的購買行為。亞馬遜公司從銷售數(shù)據(jù)分析搭配在一起買的商品。
硅谷有個(gè)氣候公司,從美國氣象局等數(shù)據(jù)庫中獲得了幾十年的天氣數(shù)據(jù),將各地的降雨、氣溫和土壤狀況及歷年農(nóng)作物產(chǎn)量做成精密圖表,從而預(yù)測任一農(nóng)場的明年產(chǎn)量,向農(nóng)戶出售個(gè)性化保險(xiǎn)。如果出現(xiàn)未能預(yù)測的惡劣天氣損壞莊稼,氣候公司將及時(shí)賠付。
我曾經(jīng)在山東壽光的菜市場看到,當(dāng)?shù)赜幸粋€(gè)顯示屏,北京黃瓜3塊錢,當(dāng)?shù)攸S瓜1塊錢。我問農(nóng)民說,你怎么不到北京去賣呢?他說,我要去北京賣,價(jià)格8毛錢都賣不出去。我說信息化對你沒有用嗎?他說,不是,信息化只有我知道的,另U人不知道的信息對我才有用的,因此所有的市場信息都應(yīng)該是個(gè)性化的。
美國紐約的警察通過分析交通擁堵跟犯罪發(fā)生地點(diǎn)的關(guān)系,能有效改進(jìn)治安。美國紐約的交通部門則從交通違規(guī)和事故的統(tǒng)計(jì)數(shù)據(jù)中發(fā)現(xiàn)規(guī)律。
我們的電信運(yùn)營商也擁有大量的手機(jī)數(shù)據(jù),通過對手機(jī)數(shù)據(jù)的挖掘,不針對個(gè)人而是著眼于群體行為,就可以從中分析出某個(gè)時(shí)候有多少人在某個(gè)地方。
前一段時(shí)間我去廣東,廣東省委領(lǐng)導(dǎo)提出來現(xiàn)在的經(jīng)濟(jì)下行了,究竟農(nóng)民工走了多少?往往這個(gè)數(shù)據(jù)統(tǒng)計(jì)不準(zhǔn)確。因?yàn)榻?jīng)濟(jì)好的時(shí)候,人們不會多吃鹽,經(jīng)濟(jì)不好的時(shí)候,也不會少吃鹽,所以鹽的銷量相應(yīng)就可以反映出人的數(shù)量。為了核實(shí)這個(gè)數(shù)字,我問了一下廣東的通信公司,我說你們能不能從用戶活躍數(shù)量上判斷結(jié)果。結(jié)果從這個(gè)上面判斷出這個(gè)數(shù)字,也是20%左右。所以通過數(shù)據(jù)往往可以很好地反映人的來源。
比如說我們可以很好地掌握現(xiàn)在在天安門廣場有多少人,可以知道多少人來自河南,多少人來自四川,多少人來自江蘇。如果你是來旅游的,一兩個(gè)小時(shí)就走了,如果上訪的,可能三四個(gè)小時(shí),這個(gè)時(shí)候上訪部門就要注意了。
還有,就是可以根據(jù)手機(jī)在馬路上的運(yùn)行速度判斷這條馬路是不是堵,實(shí)際上這些都是可以挖掘的數(shù)據(jù)。
美國保健的年度潛在價(jià)值有3000億美元,相當(dāng)于西班牙年度醫(yī)療保健開支的兩倍。歐洲公共管理的潛在年度價(jià)值是2500億歐元,比希臘GDP的兩倍還多。所以,世界經(jīng)濟(jì)論壇上的大數(shù)據(jù)就是新財(cái)富,大數(shù)據(jù)的價(jià)值堪比石油。
當(dāng)然了,要挖掘大數(shù)據(jù)不是那么容易的事,首先要進(jìn)行數(shù)據(jù)管理,數(shù)據(jù)來自不同的地方和不同標(biāo)準(zhǔn),數(shù)據(jù)量的大小、結(jié)構(gòu)形式、實(shí)時(shí)性都不一樣,會增加采集、編索與整合的困難,需要對傳統(tǒng)的數(shù)據(jù)傳輸工具ETL流程進(jìn)行重新設(shè)計(jì)。
數(shù)據(jù)存儲和挖掘
傳統(tǒng)的集中式數(shù)據(jù)庫、數(shù)據(jù)倉庫系統(tǒng)已經(jīng)不能有效地處理大數(shù)據(jù)的存儲和分析,而需要分布式處理,Hadoop就是分布式結(jié)構(gòu)化數(shù)據(jù)存儲方案。
數(shù)據(jù)挖掘主要是為了處理具有高維特征的圖像等多媒體數(shù)據(jù),而將高維數(shù)據(jù)看成位于一個(gè)相對低維子流形上,然后利用流形的性質(zhì)將數(shù)據(jù)降維后進(jìn)行度量與處理。
總的來說,物聯(lián)網(wǎng)也好,智慧城市也好,數(shù)據(jù)挖掘是重點(diǎn)。今天我看到無錫這個(gè)展覽會,很多都關(guān)注數(shù)據(jù)感知、應(yīng)用,幾乎沒有看到數(shù)據(jù)挖掘,沒有看到智能決策,實(shí)際上,這是需要智能決策的。首先在數(shù)據(jù)收集層不僅僅是收集傳感器的數(shù)據(jù),還需要收集政府和市民的數(shù)據(jù),這樣才能知道這個(gè)時(shí)候這個(gè)地方發(fā)生了什么,然后才能對傳感器的數(shù)據(jù)有一個(gè)合理的解釋。
獲得這些數(shù)據(jù)以后,不是簡單從數(shù)據(jù)分析,還需要建立一些模型進(jìn)行仿真,得出的結(jié)果需要有可視化的表現(xiàn),甚至要增強(qiáng)現(xiàn)實(shí)。
另外是不是發(fā)布?是不是在發(fā)布之前進(jìn)行仿真?發(fā)布之后有什么樣的后果?這都需要在數(shù)據(jù)挖掘上做。
比如說藍(lán)藻爆發(fā)監(jiān)測模型。通過傳感器捕獲太湖水里的成份,可以根據(jù)經(jīng)驗(yàn)知道藍(lán)藻的發(fā)生強(qiáng)度跟溶解氧有比較高的相關(guān)程度,跟水溫有比較高的相關(guān)程度,跟電導(dǎo)率有比較高的相關(guān)程度,但跟氨氮、PH值、硝酸鹽沒有這么高。這些可以作為參考,但僅僅這些還不夠,還需要圖像,根據(jù)視頻結(jié)果,一起來結(jié)合分析,才有可能得出是不是會有藍(lán)藻爆發(fā)的結(jié)果。
不僅僅基于傳感器,還基于人工采集的數(shù)據(jù),基于衛(wèi)星遙感的數(shù)據(jù),通過多元的數(shù)據(jù)收集,才能保證確認(rèn)這個(gè)事件的可靠性。收集了這些數(shù)據(jù)以后,需要有數(shù)據(jù)湖泊模型,通過跟歷史的比對,進(jìn)行分析挖掘,得出結(jié)果以后進(jìn)行網(wǎng)絡(luò)發(fā)布,所以這是一個(gè)復(fù)雜的過程,我們需要合理制定感知數(shù)據(jù)的存儲期。
現(xiàn)在,我們的城市都有大量的攝像頭,很多城市提出來存三個(gè)月,幾十個(gè)攝像頭的存儲量需要非常大的資源,這就需要壓縮去掉重復(fù)無用的數(shù)據(jù)。比如關(guān)注某個(gè)倉庫有沒有異常事件,那絕大部分是沒有人的,這段可以壓縮掉,而且要兼顧歷史數(shù)據(jù)和新數(shù)據(jù),提供一個(gè)使數(shù)據(jù)精度隨時(shí)間逐漸降低的數(shù)據(jù)老化方法。另外,存進(jìn)還要考慮以什么樣的規(guī)律挖出來。
數(shù)據(jù)的隱私和保護(hù)也是非常重要的問題,這里有技術(shù)性問題,一些數(shù)據(jù)可能需要加密,這要分配密鑰,而加密對于傳感器來講需要采用高能效的加密算法,當(dāng)然還有可介入性認(rèn)證、可信性認(rèn)證、數(shù)據(jù)完整性認(rèn)證、隱私增強(qiáng)技術(shù)和身份管理等等。
法律上規(guī)定有些數(shù)據(jù)必須開放,老百姓也能看見,還有責(zé)任性、數(shù)據(jù)擁有權(quán)。從經(jīng)濟(jì)角度要有行為規(guī)范,為了商業(yè)利益也要有隱私保護(hù)。在社會倫理上要保證公眾有知情權(quán),保證消費(fèi)者有權(quán)利,保證消費(fèi)者的主張。
數(shù)據(jù)訪問認(rèn)證與安全管理有網(wǎng)絡(luò)訪問控制、網(wǎng)絡(luò)數(shù)據(jù)保密、網(wǎng)絡(luò)數(shù)據(jù)完整性、網(wǎng)絡(luò)可用性、網(wǎng)絡(luò)不可否認(rèn)性等等。
另外,在大數(shù)據(jù)的挖掘中很重要的一點(diǎn),就是要解析非結(jié)構(gòu)的信息。文字信息比較好過濾,有一個(gè)關(guān)鍵詞就可以選擇了。有一個(gè)小企業(yè),它做不到每個(gè)員工一人一臺電腦,很多時(shí)候是兩三個(gè)員工一臺電腦,有一個(gè)員工覺得很不方便,就向領(lǐng)導(dǎo)發(fā)了一個(gè)短信,他說我申請一臺獨(dú)立電腦。計(jì)算機(jī)一分析“臺獨(dú)”,實(shí)際上計(jì)算機(jī)本身沒有這個(gè)智能,它需要上下文關(guān)聯(lián),通過工具找出真正的含義。把復(fù)雜的、模凌兩可的矛盾的數(shù)據(jù)導(dǎo)出可理解的內(nèi)容,這就需要進(jìn)行大量的解釋。
另外,大數(shù)據(jù)的量非常大,我們不能等它存在計(jì)算機(jī)數(shù)據(jù)庫里再調(diào)出來分析,我們需要一邊輸入,一邊分析。過去分析是把數(shù)據(jù)帶進(jìn)程序,現(xiàn)在我們是把程序帶進(jìn)數(shù)據(jù),就是實(shí)時(shí)進(jìn)行工作。
剛才說到分析結(jié)果要進(jìn)行可視化,只有可視化才能更直觀,更能夠被決策者所看得見,也能夠在發(fā)布的時(shí)候,讓老百姓能理解。舉個(gè)例子,上海延安路上布放了很多攝像頭,每個(gè)攝像頭后面都連著一個(gè)電視屏幕。往往在交通監(jiān)控中心,一面墻上放了很多電視屏幕,再多也不可能把整個(gè)上海交通電視屏放上去,只能每十秒鐘更換一次,可能每一個(gè)點(diǎn)要半小時(shí)到一小時(shí)才能看到一次。
現(xiàn)在要把整個(gè)錄像合成一個(gè)視頻,就可以看到延安路上交通狀況如何。當(dāng)然,理論上還可以合成全上海的視頻情況,在某一個(gè)經(jīng)緯度上對應(yīng)某一條路上,在某一個(gè)時(shí)段上演,哪個(gè)時(shí)候車最多?哪個(gè)時(shí)候行車速度最慢?因此,可視化能夠讓我們直觀看到上海市同一個(gè)時(shí)間的交通流量圖。
籃球場的半場中,NBA可以統(tǒng)計(jì)2011—2012年投籃位置和投籃命中率的關(guān)系,這里面得點(diǎn)值越大,表示在那個(gè)點(diǎn)上發(fā)生投籃概率越大。顏色發(fā)紅的表示投籃的成功率最高,你可以看到在半圓以外投籃率都很高,在籃板下投籃也比較高,其他地方并不是很高,這就是很簡單的可視化的例子。
其實(shí)在城市里有多種多樣的物聯(lián)網(wǎng),我們不太可能把電力、交通、工業(yè)、海水都合為一個(gè)物聯(lián)網(wǎng)。一個(gè)城市由這么多物聯(lián)網(wǎng)組成,關(guān)鍵是這些信息能不能共享?所以,這是城市數(shù)據(jù)管理一個(gè)很重要的內(nèi)容。
事實(shí)情況往往是某個(gè)地方發(fā)生火災(zāi)了,可以打119。如果交通部門不去,因?yàn)槟莾憾萝嚵?,救火車開不進(jìn)去;如果供水部門不去,那個(gè)地方開不了水;如果120不去,可能不能急救。所以,城市的服務(wù)系統(tǒng)應(yīng)該是互相關(guān)聯(lián)的。
最后要說的一點(diǎn)就是,我們正在進(jìn)入寬帶時(shí)代和移動(dòng)互聯(lián)網(wǎng)時(shí)代,將要面對后摩爾時(shí)代、后PC時(shí)代、云計(jì)算時(shí)代和物聯(lián)網(wǎng)時(shí)代,大數(shù)據(jù)時(shí)代也將向我們走來,網(wǎng)絡(luò)技術(shù)正走向換代發(fā)展的轉(zhuǎn)折點(diǎn)。
無線城市、數(shù)字城市、寬帶城市、感知城市是智慧城市的必要條件;智慧城市是城鎮(zhèn)化進(jìn)程的下一階段,是城市信息化的新高度,是現(xiàn)代城市發(fā)展的愿景。
智慧城市每天都會產(chǎn)生大量的數(shù)據(jù),大數(shù)據(jù)的收集、存儲和分析處理以及使用對智慧城市是很大的挑戰(zhàn),這不僅是技術(shù),也是法律和政策需要關(guān)注的問題。大數(shù)據(jù)的挖掘?qū)χ腔鄢鞘械慕?jīng)濟(jì)發(fā)展和社會管理都是無形的管理。
20210919_614701356eaa8__智慧城市的數(shù)據(jù)管理