美國政府在即將到來的大數據項目中將面臨重重挑戰(zhàn),其中之一就是生成數據量不足。但事實上,Gartner最近的報告顯示,企業(yè)數據年平均增長速度在40%?60%。
作為一些生成大量數據機構(包括國家天氣服務局、國家海洋和大氣管理局)的主管政府部門,美國商務部的這一數字甚至更低。
在最近的FOSE大會上,美國商務部CIOSimonSzykman表示:“我們不存在挑戰(zhàn)的領域之一就是我們生成數據的能力。我們生成數據的基本能力提升很大,從很大程度上講,這一能力已超越了我們處理數據、管理數據和轉移數據的能力?!?
如何管理數據,并將數據從一點轉移到另一點,將是美國政府面臨的一大挑戰(zhàn)。
Szykman還提到了商務部在大數據中遇到的其他一些重要問題,主要為以下五個方面:
數據工程師
研究領域的很多科學家正在研究大數據的精密使用,比如在預防醫(yī)學、藥品設計和胎兒檢查領域如何開發(fā)基因數據。但Szykman擔心的是,真正了解大數據技術構架的人太少。
他說:“我們得好好想想大數據及我們如何利用它,特別是在一些特殊領域。無論是政府的直接應用還是由政府出資科研,政府都在推動大數據這一前沿技術的發(fā)展。”
保密性VS.完整性
對于那些有科研基礎的機構來說,大數據安全不僅僅是一個保密問題。事實上,更大的擔憂是數據的長期完整性。
Syzkman說:“這是IT界一直為之努力的議題。有時候,我們過分關注結果而忽視了安全。人們有時會問:'我們最終都要和公眾分享這一數據,那安全有什么重要呢?'”
這一問題的最佳答案來自科研機構,如NOAA。他們收集的基準數據正巧是美國氣候變化政策備受爭議所在。
Szykman說:“不管這些政策的政治傾向性如何,它們都對經濟有重大影響。如果我們放棄了這些長期氣候記錄數據的安全性,那將造成嚴重后果。我們的確得好好想想大數據的問題。'‘
大思路,早規(guī)劃
在向開放數據轉移的過程中,盡早搞清楚系統(tǒng)生命周期的要求顯得越來越重要。
Szykman說:“過去沒有做的一件事就是盡早研究開放數據在生命周期上的要求。我認為,數據模型、分享和信息的情況會越來越普遍,而系統(tǒng)性的戰(zhàn)略會越來越多。在生命周期的早期,在我們成功安裝新的系統(tǒng)或應用程序后,就應該盡早考慮該問題。”
數據真實性
大數據的重要性不僅僅在于數據所生成的記錄,更大的價值在于根據這些數據得出科研結果的“復制能力”。
Szykman說:“從學術層面來看,這正是你證實所做工作價值的時候:其他人也可以對結果進行復制。另一方面,如果你丟失了得出科研結果的那些數據,這會降低結果的合理性。”
制定基線
由于很少存在類似的應用程序,難以獲取相關信息或進行比照,因此有時候很難評定大數據以及其他高科技項目的開支和風險。出臺開支和風險的基線,對大數據和數據中心來說都是一大挑戰(zhàn),因為還沒有相關標準。
他說:“操作一些簡單事情有時候充滿挑戰(zhàn),如計算數據中心的能耗。大數據基線不僅在基礎設施層面,還包括數據包,都需要對未來資源進行更優(yōu)規(guī)劃。
20211021_617041f7e1811__管理大數據的五大良策