當(dāng)前位置:首頁(yè) > 物聯(lián)網(wǎng) > 物聯(lián)網(wǎng)技術(shù)文庫(kù)
[導(dǎo)讀] 在現(xiàn)在社會(huì)上的企業(yè)中,最常見(jiàn)的數(shù)據(jù)搜集方法就是個(gè)人設(shè)備上的信息采集。這其中可能會(huì)涉及到一些個(gè)人隱私的泄露,也可能沒(méi)有。不過(guò)這不是今天討論的主題,今天我主要給大家解答一下——大數(shù)據(jù)處理的數(shù)據(jù)從何而

在現(xiàn)在社會(huì)上的企業(yè)中,最常見(jiàn)的數(shù)據(jù)搜集方法就是個(gè)人設(shè)備上的信息采集。這其中可能會(huì)涉及到一些個(gè)人隱私的泄露,也可能沒(méi)有。不過(guò)這不是今天討論的主題,今天我主要給大家解答一下——大數(shù)據(jù)處理的數(shù)據(jù)從何而來(lái)?在現(xiàn)在的數(shù)據(jù)技術(shù)時(shí)代中,數(shù)據(jù)有著不可替代的地位,拋開(kāi)數(shù)據(jù)談大數(shù)據(jù)服務(wù)就是瞎扯,沒(méi)有數(shù)據(jù)做支撐的大數(shù)據(jù)平臺(tái)就是一個(gè)空殼。數(shù)據(jù)是一切數(shù)據(jù)分析、數(shù)據(jù)挖掘、大數(shù)據(jù)處理、ai算法的核心。

從在目前來(lái)看,絕大多數(shù)公司或者組織做大數(shù)據(jù)處理時(shí),他們的數(shù)據(jù)來(lái)源于:設(shè)備收集、數(shù)據(jù)庫(kù)、日志、爬蟲(chóng)等等。當(dāng)然,如果是學(xué)術(shù)或者個(gè)人做大數(shù)據(jù)處理的研究的話,數(shù)據(jù)還經(jīng)常可能來(lái)源于:開(kāi)源數(shù)據(jù)集、造數(shù)據(jù)(假數(shù)據(jù)/模擬數(shù)據(jù))等等。這很好理解,因?yàn)樵诠局?,常常?shù)據(jù)都是需要服務(wù)于真實(shí)業(yè)務(wù),所以數(shù)據(jù)也就來(lái)自于真實(shí)業(yè)務(wù),而個(gè)人或者學(xué)術(shù)上可以使用一些特定的開(kāi)源數(shù)據(jù)集來(lái)做相應(yīng)研究,下面我們來(lái)介紹一下公司中經(jīng)常獲取數(shù)據(jù)的這幾種方法:

1、設(shè)備收集

設(shè)備收集顧名思義就是使用一些設(shè)備來(lái)進(jìn)行收集數(shù)據(jù),比如在工業(yè)界電力行業(yè)常用的Scada數(shù)據(jù)就是通過(guò)常用的一些終端電子設(shè)備,直接放在匯流箱、逆變器等設(shè)備上,實(shí)時(shí)將電流電壓數(shù)據(jù)記錄并保存下來(lái),這樣得到大量的數(shù)據(jù)。

再如,我們每個(gè)人的手機(jī)可能都是某些軟件的數(shù)據(jù)收集終端,我們每天的運(yùn)動(dòng)步數(shù)可能會(huì)被支付寶/微信記錄下,我們每天點(diǎn)開(kāi)軟件的次數(shù)等等這些操作,都是各個(gè)軟件收集數(shù)據(jù)的一個(gè)手段。這些數(shù)據(jù)可以直接放入到大數(shù)據(jù)環(huán)境當(dāng)中,也可以通過(guò)關(guān)系型數(shù)據(jù)庫(kù)做一個(gè)跳板。

2、從數(shù)據(jù)庫(kù)導(dǎo)入

在大數(shù)據(jù)技術(shù)風(fēng)靡起來(lái)前,關(guān)系型數(shù)據(jù)庫(kù)(RDMS)是主要的數(shù)據(jù)分析與處理的途徑。許多公司的業(yè)務(wù)邏輯數(shù)據(jù)都是存放在關(guān)系型數(shù)據(jù)庫(kù)中。比如一個(gè)電商網(wǎng)站,你購(gòu)買了一件商品,發(fā)生的這種行為絕對(duì)會(huì)生成一條數(shù)據(jù)在數(shù)據(jù)庫(kù)中。比如你收藏了一件商品、退貨了一件商品等等這種行為都會(huì)被記錄到數(shù)據(jù)庫(kù)中。

發(fā)展至今數(shù)據(jù)庫(kù)技術(shù)已經(jīng)相當(dāng)完善,當(dāng)大數(shù)據(jù)出現(xiàn)的時(shí)候,行業(yè)就在考慮能否把數(shù)據(jù)庫(kù)數(shù)據(jù)處理的方法應(yīng)用到大數(shù)據(jù)中。雖然出現(xiàn)Hive等大數(shù)據(jù)產(chǎn)品,但是在生產(chǎn)過(guò)程中業(yè)務(wù)數(shù)據(jù)依舊使用 RDMS 進(jìn)行存儲(chǔ),這是因?yàn)楫a(chǎn)品需要實(shí)時(shí)響應(yīng)用戶的操作,在毫秒級(jí)完成讀寫(xiě)操作,而大數(shù)據(jù)產(chǎn)品不是應(yīng)對(duì)這種情況出現(xiàn)的。

到這里你可能就有一個(gè)疑問(wèn),如何把業(yè)務(wù)的數(shù)據(jù)庫(kù)同步到大數(shù)據(jù)平臺(tái)中?一般來(lái)說(shuō)業(yè)務(wù)數(shù)據(jù)我們使用實(shí)時(shí)和離線采集數(shù)據(jù)來(lái)將數(shù)據(jù)抽取到數(shù)據(jù)倉(cāng)庫(kù)中。然后再進(jìn)行后續(xù)數(shù)據(jù)處理和分析,我們常用的數(shù)據(jù)庫(kù)導(dǎo)入工具是Sqoop。Sqoop是 Apache 旗下一款 Hadoop 和關(guān)系型數(shù)據(jù)庫(kù)之間傳送離線數(shù)據(jù)的工具。實(shí)現(xiàn)關(guān)系型數(shù)據(jù)庫(kù)同 Hadoop 集群的 Hdfs、Hbase、Hive 進(jìn)行數(shù)據(jù)同步,是連接傳統(tǒng)關(guān)系型數(shù)據(jù)庫(kù)和 Hadoop 的橋梁。

3、日志導(dǎo)入

日志系統(tǒng)將我們系統(tǒng)運(yùn)行的每一個(gè)狀況信息都使用文字或者日志的方式記錄下來(lái),這些信息我們可以理解為業(yè)務(wù)或是設(shè)備在虛擬世界的行為的痕跡,通過(guò)日志對(duì)業(yè)務(wù)關(guān)鍵指標(biāo)以及設(shè)備運(yùn)行狀態(tài)等信息進(jìn)行分析。

除了常規(guī)記錄的方式收集日志之外,一般用戶的一些行為日志收集的方式我們采用埋點(diǎn)的形式進(jìn)行收集。埋點(diǎn)的意思實(shí)際上是在前端頁(yè)面上放上一個(gè)監(jiān)控點(diǎn),它能夠記錄下你所有的一些行為,比如你鼠標(biāo)來(lái)來(lái)回回移動(dòng)了幾下,你點(diǎn)擊了哪些地方,你在這篇文章上停留了多久,你在輸入框中輸入了什么字然后又刪除了等等所有的一些行為,都可以被埋點(diǎn)所記錄。而將日志數(shù)據(jù)導(dǎo)入到大數(shù)據(jù)環(huán)境中也有許多的方案,常見(jiàn)的日志收集解決方案如ELK搭建日志采集+日志查詢+可視化系統(tǒng)。Flume+Kafka+Hive/Spark+SparkStreaming實(shí)現(xiàn)日志的實(shí)時(shí)采集+離線分析+實(shí)時(shí)處理的架構(gòu)等等。

4、爬蟲(chóng)

爬蟲(chóng)是一種通過(guò)模擬正常人瀏覽訪問(wèn)網(wǎng)站的一類程序,它通過(guò)模擬正常人訪問(wèn)網(wǎng)站,從而達(dá)到獲取該網(wǎng)站數(shù)據(jù)的目的,比如說(shuō)我訪問(wèn)了一下天氣預(yù)報(bào)網(wǎng)站,并復(fù)制了今天的溫度發(fā)給女朋友,我說(shuō)對(duì)女朋友說(shuō)“寶貝,今天溫度很合適,咱們?nèi)ヅ郎桨伞?,女朋友回“分手吧?0度的溫度你叫我爬山,你根本不愛(ài)我”??窗桑页晒νㄟ^(guò)獲取網(wǎng)站的數(shù)據(jù)丟失了一個(gè)女朋友。爬蟲(chóng)就是通過(guò)模擬人的方式去訪問(wèn)網(wǎng)站,并獲取網(wǎng)站的數(shù)據(jù)的。

時(shí)日至今,爬蟲(chóng)的數(shù)據(jù)成為公司重要戰(zhàn)略資源,通過(guò)獲取同行的數(shù)據(jù)跟自己的數(shù)據(jù)進(jìn)行支撐對(duì)比,管理者可以更好做出決策。爬蟲(chóng)也是一個(gè)非常有用和常見(jiàn)的數(shù)據(jù)獲取方式。數(shù)據(jù)采集是數(shù)據(jù)分析、數(shù)據(jù)挖掘工作中的第一步。數(shù)據(jù)采集的準(zhǔn)確性決定了這個(gè)數(shù)據(jù)分析報(bào)告是不是有使用價(jià)值。只有當(dāng)數(shù)據(jù)采集具有科學(xué)性、客觀、嚴(yán)密的邏輯性時(shí),建立在這樣的數(shù)據(jù)分析基礎(chǔ)之上得出來(lái)的結(jié)論才具有現(xiàn)實(shí)的價(jià)值和意義。

本站聲明: 本文章由作者或相關(guān)機(jī)構(gòu)授權(quán)發(fā)布,目的在于傳遞更多信息,并不代表本站贊同其觀點(diǎn),本站亦不保證或承諾內(nèi)容真實(shí)性等。需要轉(zhuǎn)載請(qǐng)聯(lián)系該專欄作者,如若文章內(nèi)容侵犯您的權(quán)益,請(qǐng)及時(shí)聯(lián)系本站刪除。
換一批
延伸閱讀

9月2日消息,不造車的華為或?qū)⒋呱龈蟮莫?dú)角獸公司,隨著阿維塔和賽力斯的入局,華為引望愈發(fā)顯得引人矚目。

關(guān)鍵字: 阿維塔 塞力斯 華為

倫敦2024年8月29日 /美通社/ -- 英國(guó)汽車技術(shù)公司SODA.Auto推出其旗艦產(chǎn)品SODA V,這是全球首款涵蓋汽車工程師從創(chuàng)意到認(rèn)證的所有需求的工具,可用于創(chuàng)建軟件定義汽車。 SODA V工具的開(kāi)發(fā)耗時(shí)1.5...

關(guān)鍵字: 汽車 人工智能 智能驅(qū)動(dòng) BSP

北京2024年8月28日 /美通社/ -- 越來(lái)越多用戶希望企業(yè)業(yè)務(wù)能7×24不間斷運(yùn)行,同時(shí)企業(yè)卻面臨越來(lái)越多業(yè)務(wù)中斷的風(fēng)險(xiǎn),如企業(yè)系統(tǒng)復(fù)雜性的增加,頻繁的功能更新和發(fā)布等。如何確保業(yè)務(wù)連續(xù)性,提升韌性,成...

關(guān)鍵字: 亞馬遜 解密 控制平面 BSP

8月30日消息,據(jù)媒體報(bào)道,騰訊和網(wǎng)易近期正在縮減他們對(duì)日本游戲市場(chǎng)的投資。

關(guān)鍵字: 騰訊 編碼器 CPU

8月28日消息,今天上午,2024中國(guó)國(guó)際大數(shù)據(jù)產(chǎn)業(yè)博覽會(huì)開(kāi)幕式在貴陽(yáng)舉行,華為董事、質(zhì)量流程IT總裁陶景文發(fā)表了演講。

關(guān)鍵字: 華為 12nm EDA 半導(dǎo)體

8月28日消息,在2024中國(guó)國(guó)際大數(shù)據(jù)產(chǎn)業(yè)博覽會(huì)上,華為常務(wù)董事、華為云CEO張平安發(fā)表演講稱,數(shù)字世界的話語(yǔ)權(quán)最終是由生態(tài)的繁榮決定的。

關(guān)鍵字: 華為 12nm 手機(jī) 衛(wèi)星通信

要點(diǎn): 有效應(yīng)對(duì)環(huán)境變化,經(jīng)營(yíng)業(yè)績(jī)穩(wěn)中有升 落實(shí)提質(zhì)增效舉措,毛利潤(rùn)率延續(xù)升勢(shì) 戰(zhàn)略布局成效顯著,戰(zhàn)新業(yè)務(wù)引領(lǐng)增長(zhǎng) 以科技創(chuàng)新為引領(lǐng),提升企業(yè)核心競(jìng)爭(zhēng)力 堅(jiān)持高質(zhì)量發(fā)展策略,塑強(qiáng)核心競(jìng)爭(zhēng)優(yōu)勢(shì)...

關(guān)鍵字: 通信 BSP 電信運(yùn)營(yíng)商 數(shù)字經(jīng)濟(jì)

北京2024年8月27日 /美通社/ -- 8月21日,由中央廣播電視總臺(tái)與中國(guó)電影電視技術(shù)學(xué)會(huì)聯(lián)合牽頭組建的NVI技術(shù)創(chuàng)新聯(lián)盟在BIRTV2024超高清全產(chǎn)業(yè)鏈發(fā)展研討會(huì)上宣布正式成立。 活動(dòng)現(xiàn)場(chǎng) NVI技術(shù)創(chuàng)新聯(lián)...

關(guān)鍵字: VI 傳輸協(xié)議 音頻 BSP

北京2024年8月27日 /美通社/ -- 在8月23日舉辦的2024年長(zhǎng)三角生態(tài)綠色一體化發(fā)展示范區(qū)聯(lián)合招商會(huì)上,軟通動(dòng)力信息技術(shù)(集團(tuán))股份有限公司(以下簡(jiǎn)稱"軟通動(dòng)力")與長(zhǎng)三角投資(上海)有限...

關(guān)鍵字: BSP 信息技術(shù)
關(guān)閉
關(guān)閉