自學(xué)大數(shù)據(jù)技術(shù)是否可行?
掃描二維碼
隨時(shí)隨地手機(jī)看文章
隨著云時(shí)代的來(lái)臨,大數(shù)據(jù)(Big data)也吸引了越來(lái)越多的關(guān)注。分析師團(tuán)隊(duì)認(rèn)為,大數(shù)據(jù)(Big data)通常用來(lái)形容一個(gè)公司創(chuàng)造的大量非結(jié)構(gòu)化數(shù)據(jù)和半結(jié)構(gòu)化數(shù)據(jù),這些數(shù)據(jù)在下載到關(guān)系型數(shù)據(jù)庫(kù)用于分析時(shí)會(huì)花費(fèi)過(guò)多時(shí)間和金錢。大數(shù)據(jù)分析常和云計(jì)算聯(lián)系到一起,因?yàn)閷?shí)時(shí)的大型數(shù)據(jù)集分析需要像MapReduce一樣的框架來(lái)向數(shù)十、數(shù)百或甚至數(shù)千的電腦分配工作。
第一個(gè)階段的學(xué)習(xí)內(nèi)容主要以基礎(chǔ)知識(shí)為主,涉及到操作系統(tǒng)(Linux)、數(shù)據(jù)庫(kù)、編程語(yǔ)言(Java、Python、Scala)、算法設(shè)計(jì)基礎(chǔ)以及統(tǒng)計(jì)學(xué)基礎(chǔ)知識(shí)。這個(gè)階段的學(xué)習(xí)內(nèi)容雖然比較多,但是整體的難度并不算高。對(duì)于沒(méi)有任何計(jì)算機(jī)基礎(chǔ)的初學(xué)者來(lái)說(shuō),應(yīng)該在這個(gè)學(xué)習(xí)階段多做一些實(shí)驗(yàn),如果在學(xué)習(xí)的初期能夠得到一定的指導(dǎo),會(huì)節(jié)省一定的時(shí)間。
第二個(gè)階段的學(xué)習(xí)內(nèi)容主要以大數(shù)據(jù)平臺(tái)為主,對(duì)于初學(xué)者來(lái)說(shuō)最好選擇開(kāi)源的大數(shù)據(jù)平臺(tái),比如Hadoop、Spark就是不錯(cuò)的選擇,初學(xué)者并不建議選擇學(xué)習(xí)商用大數(shù)據(jù)平臺(tái),因?yàn)樯逃闷脚_(tái)的封裝性比較好,不容易分析其中的技術(shù)細(xì)節(jié)。實(shí)際上,當(dāng)前很多商用大數(shù)據(jù)平臺(tái)都是基于Hadoop和Spark構(gòu)建的。
第三個(gè)階段的學(xué)習(xí)內(nèi)容主要以實(shí)踐為主,實(shí)踐的內(nèi)容主要分為三個(gè)大的任務(wù),分別是大數(shù)據(jù)應(yīng)用開(kāi)發(fā)、大數(shù)據(jù)分析和大數(shù)據(jù)運(yùn)維,由于不同的崗位往往需要掌握不同的實(shí)踐能力,所以掌握更多的實(shí)踐知識(shí)能夠在一定程度上提升自己的崗位適應(yīng)能力。
大數(shù)據(jù)是一個(gè)以系統(tǒng)方式分析數(shù)據(jù),并且從數(shù)據(jù)中提取信息所屬領(lǐng)域的技術(shù)。在數(shù)據(jù)越來(lái)越龐大,越來(lái)越雜的情況下,相比傳統(tǒng)的數(shù)據(jù)處理軟件件,大數(shù)據(jù)有著數(shù)據(jù)儲(chǔ)存、分析、共享、傳輸?shù)葍?yōu)勢(shì)。首先,自學(xué)大數(shù)據(jù)技術(shù)是完全可以的,但是由于大數(shù)據(jù)的知識(shí)體系涉及到的內(nèi)容比較多,而且具有一定的難度,所以大數(shù)據(jù)的學(xué)習(xí)應(yīng)該分為以上三個(gè)階段來(lái)完成。由于大數(shù)據(jù)知識(shí)體系比較龐大,而且大數(shù)據(jù)與具體的應(yīng)用場(chǎng)景有密切的聯(lián)系,所以自學(xué)大數(shù)據(jù)技術(shù)很難獲得一個(gè)持續(xù)且深入的過(guò)程,因此建議在學(xué)習(xí)的中后期應(yīng)該找一個(gè)實(shí)習(xí)崗位。