大佬深入淺出工業(yè)大數(shù)據(jù),論工業(yè)大數(shù)據(jù)之?dāng)?shù)據(jù)準(zhǔn)備
掃描二維碼
隨時隨地手機看文章
在下述的內(nèi)容中,小編將會對工業(yè)大數(shù)據(jù)的相關(guān)消息予以報道,如果工業(yè)大數(shù)據(jù)是您想要了解的焦點之一,不妨和小編共同閱讀這篇文章哦。
一、淺談對工業(yè)大數(shù)據(jù)的認(rèn)識
工業(yè)大數(shù)據(jù)技術(shù)是使工業(yè)大數(shù)據(jù)所包含的價值得以挖掘和展示的一系列技術(shù)和方法,包括數(shù)據(jù)規(guī)劃、采集、預(yù)處理、存儲、分析挖掘、可視化和智能控制。 工業(yè)大數(shù)據(jù)應(yīng)用是將工業(yè)大數(shù)據(jù)系列技術(shù)和方法整合應(yīng)用到特定工業(yè)大數(shù)據(jù)集,獲取有價值信息的過程。 工業(yè)大數(shù)據(jù)技術(shù)研究和突破的本質(zhì)目標(biāo)是從復(fù)雜的數(shù)據(jù)集中發(fā)現(xiàn)新的模式和知識,挖掘有價值的新信息,從而促進制造企業(yè)的產(chǎn)品創(chuàng)新,提高管理水平和效率,拓展新的商業(yè)模式。
工業(yè)大數(shù)據(jù)的本質(zhì)是以數(shù)據(jù)的形式呈現(xiàn)的“信息”或“知識”,而不是無關(guān)的數(shù)據(jù)。 “信息”和“知識”的本質(zhì)相似,但不同的是:“知識”在時間和空間上具有更強的通用性和連續(xù)性。
工業(yè)大數(shù)據(jù)的核心價值是知識的再利用。大數(shù)據(jù)的好處是:獲取知識成本低、范圍廣、質(zhì)量高。智能使知識在人機之間共享,促進知識價值的實現(xiàn);互聯(lián)網(wǎng)使知識的價值翻倍。知識價值的提升,會讓人們更值得花更多的精力去發(fā)現(xiàn)價值,形成大數(shù)據(jù)工作的良性循環(huán),提升知識工作的價值。數(shù)據(jù)分析是獲取知識的過程。但獲得的知識取決于業(yè)務(wù)需求。在需要進行數(shù)據(jù)分析的地方,首要任務(wù)和工作重點是理清業(yè)務(wù)需求的上下文和邏輯,將業(yè)務(wù)需求轉(zhuǎn)化為易于分析的數(shù)學(xué)問題。而不是僅僅使用一堆數(shù)據(jù)來隨機分析它。
二、工業(yè)大數(shù)據(jù)之?dāng)?shù)據(jù)準(zhǔn)備
1. 數(shù)據(jù)抽取
數(shù)據(jù)抽取是指從不同的數(shù)據(jù)源中抽取數(shù)據(jù)的過程。針對大數(shù)據(jù)的復(fù)雜性,提出了一種SAT數(shù)據(jù)提取模型。模型分為三層:數(shù)據(jù)分離層對數(shù)據(jù)進行分離,實現(xiàn)數(shù)據(jù)的分布。分析層實現(xiàn)數(shù)據(jù)的并發(fā)處理;轉(zhuǎn)換層完成數(shù)據(jù)的轉(zhuǎn)換和打包。提取方法和模型設(shè)計合理,但沒有考慮數(shù)據(jù)的安全性。針對關(guān)系數(shù)據(jù)無法有效轉(zhuǎn)化為圖數(shù)據(jù)的問題,基于一對一、一對多、多對多的數(shù)據(jù)遷移算法,基于節(jié)點合并——將原始關(guān)系數(shù)據(jù)庫中數(shù)據(jù)的多重關(guān)系作為一個節(jié)點,然后整合關(guān)系信息,最后利用圖數(shù)據(jù)庫的功能完成數(shù)據(jù)的轉(zhuǎn)換。這種方法合理有效,但效率不高,而且關(guān)系表中的外鍵不完整,算法有待改進。除了上述方法,元數(shù)據(jù)知識模型還可以用于從XML文件中提取數(shù)據(jù);可以構(gòu)建LC增量抽取模型,將異構(gòu)環(huán)境下的數(shù)據(jù)庫事務(wù)文件與全表進行比較,提高數(shù)據(jù)抽取的效率和性能。與其他數(shù)據(jù)提取方法相比,LC增量提取相對穩(wěn)定,效率更高。但是在提取數(shù)據(jù)的過程中,需要用到工具來解析事務(wù)日志文件,操作比較繁瑣。
2.數(shù)據(jù)清洗
數(shù)據(jù)清洗,顧名思義,就是檢查數(shù)據(jù)的質(zhì)量,剔除“臟”數(shù)據(jù)。數(shù)據(jù)清洗前,應(yīng)分析數(shù)據(jù)集的特征,并根據(jù)特征制定相應(yīng)的清洗規(guī)則。
FBS方法是一種常用的數(shù)據(jù)清洗方法。主要思想是通過測量每個屬性的相似性來清理數(shù)據(jù)。對于FBS法消除水平置信度低的問題,可以采用專門的指標(biāo)來提高效率。除了置信度問題,Accuracy也是一個重要指標(biāo)。針對數(shù)據(jù)清洗精度低的問題,將主動學(xué)習(xí)應(yīng)用于數(shù)據(jù)清洗,并結(jié)合眾包來保證清洗精度。目前數(shù)據(jù)清洗主要是通過改進算法來完成的,比如重復(fù)數(shù)據(jù)的檢測和消除算法,數(shù)據(jù)庫管理的數(shù)據(jù)清洗算法,增量數(shù)據(jù)的清洗算法等。
經(jīng)由小編的介紹,不知道你對工業(yè)大數(shù)據(jù)是否充滿了興趣?如果你想對工業(yè)大數(shù)據(jù)有更多的了解,不妨嘗試度娘更多信息或者在我們的網(wǎng)站里進行搜索哦。