大數(shù)據(jù)系統(tǒng)開(kāi)發(fā),是指伴隨著大數(shù)據(jù)的采集、存儲(chǔ)、分析和應(yīng)用的相關(guān)技術(shù),是一系列使用非傳統(tǒng)的工具來(lái)對(duì)大量的結(jié)構(gòu)化、半結(jié)構(gòu)化和非結(jié)構(gòu)化數(shù)據(jù)進(jìn)行處理,從而獲得分析和預(yù)測(cè)結(jié)果的一系列數(shù)據(jù)處理和分析技術(shù)。
做大數(shù)據(jù)系統(tǒng)開(kāi)發(fā),需要首先了解大數(shù)據(jù)的基本處理流程,主要包括數(shù)據(jù)采集、存儲(chǔ)、分析和結(jié)果呈現(xiàn)等環(huán)節(jié)。數(shù)據(jù)無(wú)處不在,互聯(lián)網(wǎng)網(wǎng)站、政務(wù)系統(tǒng)、零售系統(tǒng)、辦公系統(tǒng)、自動(dòng)化生產(chǎn)系統(tǒng)、監(jiān)控?cái)z像頭、傳感器等,每時(shí)每刻都在不斷產(chǎn)生數(shù)據(jù)。這些分散在各處的數(shù)據(jù),需要采用相應(yīng)的設(shè)備或軟件進(jìn)行采集。采集到的數(shù)據(jù)通常無(wú)法直接用于后續(xù)的數(shù)據(jù)分析,因?yàn)閷?duì)于來(lái)源眾多、類(lèi)型多樣的數(shù)據(jù)而言,數(shù)據(jù)缺失和語(yǔ)義模糊等問(wèn)題是不可避免的,因而必須采取相應(yīng)措施有效解決這些問(wèn)題,這就需要一個(gè)被稱(chēng)為“數(shù)據(jù)預(yù)處理”的過(guò)程,把數(shù)據(jù)變成一個(gè)可用的狀態(tài)。數(shù)據(jù)經(jīng)過(guò)預(yù)處理以后,會(huì)被存放到文件系統(tǒng)或數(shù)據(jù)庫(kù)系統(tǒng)中進(jìn)行存儲(chǔ)與管理,然后采用數(shù)據(jù)挖掘工具對(duì)數(shù)據(jù)進(jìn)行處理分析,最后采用可視化工具為用戶(hù)呈現(xiàn)結(jié)果。
在整個(gè)數(shù)據(jù)處理過(guò)程中,還必須注意隱私保護(hù)和數(shù)據(jù)安全問(wèn)題。
因此,從數(shù)據(jù)分析全流程的角度,大數(shù)據(jù)技術(shù)主要包括數(shù)據(jù)采集與預(yù)處理、數(shù)據(jù)存儲(chǔ)和管理、數(shù)據(jù)處理與分析、數(shù)據(jù)安全和隱私保護(hù)等幾個(gè)層面的內(nèi)容,具體見(jiàn)圖1。

圖1:大數(shù)據(jù)技術(shù)的不同層面及其功能
需要指出的是,大數(shù)據(jù)系統(tǒng)開(kāi)發(fā)是許多技術(shù)的一個(gè)集合體,這些技術(shù)也并非全部都是新生事物,諸如關(guān)系數(shù)據(jù)庫(kù)、數(shù)據(jù)倉(cāng)庫(kù)、數(shù)據(jù)采集、ETL、OLAP、數(shù)據(jù)挖掘、數(shù)據(jù)隱私和安全、數(shù)據(jù)可視化等技術(shù)是已經(jīng)發(fā)展多年的技術(shù),在大數(shù)據(jù)時(shí)代得到不斷補(bǔ)充、完善、提高后又有了新的升華,也可以視為大數(shù)據(jù)技術(shù)的一個(gè)組成部分。