“大數(shù)據(jù)”是一個(gè)體量特別大,數(shù)據(jù)類(lèi)別特別大的數(shù)據(jù)集,并且這樣的數(shù)據(jù)集無(wú)法用傳統(tǒng)數(shù)據(jù)庫(kù)工具對(duì)其內(nèi)容進(jìn)行抓取、管理和處理?!按髷?shù)據(jù)”首先是指數(shù)據(jù)體量大,指代大型數(shù)據(jù)集,一般在10TB規(guī)模左右,但在實(shí)際應(yīng)用中,很多企業(yè)用戶把多個(gè)數(shù)據(jù)集放在一起,已經(jīng)形成了PB級(jí)的數(shù)據(jù)量;其次是指數(shù)據(jù)類(lèi)別大,數(shù)據(jù)來(lái)自多種數(shù)據(jù)源,數(shù)據(jù)種類(lèi)和格式日漸豐富,已沖破了以前所限定的結(jié)構(gòu)化數(shù)據(jù)范疇,囊括了半結(jié)構(gòu)化和非結(jié)構(gòu)化數(shù)據(jù)。接著是數(shù)據(jù)處理速度快,在數(shù)據(jù)量非常龐大的情況下,也能夠做到數(shù)據(jù)的實(shí)時(shí)處理。最后一個(gè)特點(diǎn)是指數(shù)據(jù)真實(shí)性高,隨著社交數(shù)據(jù)、企業(yè)內(nèi)容、交易與應(yīng)用數(shù)據(jù)等新數(shù)據(jù)源的興趣,傳統(tǒng)數(shù)據(jù)源的局限被打破,企業(yè)愈發(fā)需要有效的信息之力以確保其真實(shí)性及安全性。
大數(shù)據(jù)的概念
大數(shù)據(jù)或稱巨量資料,指的是所涉及的資料量規(guī)模巨大到無(wú)法透過(guò)目前主流軟件工具,在合理時(shí)間內(nèi)達(dá)到擷取、管理、處理、并整理成為幫助企業(yè)經(jīng)營(yíng)決策更積極目的的資訊。大數(shù)據(jù)的特征,由維克托邁爾-舍恩伯格和肯尼斯克耶編寫(xiě)的《大數(shù)據(jù)時(shí)代》中提出,大數(shù)據(jù)的4V特征:規(guī)模性(Volume)、高速性(Velocity)、多樣性(Variety)、價(jià)值性(Value)。
“大數(shù)據(jù)”的概念遠(yuǎn)不止大量的數(shù)據(jù)和處理大量數(shù)據(jù)的技術(shù),或者所謂的"4個(gè)V"之類(lèi)的簡(jiǎn)單概念,而是涵蓋了人們?cè)诖笠?guī)模數(shù)據(jù)的基礎(chǔ)上可以做的事情,而這些事情在小規(guī)模數(shù)據(jù)的基礎(chǔ)上是無(wú)法實(shí)現(xiàn)的。換句話說(shuō),大數(shù)據(jù)讓我們以一種前所未有的方式,通過(guò)對(duì)海量數(shù)據(jù)進(jìn)行分析,獲得有巨大價(jià)值的產(chǎn)品和服務(wù),或深刻的洞見(jiàn),最終形成變革之力。
從數(shù)據(jù)的類(lèi)別上看,“大數(shù)據(jù)”指的是無(wú)法使用傳統(tǒng)流程或工具處理或分析的信息。它定義了那些超出正常處理范圍和大小、迫使用戶采用非傳統(tǒng)處理方法的數(shù)據(jù)集。亞馬遜網(wǎng)絡(luò)服務(wù)、大數(shù)據(jù)科學(xué)家 JohnRauser提到一個(gè)簡(jiǎn)單的定義:大數(shù)據(jù)就是任何超過(guò)了一臺(tái)計(jì)算機(jī)處理能力的龐大數(shù)據(jù)量。
但其實(shí),大數(shù)據(jù)不是關(guān)于如何定義,最重要的是如何使用。最大的挑戰(zhàn)在于哪些技術(shù)能更好的使用數(shù)據(jù)以及大數(shù)據(jù)的應(yīng)用情況如何。這與傳統(tǒng)的數(shù)據(jù)庫(kù)相比,開(kāi)源的大數(shù)據(jù)分析工具的如 Hadoop 的崛起,這些非結(jié)構(gòu)化的數(shù)據(jù)服務(wù)的價(jià)值在哪里。
大數(shù)據(jù)的關(guān)鍵技術(shù)
大數(shù)據(jù)處理流程數(shù)據(jù)要發(fā)揮作用,需經(jīng)過(guò)一定的處理。大數(shù)據(jù)的處理流程如下:
?。?)數(shù)據(jù)采集:采用ETL技術(shù),從各個(gè)數(shù)據(jù)產(chǎn)生源頭,搜集數(shù)據(jù)。數(shù)據(jù)釆集過(guò)程中力求數(shù)據(jù)全面無(wú)死角、完整不丟失。
?。?)數(shù)據(jù)清洗:按照一定的規(guī)則,對(duì)數(shù)據(jù)進(jìn)行去重操作、異常處理和歸一化處理。
(3)數(shù)據(jù)預(yù)處理:這個(gè)過(guò)程,猶如給貓梳毛一樣,朝著一個(gè)方向清理脫節(jié)的數(shù)據(jù),處理不和諧的數(shù)據(jù),使得數(shù)據(jù)具有一致性和有效性。
(4)數(shù)據(jù)存儲(chǔ):將經(jīng)過(guò)優(yōu)化的數(shù)據(jù),按需集中存儲(chǔ)。
?。?)統(tǒng)計(jì)分析與數(shù)據(jù)挖掘:基于不同的目的,建立不同的模型,采用一系列算法,開(kāi)展數(shù)據(jù)的關(guān)聯(lián)、對(duì)比、排序等不同維度的分析,尋找其中的規(guī)律,發(fā)現(xiàn)潛在的奧秘。
?。?)數(shù)據(jù)可視化:大數(shù)據(jù)分析的使用者有大數(shù)據(jù)分析專家,同時(shí)還有普通用戶, 但是他們二者對(duì)于大數(shù)據(jù)分析最基本的要求就是可視化分析,因?yàn)榭梢暬治瞿? 夠直觀的呈現(xiàn)大數(shù)據(jù)特點(diǎn),同時(shí)能夠非常容易被讀者所接受,就如同看圖說(shuō)話一樣簡(jiǎn)單明了。
大數(shù)據(jù)處理方法
?。?)數(shù)據(jù)挖掘法:收集大數(shù)據(jù)的方法主要釆用數(shù)據(jù)挖掘,它是目前數(shù)據(jù)庫(kù)領(lǐng)域和人工智能研究的熱點(diǎn)問(wèn)題。數(shù)據(jù)挖掘通俗上講是海量數(shù)據(jù)有用價(jià)值的發(fā)現(xiàn),它是指將隱藏的、先前未知的有潛在價(jià)值信息從眾多數(shù)據(jù)中挖掘出來(lái)的一種曲折的過(guò)程。數(shù)據(jù)挖掘 利用多種技術(shù)融合而成,主基于機(jī)器學(xué)習(xí)、人工智能、模式識(shí)別、統(tǒng)計(jì)學(xué)、數(shù)據(jù)庫(kù)技術(shù)等。
在眾多數(shù)據(jù)中去除干擾的數(shù)據(jù)項(xiàng)后進(jìn)行分類(lèi)分析、推理和歸納總結(jié), 從中獲取潛在的可用價(jià)值的數(shù)據(jù),進(jìn)而幫助領(lǐng)導(dǎo)決策層調(diào)整市場(chǎng)運(yùn)作風(fēng)險(xiǎn),精準(zhǔn)制定策略,獲取更大的利益。其任務(wù)是將數(shù)據(jù)進(jìn)行分類(lèi),然后通過(guò)數(shù)據(jù)分析對(duì)未來(lái)進(jìn)行預(yù)判。分類(lèi)法在圖像模式識(shí)別、醫(yī)療診斷等領(lǐng)域有著廣泛的應(yīng)用。分類(lèi)的方法有:機(jī)器學(xué)習(xí)法;統(tǒng)計(jì)法;神經(jīng)網(wǎng)絡(luò)法;還有粗糙集法等。
?。?)用戶畫(huà)像體系法:用戶畫(huà)像體系也是一個(gè)有效處理大數(shù)據(jù)的方法。該方法是企業(yè)利用大數(shù)據(jù)技術(shù)的基本方式,每個(gè)企業(yè)根據(jù)需求要對(duì)用戶進(jìn)行畫(huà)像,用戶畫(huà)像的提出,根本上 是源于企業(yè)對(duì)用戶認(rèn)知的需求:產(chǎn)品設(shè)計(jì)經(jīng)理,需要了解用戶的特征,來(lái)完善產(chǎn) 品的功能;營(yíng)銷(xiāo)精英們,需要篩選目標(biāo)用戶,對(duì)產(chǎn)品進(jìn)行精準(zhǔn)投放。
什么是用戶畫(huà)像?簡(jiǎn)單地說(shuō),將不同的用戶信息分別進(jìn)行標(biāo)簽化,生產(chǎn)者 通過(guò)數(shù)據(jù)挖掘、處理分析消費(fèi)者的消費(fèi)觀念、日常生活起居習(xí)慣和社會(huì)交往關(guān)系 等特征數(shù)據(jù)之后,完美地勾勒出一個(gè)用戶的立體全貌。企業(yè)通過(guò)用戶畫(huà)像獲取足 夠的信息基礎(chǔ),能夠快速找到精準(zhǔn)用戶群體以及用戶需求等更為廣泛的反饋信息?!皹?biāo)簽化”是用戶畫(huà)像的工作焦點(diǎn),而一個(gè)標(biāo)簽的選取通常是通過(guò)人為制定的標(biāo)準(zhǔn) 提取出來(lái)的特征標(biāo)識(shí),比如性別、年齡、地域、生活習(xí)慣、消費(fèi)行為等,然后將 用戶的所有標(biāo)簽綜合來(lái)看,最后經(jīng)過(guò)數(shù)據(jù)分析,便可以勾勒出該用戶的立體“畫(huà)像”。
大數(shù)據(jù)未來(lái)發(fā)展趨勢(shì)
大數(shù)據(jù)關(guān)鍵技術(shù)主要包括數(shù)據(jù)釆集、存儲(chǔ)與分析技術(shù)。當(dāng)前大數(shù)據(jù)采集主要 包括軟釆與硬釆兩種,未來(lái)軟釆將形成統(tǒng)一數(shù)據(jù)釆集框架,從而實(shí)現(xiàn)對(duì)海量數(shù)據(jù) 地快速、可靠釆集,并且能夠?qū)Σ杉瘮?shù)據(jù)進(jìn)行自動(dòng)化的預(yù)處理,保障釆集質(zhì)量; 硬釆則會(huì)逐漸向低功耗智能傳感器發(fā)展。大數(shù)據(jù)存儲(chǔ)技術(shù)發(fā)展趨勢(shì)主要表現(xiàn)為高 可用性以及低成本性,即能夠以更低的存儲(chǔ)器成本存儲(chǔ)更多高質(zhì)量數(shù)據(jù),確保這 些數(shù)據(jù)能夠被快速訪問(wèn)且不會(huì)丟失。大數(shù)據(jù)分析技術(shù)的發(fā)展則主要表現(xiàn)在云計(jì)算 平臺(tái)、機(jī)器學(xué)習(xí)及人工神經(jīng)網(wǎng)絡(luò)等方面,以低成本實(shí)現(xiàn)高性能分析的同時(shí)推動(dòng)大 數(shù)據(jù)智能分析發(fā)展。另外大數(shù)據(jù)技術(shù)發(fā)展還會(huì)與其他新技術(shù)相結(jié)合,如人工智能、 機(jī)器學(xué)習(xí)、區(qū)塊鏈等都能推動(dòng)大數(shù)據(jù)技術(shù)創(chuàng)新發(fā)展。
就當(dāng)前的產(chǎn)業(yè)發(fā)展情況來(lái)看,大數(shù)據(jù)產(chǎn)業(yè)在未來(lái)發(fā)展必然會(huì)更受政府政策體系支持,這點(diǎn)由當(dāng)前我國(guó)對(duì)大數(shù)據(jù)技術(shù)的重視程度便能窺得一二。與此同時(shí),大戶數(shù)產(chǎn)業(yè)規(guī)模將會(huì)隨著發(fā)展繼續(xù)擴(kuò)大,而且保持高速增長(zhǎng)趨勢(shì),另外大數(shù)據(jù)開(kāi)放共享程度將進(jìn)一步加強(qiáng)。當(dāng)前數(shù)據(jù)流通性較弱,在很大程度上限制了大數(shù)據(jù)技術(shù)應(yīng)用,不過(guò)隨著相關(guān)政策支持以及技術(shù)發(fā)展,這一現(xiàn)象必將得到改善。在大數(shù)據(jù)產(chǎn)業(yè)快 速發(fā)展的情況下,我國(guó)相關(guān)立法進(jìn)程必然也會(huì)加速推進(jìn),為產(chǎn)業(yè)健康發(fā)展提供法律保護(hù)。
當(dāng)前大數(shù)據(jù)技術(shù)己經(jīng)逐步成為各行業(yè)支撐型的基礎(chǔ)設(shè)施,大數(shù)據(jù)體系的底層技術(shù)框架相對(duì)比較成熟穩(wěn)定,但是由于業(yè)務(wù)對(duì)效率上的不斷追求,其發(fā)展方向也開(kāi)始向提升效率轉(zhuǎn)變,大數(shù)據(jù)其實(shí)正在往快數(shù)據(jù)的軌道上轉(zhuǎn)換,一些行業(yè) 專家甚至認(rèn)為大數(shù)據(jù)己經(jīng)是昨日黃花,快數(shù)據(jù)才是未來(lái),本文討論的內(nèi)容也只是為了達(dá)成快數(shù)據(jù)所采用的一些工具和手段而己,真正快數(shù)據(jù)的實(shí)現(xiàn)還是需要多種 技術(shù)的融合,甚至是新的技術(shù)和架構(gòu)來(lái)達(dá)成。