正文

什么是Hadoop分析?

Hadoop是一種用于業(yè)務(wù)分析處理的環(huán)境。允許大量的計(jì)算算來(lái)處理超大型非結(jié)構(gòu)化數(shù)據(jù)集。這些數(shù)據(jù)可以來(lái)自于各種源,但是最常見的數(shù)據(jù)是通過(guò)作為物聯(lián)網(wǎng)的一部分的傳感器創(chuàng)造的數(shù)據(jù)。為了讓其分析處理是有價(jià)值的,Hadoop必須快速處理這些數(shù)據(jù)集,而且要通過(guò)Hadoop分布式文件系統(tǒng)(HDFS)實(shí)現(xiàn)。HDFS本質(zhì)上將計(jì)算轉(zhuǎn)移到數(shù)據(jù),而不是傳輸數(shù)據(jù)到計(jì)算。

大多數(shù)Hadoop環(huán)境由商用服務(wù)器集群組成,都有本地存儲(chǔ)。數(shù)據(jù)加載到這些結(jié)點(diǎn),在那里處理那個(gè)數(shù)據(jù)集。這稱之為MapReduce功能。一旦每一個(gè)結(jié)點(diǎn)基于請(qǐng)求處理那個(gè)數(shù)據(jù),結(jié)果就會(huì)從每一個(gè)結(jié)點(diǎn)發(fā)送,然后在一個(gè)主結(jié)點(diǎn)合并。主結(jié)點(diǎn)也存儲(chǔ)與集群管理相關(guān)的所有元數(shù)據(jù)。