Hadoop 的三大組件是指 Hadoop 分布式文件系統(tǒng)(HDFS)、MapReduce 和 Yet Another Resource Negotiator(YARN)。
HDFS:Hadoop 分布式文件系統(tǒng)是 Hadoop 的分布式文件系統(tǒng),它是將大規(guī)模數(shù)據(jù)分散存儲(chǔ)在多個(gè)節(jié)點(diǎn)上的基礎(chǔ)。HDFS 主要負(fù)責(zé)數(shù)據(jù)的存儲(chǔ)和管理,可以將大數(shù)據(jù)集分成多個(gè)數(shù)據(jù)塊,并將這些數(shù)據(jù)塊分配到不同的計(jì)算節(jié)點(diǎn)上存儲(chǔ),提高數(shù)據(jù)的可靠性和處理效率。
MapReduce:MapReduce 是 Hadoop 的分布式計(jì)算框架,它提供了一種簡(jiǎn)單的編程模型,通過(guò)將大規(guī)模數(shù)據(jù)分解成多個(gè)小任務(wù)并行處理,可以大大提高數(shù)據(jù)處理的效率。MapReduce 模型包括 Map 和 Reduce 兩個(gè)階段,其中 Map 階段將數(shù)據(jù)分解成多個(gè)小塊進(jìn)行處理,Reduce 階段將處理結(jié)果合并。
YARN:Yet Another Resource Negotiator(YARN)是 Hadoop 的資源管理器,它負(fù)責(zé)為多個(gè)應(yīng)用程序分配和管理計(jì)算資源,可以有效地提高計(jì)算資源的利用率。YARN 可以將集群中的計(jì)算資源劃分為多個(gè)容器,為不同的應(yīng)用程序提供適當(dāng)?shù)馁Y源,并監(jiān)控和管理各個(gè)應(yīng)用程序的運(yùn)行狀態(tài)。
綜上所述,HDFS、MapReduce 和 YARN 是 Hadoop 的三大組件,它們共同構(gòu)成了 Hadoop 分布式計(jì)算框架的核心。