開始使用 hadoop

什麼是 Apache Hadoop?

Apache Hadoop 軟體庫是一個框架,允許使用簡單的程式設計模型跨計算機叢集分散式處理大型資料集。它旨在從單個伺服器擴充套件到數千臺計算機,每臺計算機都提供本地計算和儲存。庫本身不是依靠硬體來提供高可用性,而是設計用於檢測和處理應用程式層的故障,從而在計算機叢集之上提供高可用性服務,每個計算機都可能容易出現故障。

Apache Hadoop 包括以下模組:

  • Hadoop Common :支援其他 Hadoop 模組的常用實用程式。
  • Hadoop 分散式檔案系統(HDFS) :一種分散式檔案系統,提供對應用程式資料的高吞吐量訪問。
  • Hadoop YARN :作業排程和叢集資源管理的框架。
  • Hadoop MapReduce :基於 YARN 的系統,用於並行處理大型資料集。

參考:

Apache Hadoop