开始使用 hadoop

什么是 Apache Hadoop?

Apache Hadoop 软件库是一个框架,允许使用简单的编程模型跨计算机集群分布式处理大型数据集。它旨在从单个服务器扩展到数千台计算机,每台计算机都提供本地计算和存储。库本身不是依靠硬件来提供高可用性,而是设计用于检测和处理应用程序层的故障,从而在计算机集群之上提供高可用性服务,每个计算机都可能容易出现故障。

Apache Hadoop 包括以下模块:

  • Hadoop Common :支持其他 Hadoop 模块的常用实用程序。
  • Hadoop 分布式文件系统(HDFS) :一种分布式文件系统,提供对应用程序数据的高吞吐量访问。
  • Hadoop YARN :作业调度和集群资源管理的框架。
  • Hadoop MapReduce :基于 YARN 的系统,用于并行处理大型数据集。

参考:

Apache Hadoop