开始使用 bigdata

本节概述了 bigdata 是什么,以及开发人员为什么要使用它。

大数据是以 4 V 为特征的数据。这些是体积,速度,品种和准确性。

  1. 卷 - 当数据量巨大时,如太字节或数 PB。正如报告所述,我们在过去的 2 到 3 年内创造了世界上 90%的数据。
  2. 速度 - 数据在系统中流动的速度。例如,数百万用户同时在社交网站上上传他们的内容会产生高达每兆兆字节/秒的数据。
  3. 多样性 - 基于其性质的不同类型的数据。它可以是结构化的(大多数旧的 RDBMS 处理),半结构化(电子邮件,XML 等)和非结构化(视频,音频,传感器数据等)。
  4. 准确性 - 这是我们在可用数据中获得有意义洞察力的手段。这可以被视为数据最重要的方面,因为大多数业务决策取决于数据的有用性。

用于存储和处理大数据的最通用平台是 Hadoop Framework。它由两件事组成:

  1. Hadoop 分布式文件系统(HDFS) - 数据存储在 Hadoop 分布式文件系统(HDFS)上,它实际上是商品硬件的集群,不像在服务器上存储的原始方式。数据驻留在 HDFS 上,可能会被处理以使用各种工具获得洞察力和框架。
  2. MapReduce(MR) - 这是 Hadoop 的默认处理框架。 MapReduce (是 Apache Hadoop 的一部分)

随着 Hadoop 的进步,Hadoop 社区开始出现新的处理工具。最流行的工具/框架中很少有:

  1. Apache Spark

  2. Apache Storm

  3. Apache Flink

    还有很多..

除了普通 HDFS 之外,很少有存储机制:

  1. 蜂巢
  2. HBase 的
  3. 卡桑德拉

还有很多..

开发人员可能对大数据的处理能力感兴趣,因此它可以证明是我们查看数据的主要区别。在并行 Universe 中,我们还可以将大数据称为 Rich-untamed-Data。我们必须驯服这些庞大的数据。利用大数据,我们可以处理已有数据的隐藏潜力

在购物网站上的客户点击行为中可以引用最好的示例,其中他们的观看,点击和在该网站上花费的时间量告诉在线零售商采购产品并基于用户行为发送推荐。