開始使用 bigdata

本節概述了 bigdata 是什麼,以及開發人員為什麼要使用它。

大資料是以 4 V 為特徵的資料。這些是體積,速度,品種和準確性。

  1. 卷 - 當資料量巨大時,如太位元組或數 PB。正如報告所述,我們在過去的 2 到 3 年內創造了世界上 90%的資料。
  2. 速度 - 資料在系統中流動的速度。例如,數百萬使用者同時在社交網站上上傳他們的內容會產生高達每兆兆位元組/秒的資料。
  3. 多樣性 - 基於其性質的不同型別的資料。它可以是結構化的(大多數舊的 RDBMS 處理),半結構化(電子郵件,XML 等)和非結構化(視訊,音訊,感測器資料等)。
  4. 準確性 - 這是我們在可用資料中獲得有意義洞察力的手段。這可以被視為資料最重要的方面,因為大多數業務決策取決於資料的有用性。

用於儲存和處理大資料的最通用平臺是 Hadoop Framework。它由兩件事組成:

  1. Hadoop 分散式檔案系統(HDFS) - 資料儲存在 Hadoop 分散式檔案系統(HDFS)上,它實際上是商品硬體的叢集,不像在伺服器上儲存的原始方式。資料駐留在 HDFS 上,可能會被處理以使用各種工具獲得洞察力和框架。
  2. MapReduce(MR) - 這是 Hadoop 的預設處理框架。 MapReduce (是 Apache Hadoop 的一部分)

隨著 Hadoop 的進步,Hadoop 社群開始出現新的處理工具。最流行的工具/框架中很少有:

  1. Apache Spark

  2. Apache Storm

  3. Apache Flink

    還有很多..

除了普通 HDFS 之外,很少有儲存機制:

  1. 蜂巢
  2. HBase 的
  3. 卡桑德拉

還有很多..

開發人員可能對大資料的處理能力感興趣,因此它可以證明是我們檢視資料的主要區別。在並行 Universe 中,我們還可以將大資料稱為 Rich-untamed-Data。我們必須馴服這些龐大的資料。利用大資料,我們可以處理已有資料的隱藏潛力

在購物網站上的客戶點選行為中可以引用最好的示例,其中他們的觀看,點選和在該網站上花費的時間量告訴線上零售商採購產品並基於使用者行為傳送推薦。