ORC

優化行列(ORC)檔案格式提供了一種儲存 Hive 資料的高效方法。它旨在克服其他 Hive 檔案格式的限制。當 Hive 讀取,寫入和處理資料時,使用 ORC 檔案可以提高效能。ORC 檔案可以包含輕量索引和布隆過濾器。

請參閱: https//cwiki.apache.org/confluence/display/Hive/LanguageManual+ORC

ORC 是用於在 HortonWorks 發行版中儲存資料的推薦格式。

CREATE TABLE tab_orc (col1 STRING,
                      col2 STRING,
                      col3 STRING)
STORED AS ORC
TBLPROPERTIES (
               "orc.compress"="SNAPPY",
               "orc.bloom.filter.columns"="col1",
               "orc.create.index" = "true" 
              ) 

要修改表,以便將表的新分割槽儲存為 ORC 檔案:

ALTER TABLE T SET FILEFORMAT ORC; 

從 Hive 0.14 開始,使用者可以通過在其表或分割槽上發出 CONCATENATE 命令來請求將小 ORC 檔案有效合併。檔案將在條帶級別合併,而不是 reserializatoin。

ALTER TABLE T [PARTITION partition_spec] CONCATENATE;