ORC

优化行列(ORC)文件格式提供了一种存储 Hive 数据的高效方法。它旨在克服其他 Hive 文件格式的限制。当 Hive 读取,写入和处理数据时,使用 ORC 文件可以提高性能。ORC 文件可以包含轻量索引和布隆过滤器。

请参阅: https//cwiki.apache.org/confluence/display/Hive/LanguageManual+ORC

ORC 是用于在 HortonWorks 发行版中存储数据的推荐格式。

CREATE TABLE tab_orc (col1 STRING,
                      col2 STRING,
                      col3 STRING)
STORED AS ORC
TBLPROPERTIES (
               "orc.compress"="SNAPPY",
               "orc.bloom.filter.columns"="col1",
               "orc.create.index" = "true" 
              ) 

要修改表,以便将表的新分区存储为 ORC 文件:

ALTER TABLE T SET FILEFORMAT ORC; 

从 Hive 0.14 开始,用户可以通过在其表或分区上发出 CONCATENATE 命令来请求将小 ORC 文件有效合并。文件将在条带级别合并,而不是 reserializatoin。

ALTER TABLE T [PARTITION partition_spec] CONCATENATE;