1、功能概述:

(1)支持查询结果导出orc文件;

(2)支持配置生成orc文件的参数,具体包括:

     支持设置生成orc文件的stripe的大小;

     支持设置生成orc文件的数据压缩类型;

     支持设置生成orc文件数据压缩块大小。

(3)支持设置并行导出orc文件到hdfs的文件个数;

(4)支持设置导出orc文件的文件大小超限分裂;

(5)支持设置导出orc文件自动创建目标目录。

2、功能说明:

支持查询结果导出orc文件,通过导出SQL语句中指定的文件名后缀为“.orc”或“.ORC”(后缀不区分大小写)识别为导出生成orc文件。

导出SQL语句语法如下:

select ... into outfile ‘file_name.orc’ [OPTION] from table_name;

select ... from table_name into outfile ‘file_name.ORC’ [OPTION];

具体语句示例:

LOCAL方式

select * from t into outfile ‘/opt/test.orc’ outfilemode by local;

FTP/SFTP方式

select * from t into outfile ‘ftp://用户名:用户密码@ip_host/opt/test.ORC’;

select * from t into outfile ‘sftp://用户名:用户密码@ip_host/opt/test.oRC’;

HDFS方式

select *from t into outfile ‘hdp://用户名@ip_host:ip_port/opt/test.orc’;

使用约束:

只支持通过LOCAL/FTP/SFTP/HDFS方式导出orc文件,不支持HTTP导出,kafka导出和远程导出。

3、导出参数说明

(1)查询结果导出orc文件支持的OPTION参数

参数无效,报warning

fields/columns terminated by 字段分隔符

fields/columns [optionally] enclosed by 字段包围符

fields/columns escaped by 转义标识符

lines terminated by 行分隔符

lines starting by 行起始符

fields/columns [optionally] double_enclosed by 字段包含符自转义

null_value 空值标识符

fields/columns length 在使用定长模式导出时,用于设定字段长度的参数

with head 表示本地导出数据文件是否带有表头信息

参数正常使用:

outfilemode by 导出方式

writemode by 写入方式

filecount 并行导出的文件个数[0,4294967295]

character set 指定导出文件的字符集

filesize 导出文件的最大大小

(2)设置生成orc文件的参数

设置生成orc文件的stripe大小

gbase_export_orc_stripe_size 以字节为单位进行设置,默认值64M,支持session/global级设置,支持配置文件设置;

设置生成orc文件的数据压缩类型

gbase_export_orc_compression_kind 可以指定的压缩类型有none/zlib/zstd,暂不支持snappy/lzo/lz4;默认值zlib压缩,支持session/global级设置,支持配置文件设置;

设置生成orc文件的数据压缩块大小

gbase_export_orc_compression_block_size 以字节为单位设置,默认值64k,支持session/global级设置,支持配置文件设置;

设置导出orc文件自动创建目标目录

gbase_export_directory_kind 默认值1,表示自动创建与导出文件同名的导出目标目录,0表示不创建导出目录,支持session/global级设置,支持配置文件设置。


GBase数据库
1 声望2 粉丝

GBase数据库知识分享