Format: Serialization Schema Format: Deserialization Schema
Apache Orc Format 允许读写 ORC 数据。
为了建立Orc格式,下列的表格提供了为项目使用自动化工具(例如Maven或者SBT)以及SQL客户端使用SQL JAR包的依赖信息。
Maven 依赖 | SQL 客户端 JAR |
---|---|
flink-orc_2.11 | Download |
下面是一个用 Filesystem connector 和 Orc format 创建表格的例子
参数 | 是否必选 | 默认值 | 类型 | 描述 |
---|---|---|---|---|
format |
必选 | (none) | String | 指定要使用的格式,这里应该是 'orc'。 |
Orc 格式也支持来源于 Table properties 的表属性。 举个例子,你可以设置 orc.compress=SNAPPY
来允许spappy压缩。
Orc 格式类型的映射和 Apache Hive 是兼容的。下面的表格列出了 Flink 类型的数据和 Orc 类型的数据的映射关系。
Flink 数据类型 | Orc 物理类型 | Orc 逻辑类型 |
---|---|---|
CHAR | bytes | CHAR |
VARCHAR | bytes | VARCHAR |
STRING | bytes | STRING |
BOOLEAN | long | BOOLEAN |
BYTES | bytes | BINARY |
DECIMAL | decimal | DECIMAL |
TINYINT | long | BYTE |
SMALLINT | long | SHORT |
INT | long | INT |
BIGINT | long | LONG |
FLOAT | double | FLOAT |
DOUBLE | double | DOUBLE |
DATE | long | DATE |
TIMESTAMP | timestamp | TIMESTAMP |
注意 复合数据类型: 数组、 映射和行类型暂不支持。