DataGen

DataGen SQL 连接器 #

Scan Source: 有界 Scan Source: 无界

DataGen 连接器允许基于内存生成数据来创建表。 在本地开发时,若不访问外部系统(如 Kafka),这会非常有用。 可以使用计算列语法灵活地生成记录。

DataGen 连接器是内置的,不需要额外的依赖项。

用法 #

默认情况下,DataGen 表将创建无限数量的行,每列都有一个随机值。 还可以指定总行数,从而生成有界表。

DataGen 连接器可以生成符合其 schema 的数据,应该注意的是,它按如下方式处理长度受限的字段:

  • 对于固定长度的数据类型(char、binary),字段长度只能由 schema 定义,且不支持自定义;
  • 对于可变长度数据类型 (varchar、varbinary),字段默认长度由 schema 定义,且自定义长度不能大于 schema 定义;
  • 对于超长字段(string、bytes),字段默认长度为 100,但可以定义为小于 2^31 的长度。

还支持序列生成器,您可以指定序列的起始和结束值。 如果表中有任一列是序列类型,则该表将是有界的,并在第一个序列完成时结束。

时间类型字段对应的值始终是本地机器当前系统时间。

CREATE TABLE Orders (
    order_number BIGINT,
    price        DECIMAL(32,2),
    buyer        ROW<first_name STRING, last_name STRING>,
    order_time   TIMESTAMP(3)
) WITH (
  'connector' = 'datagen'
)

DataGen 连接器通常与 LIKE 子句结合使用,以模拟物理表。

CREATE TABLE Orders (
    order_number BIGINT,
    price        DECIMAL(32,2),
    buyer        ROW<first_name STRING, last_name STRING>,
    order_time   TIMESTAMP(3)
) WITH (...)

-- create a bounded mock table
CREATE TEMPORARY TABLE GenOrders
WITH (
    'connector' = 'datagen',
    'number-of-rows' = '10'
)
LIKE Orders (EXCLUDING ALL)

此外,对于可变长度类型(varchar、string、varbinary 和 bytes),您可以指定是否生成可变长度的数据。

CREATE TABLE Orders (
    order_number BIGINT,
    price        DECIMAL(32,2),
    buyer        ROW<first_name STRING, last_name STRING>,
    order_time   TIMESTAMP(3),
    seller       VARCHAR(150)
) WITH (
  'connector' = 'datagen',
  'fields.seller.var-len' = 'true'
)

字段类型 #

Type Supported Generators Notes
BOOLEAN random
CHAR random / sequence
VARCHAR random / sequence
BINARY random / sequence
VARBINARY random / sequence
STRING random / sequence
DECIMAL random / sequence
TINYINT random / sequence
SMALLINT random / sequence
INT random / sequence
BIGINT random / sequence
FLOAT random / sequence
DOUBLE random / sequence
DATE random 总是解析为本地机器的当前日期。
TIME random 总是解析为本地机器的当前时间。
TIMESTAMP random 解析为相对于本地机器的当前时间戳向过去偏移的时间戳。偏移的最大值可以通过 'max-past' 选项指定。
TIMESTAMP_LTZ random 解析为相对于本地机器的当前时间戳向过去偏移的时间戳。偏移的最大值可以通过 'max-past' 选项指定。
INTERVAL YEAR TO MONTH random
INTERVAL DAY TO MONTH random
ROW random 生成具有随机字段数据的行。
ARRAY random 生成具有随机元素的数组。
MAP random 生成具有随机元素的 Map。
MULTISET random 生成具有随机元素的多重集。

连接器参数 #

参数 是否必选 默认值 数据类型 描述
connector
必须 (none) String 指定要使用的连接器,这里是 'datagen'。
rows-per-second
可选 10000 Long 每秒生成的行数,用以控制数据发出速率。
number-of-rows
可选 (none) Long 生成数据的总行数。默认情况下,该表是无界的。
scan.parallelism
可选 (none) Integer 定义算子并行度。不设置将使用全局默认并发。
fields.#.kind
可选 random String 指定 '#' 字段的生成器。可以是 'sequence' 或 'random'。
fields.#.min
可选 (Minimum value of type) (Type of field) 随机生成器的最小值,适用于数字类型。
fields.#.max
可选 (Maximum value of type) (Type of field) 随机生成器的最大值,适用于数字类型。
fields.#.max-past
可选 0 Duration 随机生成器生成相对当前时间向过去偏移的最大值,适用于 timestamp 类型。
fields.#.length
可选 100 Integer 随机生成器生成字符的长度,适用于 varchar、varbinary、string、bytes、array、map、multiset。 请注意对于可变长字段(varchar、varbinary),默认长度由 schema 定义,且长度不可设置为大于它; 对于超长字段(string、bytes),默认长度是 100 且可设置为小于 2^31 的长度; 对于结构化字段(数组、Map、多重集),默认元素数量为 3 且可以自定义。
fields.#.var-len
可选 false Boolean 是否生成变长数据,请注意只能用于变长类型(varchar、string、varbinary、bytes)。
fields.#.start
可选 (none) (Type of field) 序列生成器的起始值。
fields.#.end
可选 (none) (Type of field) 序列生成器的结束值。
fields.#.null-rate
optional (none) (Type of field) 空值比例。