TableEnvironment

TableEnvironment #

本篇文档是对 PyFlink TableEnvironment 的介绍。 文档包括对 TableEnvironment 类中每个公共接口的详细描述。

创建 TableEnvironment #

创建 TableEnvironment 的推荐方式是通过 EnvironmentSettings 对象创建:

from pyflink.common import Configuration
from pyflink.table import EnvironmentSettings, TableEnvironment

# create a streaming TableEnvironment
config = Configuration()
config.set_string('execution.buffer-timeout', '1 min')
env_settings = EnvironmentSettings \
    .new_instance() \
    .in_streaming_mode() \
    .with_configuration(config) \
    .build()

table_env = TableEnvironment.create(env_settings)

或者,用户可以从现有的 StreamExecutionEnvironment 创建 StreamTableEnvironment,以与 DataStream API 进行互操作。

from pyflink.datastream import StreamExecutionEnvironment
from pyflink.table import StreamTableEnvironment

# create a streaming TableEnvironment from a StreamExecutionEnvironment
env = StreamExecutionEnvironment.get_execution_environment()
table_env = StreamTableEnvironment.create(env)

TableEnvironment API #

Table/SQL 操作 #

这些 APIs 用来创建或者删除 Table API/SQL 表和写查询:

APIs 描述 文档
from_elements(elements, schema=None, verify_schema=True) 通过元素集合来创建表。 链接
from_pandas(pdf, schema=None, split_num=1) 通过 pandas DataFrame 来创建表。 链接
from_path(path) 通过指定路径下已注册的表来创建一个表,例如通过 create_temporary_view 注册表。 链接
create_temporary_view(view_path, table) 将一个 `Table` 对象注册为一张临时表,类似于 SQL 的临时表。 链接
drop_temporary_view(view_path) 删除指定路径下已注册的临时表。 链接
drop_temporary_table(table_path) 删除指定路径下已注册的临时表。 你可以使用这个接口来删除临时 source 表和临时 sink 表。 链接
execute_sql(stmt) 执行指定的语句并返回执行结果。 执行语句可以是 DDL/DML/DQL/SHOW/DESCRIBE/EXPLAIN/USE。

注意,对于 "INSERT INTO" 语句,这是一个异步操作,通常在向远程集群提交作业时才需要使用。 但是,如果在本地集群或者 IDE 中执行作业时,你需要等待作业执行完成,这时你可以查阅 这里 来获取更多细节。
更多关于 SQL 语句的细节,可查阅 SQL 文档。
链接
sql_query(query) 执行一条 SQL 查询,并将查询的结果作为一个 `Table` 对象。 链接

废弃的 APIs

APIs 描述 文档
from_table_source(table_source) 通过 table source 创建一张表。 链接
scan(*table_path) 从 catalog 中扫描已注册的表并且返回结果表。 它可以使用 from_path 来替换。 链接
register_table(name, table) 在 TableEnvironment 的 catalog 中用唯一名称注册一个 “Table” 对象。 可以在 SQL 查询中引用已注册的表。 它可以使用 create_temporary_view 替换。 链接
register_table_source(name, table_source) 在 TableEnvironment 的 catalog 中注册一个外部 `TableSource`。 链接
register_table_sink(name, table_sink) 在 TableEnvironment 的 catalog 中注册一个外部 `TableSink`。 链接
insert_into(target_path, table) 将 `Table` 对象的内容写到指定的 sink 表中。 注意,这个接口不会触发作业的执行。 你需要调用 `execute` 方法来执行你的作业。 链接
sql_update(stmt) 计算 INSERT, UPDATE 或者 DELETE 等 SQL 语句或者一个 DDL 语句。 它可以使用 execute_sql 来替换。 链接

执行/解释作业 #

这些 APIs 是用来执行/解释作业。注意,execute_sql API 也可以用于执行作业。

APIs 描述 文档
explain_sql(stmt, *extra_details) 返回指定语句的抽象语法树和执行计划。 链接
create_statement_set() 创建一个可接受 DML 语句或表的 StatementSet 实例。 它可用于执行包含多个 sink 的作业。 链接

废弃的 APIs

APIs 描述 文档
explain(table=None, extended=False) 返回指定 Table API 和 SQL 查询的抽象语法树,以及用来计算给定 `Table` 对象或者多个 sink 计划结果的执行计划。 如果你使用 "insert_into" 或者 "sql_update" 方法将数据发送到多个 sinks,你可以通过这个方法来得到执行计划。 它也可以用 TableEnvironment.explain_sqlTable.explain 或者 StatementSet.explain 来替换。 链接
execute(job_name) 触发程序执行。执行环境将执行程序的所有部分。 如果你想要使用 insert_into 或者 sql_update 方法将数据发送到结果表,你可以使用这个方法触发程序的执行。 这个方法将阻塞客户端程序,直到任务完成/取消/失败。 链接

创建/删除用户自定义函数 #

这些 APIs 用来注册 UDFs 或者 删除已注册的 UDFs。 注意,execute_sql API 也可以用于注册/删除 UDFs。 关于不同类型 UDFs 的详细信息,可查阅 用户自定义函数

APIs 描述 文档
create_temporary_function(path, function) 将一个 Python 用户自定义函数注册为临时 catalog 函数。 链接
create_temporary_system_function(name, function) 将一个 Python 用户自定义函数注册为临时系统函数。 如果临时系统函数的名称与临时 catalog 函数名称相同,优先使用临时系统函数。 链接
create_java_function(path, function_class_name, ignore_if_exists=None) 将 Java 用户自定义函数注册为指定路径下的 catalog 函数。 如果 catalog 是持久化的,则可以跨多个 Flink 会话和集群使用已注册的 catalog 函数。 链接
create_java_temporary_function(path, function_class_name) 将 Java 用户自定义函数注册为临时 catalog 函数。 链接
create_java_temporary_system_function(name, function_class_name) 将 Java 用户定义的函数注册为临时系统函数。 链接
drop_function(path) 删除指定路径下已注册的 catalog 函数。 链接
drop_temporary_function(path) 删除指定名称下已注册的临时系统函数。 链接
drop_temporary_system_function(name) 删除指定名称下已注册的临时系统函数。 链接

废弃的 APIs

APIs 描述 文档
register_function(name, function) 注册一个 Python 用户自定义函数,并为其指定一个唯一的名称。 若已有与该名称相同的用户自定义函数,则替换之。 它可以通过 create_temporary_system_function 来替换。 链接
register_java_function(name, function_class_name) 注册一个 Java 用户自定义函数,并为其指定一个唯一的名称。 若已有与该名称相同的用户自定义函数,则替换之。 它可以通过 create_java_temporary_system_function 来替换。 链接

依赖管理 #

这些 APIs 用来管理 Python UDFs 所需要的 Python 依赖。 更多细节可查阅依赖管理

APIs 描述 文档
add_python_file(file_path) 添加 Python 依赖,可以是 Python 文件,Python 包或者本地目录。 它们将会被添加到 Python UDF 工作程序的 PYTHONPATH 中。 链接
set_python_requirements(requirements_file_path, requirements_cache_dir=None) 指定一个 requirements.txt 文件,该文件定义了第三方依赖关系。 这些依赖项将安装到一个临时 catalog 中,并添加到 Python UDF 工作程序的 PYTHONPATH 中。 链接
add_python_archive(archive_path, target_dir=None) 添加 Python 归档文件。该文件将被解压到 Python UDF 程序的工作目录中。 链接

配置 #

APIs 描述 文档
get_config() 返回 table config,可以通过 table config 来定义 Table API 的运行时行为。 你可以在 配置Python 配置 中找到所有可用的配置选项。

下面的代码示例展示了如何通过这个 API 来设置配置选项:
# set the parallelism to 8
table_env.get_config().set("parallelism.default", "8")
# set the job name
table_env.get_config().set("pipeline.name", "my_first_job")
链接

Catalog APIs #

这些 APIs 用于访问 catalog 和模块。你可以在 模块catalog 文档中找到更详细的介绍。

APIs 描述 文档
register_catalog(catalog_name, catalog) 注册具有唯一名称的 `Catalog`。 链接
get_catalog(catalog_name) 通过指定的名称来获得已注册的 `Catalog` 。 链接
use_catalog(catalog_name) 将当前目录设置为所指定的 catalog。 它也将默认数据库设置为所指定 catalog 的默认数据库。 链接
get_current_catalog() 获取当前会话默认的 catalog 名称。 链接
get_current_database() 获取正在运行会话中的当前默认数据库名称。 链接
use_database(database_name) 设置当前默认的数据库。 它必须存在当前 catalog 中。 当寻找未限定的对象名称时,该路径将被用作默认路径。 链接
load_module(module_name, module) 加载给定名称的 `Module`。 模块将按照加载的顺序进行保存。 链接
unload_module(module_name) 卸载给定名称的 `Module`。 链接
use_modules(*module_names) 按指定列表激活在这个环境中加载的 `Module`。 链接
list_catalogs() 获取在这个环境中注册的所有 catalog 目录名称。 链接
list_modules() 获取在这个环境中注册的所有激活的 `Module` 名称。 链接
list_full_modules() 获取在这个环境中注册的所有加载的 `Module` 名称及激活状态。 链接
list_databases() 获取当前 catalog 中所有数据库的名称。 链接
list_tables() 获取当前 catalog 的当前数据库下的所有表和临时表的名称。 它可以返回永久和临时的表和视图。 链接
list_views() 获取当前 catalog 的当前数据库中的所有临时表名称。 它既可以返回永久的也可以返回临时的临时表。 链接
list_user_defined_functions() 获取在该环境中已注册的所有用户自定义函数的名称。 链接
list_functions() 获取该环境中所有函数的名称。 链接
list_temporary_tables() 获取当前命名空间(当前 catalog 的当前数据库)中所有可用的表和临时表名称。 链接
list_temporary_views() 获取当前命名空间(当前 catalog 的当前数据库)中所有可用的临时表名称。 链接

Statebackend,Checkpoint 以及重启策略 #

在 Flink 1.10 之前,你可以通过 StreamExecutionEnvironment 来配置 statebackend,checkpointing 以及重启策略。 现在你可以通过在 TableConfig 中,通过设置键值选项来配置它们,更多详情可查阅 容错State Backends 以及 Checkpointing

下面代码示例展示了如何通过 Table API 来配置 statebackend,checkpoint 以及重启策略:

# 设置重启策略为 "fixed-delay"
table_env.get_config().set("restart-strategy.type", "fixed-delay")
table_env.get_config().set("restart-strategy.fixed-delay.attempts", "3")
table_env.get_config().set("restart-strategy.fixed-delay.delay", "30s")

# 设置 checkpoint 模式为 EXACTLY_ONCE
table_env.get_config().set("execution.checkpointing.mode", "EXACTLY_ONCE")
table_env.get_config().set("execution.checkpointing.interval", "3min")

# 设置 statebackend 类型为 "rocksdb",其他可选项有 "filesystem" 和 "jobmanager"
# 你也可以将这个属性设置为 StateBackendFactory 的完整类名
# e.g. org.apache.flink.contrib.streaming.state.RocksDBStateBackendFactory
table_env.get_config().set("state.backend.type", "rocksdb")

# 设置 RocksDB statebackend 所需要的 checkpoint 目录
table_env.get_config().set("execution.checkpointing.dir", "file:///tmp/checkpoints/")