This documentation is for an out-of-date version of Apache Flink. We recommend you use the latest stable version.

高可用 #

JobManager 高可用（HA）模式加强了 Flink 集群防止 JobManager 故障的能力。此特性确保 Flink 集群将始终持续执行你提交的作业。

JobManager 高可用 #

JobManager 协调每个 Flink 的部署。它同时负责调度和 资源管理。

默认情况下，每个 Flink 集群只有一个 JobManager 实例。这会导致 单点故障（SPOF）：如果 JobManager 崩溃，则不能提交任何新程序，运行中的程序也会失败。

使用 JobManager 高可用模式，你可以从 JobManager 失败中恢复，从而消除单点故障。你可以为每个集群部署配置高可用模式。有关更多信息，请参阅高可用服务。

JobManager 高可用一般概念是指，在任何时候都有 一个领导者 JobManager，如果领导者出现故障，则有多个备用 JobManager 来接管领导。这保证了 不存在单点故障，只要有备用 JobManager 担任领导者，程序就可以继续运行。

如下是一个使用三个 JobManager 实例的例子：

Flink 的高可用服务封装了所需的服务，使一切可以正常工作：

Flink 提供了两种高可用服务实现：

为了恢复提交的作业，Flink 持久化元数据和 job 组件。高可用数据将一直保存，直到相应的作业执行成功、被取消或最终失败。当这些情况发生时，将删除所有高可用数据，包括存储在高可用服务中的元数据。