一.引言
Flink 运行任务期间报错 The heartbeat of TaskManager with id container timed out,对应任务由 Running 切换为 Failed,下面基于该问题进行排查与解决。

二.问题描述
该 Flink 任务 7×24 h 挂起,为 EventTime 模式下的有状态带 ValueState 作业,运行期间 ValueState 大小稳定,但程序会在 4-8 h 的不确定间隔下报错 The heartbeat of TaskManager with id container timed out,从而导致任务失败。

通过 yarn-streaming 任务日志可以看到任务分别在当天共重启3次:
Failed A -> 6:00 – 12:42 运行 6 h 42 min 后异常退出
Failed B -> 12:50 – 19:05 运行 6 h 15 min 后异常退出
Failed C -> 19: 10 – 22:52 运行 3 h 42 min 后异常退出
三次报错的异常栈都对应 The heartbeat of TaskManager with id container timed out,无其他显
发布者:全栈程序员-站长,转载请注明出处:https://javaforall.net/215641.html原文链接:https://javaforall.net
