- 深入理解Flink:实时大数据处理实践
- 余海峰
- 369字
- 2020-08-28 00:04:21
1.6 思考题
(1)如果有两个输入通道的算子从输入通道收到了检查点屏障b,同时,从通道收到了属于另一个时刻的检查点屏障,那么这种不同步会不会产生一致性错误呢?
(2)本章分析了根据事件时间开滚动窗口的情况,怎么分析其他窗口机制呢?例如,根据处理时间开滚动窗口、根据事件时间开会话窗口。
(3)故障恢复后,窗口的运行会出现什么情况?在根据事件时间开滚动窗口的例子中,在处理时间 12:07 时刻系统出现故障,并在两分钟后恢复,分析此后的聚合过程。
(4)在嵌入完美水印时,事件不会迟到,窗口能够及时销毁;在嵌入启发式水印早到时,为了确保精准计算,引擎必须延长对应事件时间窗口的生存期,即迟到生存期。既然我们很难生成完美水印,为什么所有窗口都加大迟到生存期,这样在流式数据架构理论中就不需要水印这个概念了吗?
(5)实时机器学习会给流式数据架构的设计带来什么困难?