1.6 思考题

(1)如果有两个输入通道的算子从输入通道收到了检查点屏障b,同时,从通道收到了属于另一个时刻的检查点屏障,那么这种不同步会不会产生一致性错误呢?

(2)本章分析了根据事件时间开滚动窗口的情况,怎么分析其他窗口机制呢?例如,根据处理时间开滚动窗口、根据事件时间开会话窗口。

(3)故障恢复后,窗口的运行会出现什么情况?在根据事件时间开滚动窗口的例子中,在处理时间 12:07 时刻系统出现故障,并在两分钟后恢复,分析此后的聚合过程。

(4)在嵌入完美水印时,事件不会迟到,窗口能够及时销毁;在嵌入启发式水印早到时,为了确保精准计算,引擎必须延长对应事件时间窗口的生存期,即迟到生存期。既然我们很难生成完美水印,为什么所有窗口都加大迟到生存期,这样在流式数据架构理论中就不需要水印这个概念了吗?

(5)实时机器学习会给流式数据架构的设计带来什么困难?