Notions of time and progress - CS 591 K1: Data Stream Processing and Analytics Spring 2020
2.22 MB
22 页
0 下载
90 浏览
0 评论
0 收藏
所属分类:
云计算&大数据 / Apache Flink
| 语言 | 格式 | 评分 |
|---|---|---|
英语 | .pdf | 3 |
| 摘要 | ||
文档讨论了数据流处理中的时间概念,包括处理时间(Processing time)和事件时间(Event time)的区别。处理时间依赖于本地时钟,结果不确定;事件时间基于实际事件发生的时间,结果独立于处理速度。文档还介绍了水标(Watermarks)的概念,水标用于跟踪流进度(Stream progress),表示系统中事件时间的进展状态。水标通过数据流传播,帮助系统了解当前事件时间,确保处理逻辑的正确性和高效性。 | ||
| AI总结 | ||
## 文档总结:数据流处理与分析中的时间概念
### 核心观点:
1. **时间概念**:
- **处理时间**:基于本地时钟的事件处理时间,结果依赖处理速度,不具有确定性。
- **事件时间**:事件实际发生的时间,结果独立于处理速度,具有确定性。
2. **水印(Watermarks)**:
- 水印表示事件时间的逻辑时钟,用于跟踪流的进度。
- **输入水印**:反映上游阶段的进度,取最小值。
- **输出水印**:反映当前阶段的进度,取输入水印和非延迟事件时间的最小值。
- 水印传播:沿数据流传播,确保系统了解当前事件时间。
3. **流进度**:
- 水印是全局进度指标,表示系统对事件时间推进的确定性。
- 用于确保系统在处理延迟事件时的正确性。
### 总结:
文档讨论了数据流处理中时间管理的关键概念,包括处理时间、事件时间以及水印机制。水印通过提供逻辑时钟,帮助系统跟踪事件时间的进度,确保数据处理的正确性和一致性。理解和管理这些时间概念对实时数据流处理系统的性能和可靠性至关重要。 | ||
P1
P2
P3
P4
P5
P6
P7
下载文档到本地,方便使用
- 可预览页数已用完,剩余
15 页请下载阅读 -
文档评分













