Notions of time and progress - CS 591 K1: Data Stream Processing and Analytics Spring 2020
2.22 MB
22 页
0 评论
语言 | 格式 | 评分 |
---|---|---|
英语 | .pdf | 3 |
摘要 | ||
文档讨论了数据流处理中的时间和进度概念,主要包括事件时间和处理时间的区别。事件时间指事件实际发生的时间,而处理时间指事件被处理时的本地时钟时间。文档还介绍了水印(watermark)的概念,用于表示事件时间的进展,并确保系统不会收到延迟事件。水印的传播机制包括输入水印和输出水印,其计算基于上游任务的最小输出水印和非延迟数据的事件时间。此外,文档通过实例说明了事件时间窗口和处理时间窗口在应用中的不同影响。 | ||
AI总结 | ||
以下是文档内容的中文总结,重点突出核心观点和关键信息:
---
这份文档围绕“时间与进度的概念”展开,讨论了数据流处理与分析中时间的基本概念、事件时间与处理时间的区别,以及水印的作用。
### 1. 时间的概念
- **处理时间**:
- 指事件被处理时的本地时钟时间。
- 结果依赖于处理速度,可能不确定。
- 例如,游戏中的处理时间窗口可能不包含用户在隧道中无法活动的时间。
- **事件时间**:
- 指事件实际发生的时间。
- 结果确定,独立于处理速度。
- 例如,游戏中的事件时间窗口会准确奖励用户在1分钟内完成目标。
### 2. 水印的作用
- **水印定义**:
- 水印是全局进度指标,表示系统确认事件时间已进展到某一时间点,不会再有延迟事件到来。
- 它是系统的逻辑时钟,帮助系统了解当前事件时间。
- **水印类型**:
- **输入水印**:反映上游阶段的进度,等于所有上游任务输出水印的最小值。
- **输出水印**:反映当前阶段的进度,等于输入水印和非延迟数据事件时间的最小值。
- **水印传播**:
- 水印通过数据流边缘流动,由源生成或由应用分配。
- 例如,在Flink中,水印可以帮助系统了解事件时间进展。
### 3. 总结
- 时间概念是数据流处理的核心,其中事件时间和处理时间的区别直接影响结果的确定性。
- 水印作为全局进度指标,在数据流处理中起到关键作用,帮助系统逻辑时钟运行并确保数据处理的完整性。
---
以上为文档内容的核心要点,逻辑清晰且重点突出。 |
P1
P2
P3
P4
P5
P6
P7
下载文档到本地,方便使用
- 可预览页数已用完,剩余
15 页请下载阅读 -
文档评分