Flow control and load shedding - CS 591 K1: Data Stream Processing and Analytics Spring 2020
2.42 MB
43 页
0 评论
语言 | 格式 | 评分 |
---|---|---|
英语 | .pdf | 3 |
摘要 | ||
??? Vasiliki Kalavri | Boston University 2020 CS 591 K1: Data Stream Processing and Analytics Vasiliki (Vasia) Kalavri
vkalavri@bu.edu Spring 2020 4/09: Flow control and load shedding ??? Vasiliki Kalavri | Boston University 2020 Keeping up wit | ||
AI总结 | ||
以下是文档内容的中文总结,语言简洁明了,重点突出核心观点和关键信息:
---
### Flow Control and Load Shedding in Data Stream Processing
#### 1. 背景与问题
- 数据流处理系统中,生产者的事件生成速率可能高于消费者处理速率,导致队列占用过多内存或系统超负荷。
- 需要通过流控制和负载削减等方法应对过载问题。
#### 2. 流控制与负载削减
- **流控制**:通过阻塞生产者或减慢数据流来管理数据传输,避免系统过载。例如,信用-Based流量控制机制(Apache Flink采用)。
- **负载削减**:在系统超负荷时有选择性地丢弃部分数据, tmporarily Sacrifice Result accuracy 以换取性能 Sustainability。
- **Elasticity**:通过动态调整资源分配来应对负载变化,既解决过载问题,又避免资源闲置。
#### 3. 负载削减的实现
- 负载削减通常通过独立组件实现,与流处理器集成。
- 组件监控输入速率和系统指标,检测超负荷并采取行动以维持延迟和结果质量。
- 关键问题是“何时削减负载?”和“削减哪些数据?”,以避免不必要的结果退化。
#### 4. 超负荷检测
- 负载削减组件依赖运行时统计信息(如选择性和处理成本)。
- 统计管理模块监控处理速率和输入速率,并估算操作符的选择性。
#### 5. 信用-Based流量控制
- 发送方根据接收方的缓冲区可用性调整数据发送速率。
- 当接收方缓冲区 Credit降至零(或阈值),会触发Back-pressure,减缓发送速率。
#### 6. 应用案例
- 在处理超负荷数据流时,负载削减适用于对延迟敏感且可容忍 approximate results 的应用。
- 流控制适用于短暂的负载激增,系统会将过量数据缓冲以待处理。
---
以上总结涵盖了文档的核心内容,包括流控制和负载削减的概念、实现方法、检测机制和关键技术,以及应用场景等。 |
P1
P2
P3
P4
P5
P6
P7
下载文档到本地,方便使用
- 可预览页数已用完,剩余
36 页请下载阅读 -
文档评分