【05 计算平台 蓉荣】Flink 批处理及其应⽤
0 码力 | 12 页 | 1.44 MB | 2 年前文档介绍了Apache Flink作为一个分布式大数据处理引擎,能够处理有限和无限数据流,并支持有状态计算。Flink适用于各种集群环境和数据规模,具有高吞吐和低延时的特点。文档还探讨了Flink在数仓和数据湖中的应用,强调了存储计算分离架构的优势,并提到了阿里云实时计算产品的商业化方向和社区生态。
Apache Flink的过去、现在和未来
0 码力 | 33 页 | 3.36 MB | 2 年前文档详细介绍了Apache Flink的发展历程,从2014年的起源到当前的架构变化,再到未来的发展规划。过去部分回顾了Flink的起源及其在流处理和批处理领域的演变。现在部分重点介绍了Flink 1.9版本的架构,包括DataStream API、Table API、SQL、DataSet API以及分布式流数据处理的实现。未来部分展望了Flink在集群扩展、性能优化、实时计算能力等方面的提升,并提到了社区支持和项目发展的重要性。
PyFlink 1.15 Documentation
0 码力 | 36 页 | 266.77 KB | 2 年前文档主要介绍了PyFlink 1.15的安装、配置和使用方法。内容涵盖了PyFlink的安装依赖、环境设置、DataStream和Table API的基本使用,以及在YARN集群上的部署方式。文档还提供了常见问题的解答,包括Scala依赖处理、Java gateway进程退出问题的排查,以及DataStream执行环境的创建和配置。通过示例代码和命令行操作,用户可以快速上手PyFlink的开发和部署。
PyFlink 1.16 Documentation
0 码力 | 36 页 | 266.80 KB | 2 年前文档提供了PyFlink 1.16的官方文档,涵盖了安装指南、FAQ、DataStream API、Table API的使用方法,以及如何在YARN集群上提交PyFlink作业。文档详细介绍了PyFlink的安装步骤、常见问题解答、DataStream和Table API的核心概念,包括环境配置和作业提交的最佳实践。
High-availability, recovery semantics, and guarantees - CS 591 K1: Data Stream Processing and Analytics Spring 2020
0 码力 | 49 页 | 2.08 MB | 2 年前文档讨论了分布式流处理中的高可用性和容错机制,重点介绍了恢复语义的类型及其对系统正确性的保证。此外,还详细讲解了Exactly-once处理在Apache Beam和Google Cloud Dataflow中的实现,强调了这些技术在确保数据流处理系统可靠性和正确性方面的重要性。
Notions of time and progress - CS 591 K1: Data Stream Processing and Analytics Spring 2020
0 码力 | 22 页 | 2.22 MB | 2 年前文档讨论了数据流处理中的时间概念,包括处理时间(Processing time)和事件时间(Event time)的区别。处理时间依赖于本地时钟,结果不确定;事件时间基于实际事件发生的时间,结果独立于处理速度。文档还介绍了水标(Watermarks)的概念,水标用于跟踪流进度(Stream progress),表示系统中事件时间的进展状态。水标通过数据流传播,帮助系统了解当前事件时间,确保处理逻辑的正确性和高效性。
Skew mitigation - CS 591 K1: Data Stream Processing and Analytics Spring 2020
0 码力 | 31 页 | 1.47 MB | 2 年前文档讨论了数据流处理中的斜率缓解(Skew Mitigation)问题,重点介绍了分区键(Partitioning)和负载均衡(Load Balancing)的实现方法。文档指出,热门键(Heavy Hitters)会导致计算不平衡,提出了使用混合分区函数(Hybrid Partitioning)来区分正常键和热门键的处理方式。此外,文档还介绍了用于检测热门键的Lossy Counting算法,该算法能够有效识别频率高于设定阈值的元素,从而帮助实现负载均衡。
Stream ingestion and pub/sub systems - CS 591 K1: Data Stream Processing and Analytics Spring 2020
0 码力 | 33 页 | 700.14 KB | 2 年前文档讨论了流数据处理和发布/订阅系统的相关主题。内容涵盖了流处理系统的数据来源,包括文件、套接字、物联网设备、数据库和消息队列等。重点介绍了Pub/Sub模型与其他消息传递范式的对比,强调了Pub/Sub在空间、时间和同步解耦方面的优势。此外,文档还详细讲解了Pub/Sub的实现机制,包括主题、事件分组、内容过滤以及Google Cloud Pub/Sub的具体实现方式。
Stream processing fundamentals - CS 591 K1: Data Stream Processing and Analytics Spring 2020
0 码力 | 45 页 | 1.22 MB | 2 年前文档介绍了流处理的基础知识,包括流处理的概念、模型、应用和使用案例。讨论了关系流模型和数据流模型的区别,并探讨了流处理的挑战,如内存限制和增量计算。文档还提到了使用摘要技术来应对高数据速率和实时处理的需求。
Cardinality and frequency estimation - CS 591 K1: Data Stream Processing and Analytics Spring 2020
0 码力 | 69 页 | 630.01 KB | 2 年前文档主要介绍了基数和频率估计的方法,特别是使用哈希函数将元素分配到多个子流中,并通过计数器统计每个子流的访问次数。这种方法适用于实时处理大量数据流,如检测DNS DDoS攻击和计算trending topics。文档还讨论了空间复杂度和计数器设计,确保在处理大基数时的效率和准确性。
共 26 条
- 1
- 2
- 3













