搜索

排序方式
22 个文档
  • pdf 文档 PyFlink 1.15 Documentation

    0 码力 | 36 页 | 266.77 KB | 2 年前
    3
    文档主要介绍了PyFlink 1.15的安装、配置和使用方法。内容涵盖了PyFlink的安装依赖、环境设置、DataStream和Table API的基本使用,以及在YARN集群上的部署方式。文档还提供了常见问题的解答,包括Scala依赖处理、Java gateway进程退出问题的排查,以及DataStream执行环境的创建和配置。通过示例代码和命令行操作,用户可以快速上手PyFlink的开发和部署。
  • pdf 文档 PyFlink 1.16 Documentation

    0 码力 | 36 页 | 266.80 KB | 2 年前
    3
    文档提供了PyFlink 1.16的官方文档,涵盖了安装指南、FAQ、DataStream API、Table API的使用方法,以及如何在YARN集群上提交PyFlink作业。文档详细介绍了PyFlink的安装步骤、常见问题解答、DataStream和Table API的核心概念,包括环境配置和作业提交的最佳实践。
  • pdf 文档 High-availability, recovery semantics, and guarantees - CS 591 K1: Data Stream Processing and Analytics Spring 2020

    0 码力 | 49 页 | 2.08 MB | 2 年前
    3
    文档讨论了分布式流处理中的高可用性和容错机制,重点介绍了恢复语义的类型及其对系统正确性的保证。此外,还详细讲解了Exactly-once处理在Apache Beam和Google Cloud Dataflow中的实现,强调了这些技术在确保数据流处理系统可靠性和正确性方面的重要性。
  • pdf 文档 Notions of time and progress - CS 591 K1: Data Stream Processing and Analytics Spring 2020

    0 码力 | 22 页 | 2.22 MB | 2 年前
    3
    文档讨论了数据流处理中的时间概念,包括处理时间(Processing time)和事件时间(Event time)的区别。处理时间依赖于本地时钟,结果不确定;事件时间基于实际事件发生的时间,结果独立于处理速度。文档还介绍了水标(Watermarks)的概念,水标用于跟踪流进度(Stream progress),表示系统中事件时间的进展状态。水标通过数据流传播,帮助系统了解当前事件时间,确保处理逻辑的正确性和高效性。
  • pdf 文档 Skew mitigation - CS 591 K1: Data Stream Processing and Analytics Spring 2020

    0 码力 | 31 页 | 1.47 MB | 2 年前
    3
    文档讨论了数据流处理中的斜率缓解(Skew Mitigation)问题,重点介绍了分区键(Partitioning)和负载均衡(Load Balancing)的实现方法。文档指出,热门键(Heavy Hitters)会导致计算不平衡,提出了使用混合分区函数(Hybrid Partitioning)来区分正常键和热门键的处理方式。此外,文档还介绍了用于检测热门键的Lossy Counting算法,该算法能够有效识别频率高于设定阈值的元素,从而帮助实现负载均衡。
  • pdf 文档 Stream ingestion and pub/sub systems - CS 591 K1: Data Stream Processing and Analytics Spring 2020

    0 码力 | 33 页 | 700.14 KB | 2 年前
    3
    文档讨论了流数据处理和发布/订阅系统的相关主题。内容涵盖了流处理系统的数据来源,包括文件、套接字、物联网设备、数据库和消息队列等。重点介绍了Pub/Sub模型与其他消息传递范式的对比,强调了Pub/Sub在空间、时间和同步解耦方面的优势。此外,文档还详细讲解了Pub/Sub的实现机制,包括主题、事件分组、内容过滤以及Google Cloud Pub/Sub的具体实现方式。
  • pdf 文档 Stream processing fundamentals - CS 591 K1: Data Stream Processing and Analytics Spring 2020

    0 码力 | 45 页 | 1.22 MB | 2 年前
    3
    文档介绍了流处理的基础知识,包括流处理的概念、模型、应用和使用案例。讨论了关系流模型和数据流模型的区别,并探讨了流处理的挑战,如内存限制和增量计算。文档还提到了使用摘要技术来应对高数据速率和实时处理的需求。
  • pdf 文档 Cardinality and frequency estimation - CS 591 K1: Data Stream Processing and Analytics Spring 2020

    0 码力 | 69 页 | 630.01 KB | 2 年前
    3
    文档主要介绍了基数和频率估计的方法,特别是使用哈希函数将元素分配到多个子流中,并通过计数器统计每个子流的访问次数。这种方法适用于实时处理大量数据流,如检测DNS DDoS攻击和计算trending topics。文档还讨论了空间复杂度和计数器设计,确保在处理大基数时的效率和准确性。
  • pdf 文档 Flow control and load shedding - CS 591 K1: Data Stream Processing and Analytics Spring 2020

    0 码力 | 43 页 | 2.42 MB | 2 年前
    3
    文档主要讨论了数据流处理中的流控制和负载均衡技术,重点介绍了几种负载管理方法。流控制通过信用机制实现,系统通过发送信用消息通知发送方自身缓冲区的可用容量。当接收方的信用降至零或特定阈值时,会产生回压。负载均衡技术包括负载削减、回压和弹性扩展。负载削减适用于处理严格延迟约束的应用,通过暂时降低结果准确性来维持系统性能。回压机制用于限制数据流,防止系统过载。弹性扩展则根据负载变化动态调整资源分配,确保资源高效利用。文档还提到选择性丢弃记录的方法,包括窗口感知负载削减和基于概念的负载削减,并讨论了何时、何处以及如何进行负载削减。
  • pdf 文档 Graph streaming algorithms - CS 591 K1: Data Stream Processing and Analytics Spring 2020

    0 码力 | 72 页 | 7.77 MB | 2 年前
    3
    文档讨论了图流处理算法,重点介绍了图流的建模方法,包括边事件和顶点事件的定义。文档还比较了批量图处理系统与图流处理系统的区别,提出了在动态图环境中处理流数据的挑战,如如何高效处理每条新增边以及是否需要从头开始重新计算。最后,文档提到了一些进一步阅读的资源,涉及图流算法和分布式图处理。
共 22 条
  • 1
  • 2
  • 3
前往