搜索

pdf文档 Graph streaming algorithms - CS 591 K1: Data Stream Processing and Analytics Spring 2020

7.77 MB 72 页 0 下载 158 浏览 0 评论 0 收藏
语言 格式 评分
英语
.pdf
3
摘要
文档讨论了图流处理算法,重点介绍了图流的建模方法,包括边事件和顶点事件的定义。文档还比较了批量图处理系统与图流处理系统的区别,提出了在动态图环境中处理流数据的挑战,如如何高效处理每条新增边以及是否需要从头开始重新计算。最后,文档提到了一些进一步阅读的资源,涉及图流算法和分布式图处理。
AI总结
### 图流处理(Graph Streaming)总结 #### 1. 图流处理的背景与意义 - **图流建模**:将现实世界中的交互关系建模为动态更新的图结构,例如社交网络、交通网络、电影-演员网络和万维网。 - **挑战**:如何在图数据以流的形式不断生成的情况下,高效地运行图算法?如何在流数据处理引擎中实现迭代计算和水印传播?是否需要为每个新边重新运行计算,还是可以通过图摘要和一-pass计算来实现图分析? #### 2. 图流的定义与模型 - **边事件**:表示图中边的添加或删除操作,例如购买、评分、点赞、比特币交易等。 - **顶点事件**:表示顶点的创建或删除,例如新用户或新产品的出现。 - **图流模型**:图流可以看作是一系列边事件的序列,这些事件不断更新图的结构。 #### 3. 批处理图系统的局限性 - 批处理图系统(如Apache Graph、GraphX、Pregel)离线处理静态图快照,无法应对实时动态图的处理需求。 #### 4. 图流处理的挑战 - **动态性**:图的结构在不断变化,如何高效维护图的状态? - **大规模数据**:如何在内存受限的条件下处理海量数据? - **动态性与稀疏性**:如何应对图的结构和边的稀疏性? - **计算延迟**:如何协调迭代计算与数据到达的时序? - **结果准确性**:如何在流数据环境下保证图分析结果的实时性和准确性? #### 5. 图流处理的关键问题 - 是否需要为每个新边重新运行整个图算法? - 是否可以通过图摘要(synopses)和一-pass计算来实现高效的图分析? #### 6. 进一步阅读 - **推荐文献**: - McGregor, Andrew. *Graph stream algorithms: a survey.* ACM SIGMOD Record 43.1 (2014). - Stanton, Isabelle, and Gabriel Kliot. *Streaming graph partitioning for large distributed graphs.* ACM SIGKDD, 2012. - Stefani, Lorenzo De, et al. *Triest: Counting local and global triangles in fully dynamic streams with fixed memory size.* TKDD 2017. --- ### 总结 图流处理是一种应对动态图数据的实时分析技术,核心在于如何高效处理不断变化的图结构,并在资源受限的条件下完成复杂的图算法。其关键挑战包括动态性、大规模数据处理、计算延迟与结果准确性等问题。通过图摘要和一-pass计算等方法,可以实现更高效的图流分析。
P1
P2
P3
P4
P5
P6
P7
下载文档到本地,方便使用
- 可预览页数已用完,剩余 65 页请下载阅读 -
文档评分
请文明评论,理性发言.