-
School 2019
## Apache
Flink
Based on https://training.ververica.com
Maximilian Michels
Software Engineer / Consultant
Committer @ Apache Beam / Apache Flink
Dr Paris Carbone Flink
@stadtlegende
@SenorCarbone
## Contents
• DataSet API
• DataStream API
• Concepts
• Set up an environment to develop
Flink programs
• Implement Implement streaming data processing pipelines
•
Flink managed state
• Event time
## Streaming in Apache
Flink
• Streams are natural
• Events of any type like sensors, click streams, logs
• Batch processing
0 码力 |
45 页 |
3.00 MB
| 2 年前 3
-
## Scalable Stream Processing - Spark Streaming and Flink
Amir H. Payberah
payberah@kth.se
05/10/2018
https://id2221kth.github.io
## Data Processing
Graph Data
Pregel, GraphLab, PowerGraph GraphX Spark SQL
Machine Learning
Mliib
Tensorflow
Streaming Data
Storm, SEEP, Naiad, Spark Streaming, Flink, Millwheel, Google Dataflow
## Distributed File Systems
## Data Storage
GFS, Flat FS
NoSQL Databases Continuous vs. micro-batch processing
Record-at-a-Time vs. declarative APIs
▶ Spark streaming
▶ Flink
## Spark Streaming
## ▶ Design issues
• Continuous vs. micro-batch processing
• Record-at-a-Time
0 码力 |
113 页 |
1.22 MB
| 2 年前 3
-
# 监控Apache Flink应用程序(入门)
caolei
Exported on 01/10/2020
## Table of Contents
1 Flink指标体系 ..... 5
1.1 Metrics ..... 5
1.2 MetricsReporters ..... 5
2 健康状况 ..... 6
3 监控 ..... 7
3.1 关键指标 ..... com/blog/monitoring-apache-flink-applications-101
这篇博文介绍了Apache Flink内置的监控和度量系统,通过该系统,开发人员可以有效地监控他们的Flink作业。通常,对于一个刚刚开始使用Apache Flink进行流处理的DevOps团队来说,选择对应的指标来监控Flink应用程序是非常艰巨的。在与许多大规模部署过Apache Flink的组织合作之后,我想与社区的朋友们分享下我的经验及一些最佳实践。 随着越来越多的核心业务应用程序运行在Apache Flink上,性能监控在成功的生产环境部署中变得非常重要。它确保何故障或停机时间都可以被立即识别并尽快得到解决。
监控与观察相结合是故障诊断和性能调优的先决条件。如今,随着现代企业应用程序的复杂性和交付速度的加快,工程团队必须理解并在任何给定的时间点上对其应用程序的状态有一个完整的认识和概述。
## 1 Flink指标体系
Flink作业监控的基础是它的度量系统,该系统由两个部分组成:
0 码力 |
23 页 |
148.62 KB
| 2 年前 3
-
## 阿里云
## Apache Flink的过去、现在和未来
杨克特(鲁尼)
阿里巴巴高级技术专家
## 过去
## 一 切从2014年开始

StratoSphere
Above the Clouds

2009 - 2014
2014
• 柏林工业大学博士生项目
- 基于流式 runtime 的批处理引擎
• 2014 年 8 月份 发布 Flink 0.6.0
## 阿里云 2019阿里云峰会·上海开发者大会
Flink 0.7
## 2014 年 12 月份 发布 – 开始正式支持 DataStream
DataStream API
Stream Processing 8d2791cad3421/p4_1.jpg)
DataSet API
Batch Processing
Runtime
Distributed Streaming Dataflow
Flink 0.9
## 2015 年 6 月份 发布 – 开始内置支持 State

低延时
#### Hive vs. Spark vs. Flink Batch
||Hive/Hadoop|Spark|Flink|
|---|---|---|---|
|模型|MR|MR(Memory/Disk)|Pipeline|
|吞吐|TB-PB|TB-PB|未经大规模生产验证|
| |易用性|一般|易用|一般|
|工具/生态|一般|丰富|一般|
## Flink Batch应用 - 数据湖
### Data Lake vs. Data Warehouse

## Flink Batch应用 – 数据湖

Practices of integrating RocketMQ with Flink

The trend of RocketMQ
## Apache RocketMQ streaming ecosystem projects
• RocketMQ-Flink: https://github.com/apache/rocketmq-externals/tree/master/rocketmq-flink
• RocketMQ-Spark: https://github.com/apache/rocketmq-extern
0 码力 |
30 页 |
24.22 MB
| 2 年前 3
-
## Flink如何实时分析Iceberg数据湖的CDC数据
阿里巴巴 李劲松/胡争
FLINK FORWARD #ASIA 2020
#1
#2
#3
#4
常见的CDC
为何选择 Flink
如何实时写
未来规划
分析方案
+ Iceberg
入读取
FLINK FORWARD #ASIA 2020
## #1 常见的CDC分析方案
## 离线 HBase 集群分析 CDC 2、HBase集群维护成本较高。
3、通过RegionServer定位HFile,Server的优化和缓存完全用不上。
4、数据格式绑定HFile,不方便拓展到Parquet、Avro、Orc等。
FLINK FORWARD #ASIA 2020
## Apache Kudu 维护 CDC 数据集
## MySQL
## 方案评估
优点
1、支持实时更新数据,时效性佳。
2、列存加速,适合OLAP分析。
4、不支持增量拉取。
FLINK FORWARD #ASIA 2020
## MySQL → GQOOP → HVE
## 方案评估
优点
1、流程能工作
2、Hive存量数据不受增量数据影响。
## 缺点
1、数据不是实时写入;
2、每次数据导致都要 MERGE 存量数据。T+1 方式更新,时效性差。
3、不支持实时upsert。
FLINK FORWARD #ASIA 2020
0 码力 |
36 页 |
781.69 KB
| 2 年前 3
-
and Analytics Spring 2020
## 1 /30: Introduction to Apache Flink and Apache Kafka
Vasiliki (Vasia) Kalavri
vkalavri@bu.edu
## Apache Flink
• An open-source, distributed data analysis framework
• True
Data Set
Operator
Data Set
Sink
Source
Data Stream
Operator
Data Stream
Sink
Writing a Flink Program
1. Bootstrap Sources
2. Apply Operators
3. Output to Sinks
## Streaming word count
textStream keyBy(0)
.sum(1)
.print()
(live,1)
(and,1)
(let,1)
(live,2)
## Distributed architecture
TaskManager
Flink program
web
dashboard
TaskManager
client
JobManager
TaskManager
## DataStream API Basics
##
0 码力 |
26 页 |
3.33 MB
| 2 年前 3
-
Data Stream Processing and Analytics Spring 2020
## 3 /24: Exactly-once fault-tolerance in Apache Flink
Vasiliki (Vasia) Kalavri
vkalavri@bu.edu
Go read his PhD thesis:
http://kth.diva-portal.org/sm nts/0/a/a/4/0aa43070543cf30310bdd99235d1d629/p59_1.jpg)
## Asynchronous checkpoints in Apache Flink

• A source of increasing consistency (in Apache Flink) can be achieved only if all streaming sources are re-settable

- Flink checkpoints are initiated
0 码力 |
81 页 |
13.18 MB
| 2 年前 3
-
Side Extensions
## Connectors
• Connectors
Connectors for Spark SQL Query Engine
Connectors For
Flink SQL Query Engine
Connectors for Hive SQL Query Engine
Connectors For Trino SQL Engine
## Kyuubi tarball.
| Flink | Distributed SQL Engine | Optional | 1.14.0 and above | By default Kyuubi binary release is delivered without a Flink tarball. |
Flink/Trino compatible systems or plugins, you only need to take care of them as using them with regular Spark/Flink/Trino applications. For example, you can run Spark/Flink/Trino SQL engines 0 码力 |
401 页 |
5.42 MB
| 2 年前 3
|