海量数据 - IT文库_程序员IT互联网编程电子书和文档免费下载，助您码力十足！

ClickHouse在B站海量数据场景的落地实践

## ClickHouse在B站海量数据场景的落地实践胡甫旺哔哩哔哩OLAP平台 ![Image](/uploads/documents/9/0/4/5/90450d8d637a7624f7a2038fdd8a63b7/p1_1.jpg) ## 目录 ClickHouse在B站内核日志用户行为数据分析 Future Work Q&A ![Image 50d8d637a7624f7a2038fdd8a63b7/p3_2.jpg) ## bilibili ## B站ClickHouse应用概况近400个节点，30个集群日均1.5+万亿条数据摄入日均800+万次Select请求 ✿ 应用场景包括（不限于）： ➢ 日志&Trace分析 ➢ 用户行为分析（包括事件分析，漏斗分析，路径分析等） ➢ 圈人定投 ➢ 广告DMP（包括统计分析，人群预估） ClickHouse as Service ☑ Berserker数据源管理：建表修改表元数据 ➢ 表元数据管理 ## Yuuni: ➢ 屏蔽集群信息 ➢ 原生JDBC，HTTP接口 ➢ 读写分离 ➢ 动态查询缓存 ➢ 流量控制 ✿ 监控管理平台：统计大盘回归测试 ➢ 接入评估数据迁移 ➢ 数据重平衡 ![Image](/uploads/docu

0 码力 | 26 页 | 2.15 MB | 2 年前
3
1.3.3 基于Go构建海量作业作业平台

GO CN 基于Go构建海量作业作业平台袁帅 villager bilibili/基础架构部/SRE/平台工程组/资深开发工程师作业平台简介 01 作业平台的挑战 02 B站作业平台Job的介绍 03 Job设计实现：Agent/Worker 作业执行和上报 04 Job设计实现：Scheduler 作业调度 05 Job设计实现：ApiServer 鉴权+数据处理 06 Job设计实现：其他技术难点和细节系统集成：作业平台需要集成多个系统和工具，这些系统可能来自不同的操作系统或供应商自动化作业编排开发：运维作业平台的核心是自动化编排作业安全性：运维作业平台需要处理敏感数据和关键操作，平台需要采用安全的认证和授权机制性能优化：运维作业平台需要处理大量的数据和任务，因此需要具备高性能和可伸缩性故障排除：平台需要具备完善的故障排除机制和技术支持，以快速定位和解决问题用户体验：运维作业平台需要提供友好 Agent/SSH双模式混合架构相对独立的Agent，大大解决了机房内海量运维作业并发执行的场景 2018 基于SSH模式的架构基于SSH模式的架构，解决某站机房内作业问题，但随之业务增长SSH并发执行的弊端也显露出来 B站早期实现了一套基于SSH模式提供了一个跨云调度的作业平台。随着业务的扩展，每日百万级别的作业量级，海量作业并发效率，编排化的流式作业，我们早期的架构在性能、稳定性和可观测性等方面都无法支撑

0 码力 | 34 页 | 4.48 MB | 3 月前
3
海量用户推送后台系统架构实践-曾振波

自我介绍 ## 极光推送后台开发工程师多年互联网开发经验，专注后台开发技术。2016年加入极光，负责极光推送平台架构设计及开发，主导包括K8S在内的技术架构实施落地，推动系统架构的演进，构造支撑海量用户的推送系统，对大规模分布式系统架构及设计有深入的理解。 ## 目录 - 极光推送服务架构 - 关于极光 - 消息推送系统面临的挑战 - 极光推送相关架构 - 极光推送后台系统架构 % APP 移动终端月独立活跃设备覆盖率 ## 消息推送系统面临的挑战 ☐ 亿级长连接用户品 SDK多版本并存 DM 消息实时性触达率要求 ## 国海量用户数据存储移动网络环境复杂性 ## 极光推送服务架构 API 用户筛选用户分发推送通道系统通道共享通道极光通道短信通道 ## 极光推送后台系统架构 iOS SDK Android 功能按照业务拆分解耦 • 数据和业务分离 - 快速迭代 Segment OnlineMsg StatCenter - 模块间通过MQ/RPC交互 Conn # 极光推送后台系统架构 ## 02 异步化 - 充分利用资源，减少请求等待时间，提升系统吞吐量 - 消息化请求 • MQ - RabbitMQ, RocketMQ • 模块间解耦 IDC数据同步 • 异步RPC •

0 码力 | 23 页 | 1.26 MB | 2 年前
3
2.1.2 Go如何帮滴滴支撑海量运维场景

Go如何帮滴滴支撑海量运维场景秦晓辉 ’ alt=‘OCR图片’/> 秦晓辉 18612185520，qinxiaohui@didiglobal.com 先后履职于百度、小米、金山云，开源互联网监控解决方案 Open-Falcon主程，Nightingale开源发起人之一，现在滴滴负责产业云技术中心，推动滴滴中后台能力商业化输出 ’ alt=‘OCR图片’/> 大纲海量运维问题域是什么样的构筑了什么样的运维平台体系如何开始体系化平台的构建 ’ alt=‘OCR图片’/> 海量运维问题域是什么样的海量运维问题域典型特点大量不同语言的服务大规模机器异地多个机房有物理机虚拟机容器多种运行环境网络分区多样各类开源中间件各类自研工具各种安全要求大量不同厂商的硬件大量过保更迭对接的人多角色分工细海量运维问题域典型问题统一服务治理困难机器环境各异网络抖动带宽争抢不同的运行环境如何提供统一的使用体验不同的运行环境如何提供统一的使用体验各种网络分区隔离各类中间件、自研平台均需构建运维体系完备的权限审计诉求每天都有各种硬件故障每天各种人追着你答疑提需求海量运维问题域典型解法在流量转发层做文章统一机器初始化、整包或镜像部署、静态编译页面和流程层面统一，底层驱动式设计网络分区代理、防火墙友好设计运维体系是平台核心+扩展共建的思路统一权限、统一日志、统一审计让业务能漂起来不依赖底层硬件

0 码力 | 30 页 | 4.80 MB | 3 月前
3
数据迁移

## 数据迁移 ## 存量 MySQL 迁移到 TiDB 服务 UDTS 产品支持 MySQL(5.5/5.6/5.7/8.0) 到 TiDB 的全量数据迁移，及增量数据同步。可协助用户在不停机的情况下轻松将业务从 MySQL 切换至 TiDB。 ## 自建 TiDB 迁移到 TiDB 服务 UDTS 产品支持 TiDB 全量数据迁移至 TiDB 服务。用户在源 TiDB 开启 Pump, Drainer 可进行数据增量同步。UDTS 与源端 Pump, Drainer 一起可协助用户在不停机的情况下轻松将业务从自建 TiDB 切换至 TiDB 服务。 ## 为 TiDB 服务建立 MySQL 从库 UDTS 产品支持 TiDB 全量数据迁移至 MySQL 数据库。用户在 TiDB 服务上开启 Binlog 可将数据增量同步至下游 MySQL。UDTS 与 TiDB Binlog Binlog 服务一起可协助用户轻松建立 MySQL 从库。 ## 为 TiDB 服务建立 TiDB 从库 UDTS 产品支持 TiDB 全量数据迁移至 TiDB 数据库。用户在源 TiDB 服务上开启 Binlog 可将数据增量同步至下游 TiDB。UDTS 与 TiDB Binlog 服务一起可协助用户轻松建立 TiDB 从库。

0 码力 | 2 页 | 42.01 KB | 1 年前
3

SQLite 数据转 Mysql

# SQLite 数据转 Mysql #### I nsMsgServer 3.7.6 ## 当前 InHgServer 环境以下过程在 win7 sp1 x64 系统下完成, 如果您的系统不能运行以下相关程序, 请将服务器的 db/ 目录下的 IMBase.dat 文件复制到 win7 sp1 x64 系统下完成 ![Image](/uploads/documents/8/3/a/e/ p1_2.jpg) ## 利用 InHgServer 生成 Mysql 数据库确保 mysql 数据库中没有 IM 相关库 ![Image](/uploads/documents/8/3/a/e/83ae2e54cc4ee64710cafd653e8413de/p2_1.jpg) 调整使用 Mysql 作为数据库，并点击启动 ![Image](/uploads/documents /8/3/a/e/83ae2e54cc4ee64710cafd653e8413de/p2_2.jpg) 确认启动后数据库正确建立

InsMsgServer Start(2017-12-17 05:59:25)
General	Data	Network 0 码力 \| 17 页 \| 1.40 MB \| 2 年前 3 Flink如何实时分析Iceberg数据湖的CDC数据 Flink如何实时分析Iceberg数据湖的CDC数据阿里巴巴李劲松/胡争 FLINK FORWARD #ASIA 2020 #1 #2 #3 #4 常见的CDC 为何选择 Flink 如何实时写未来规划分析方案 + Iceberg 入读取 FLINK FORWARD #ASIA 2020 ## #1 常见的CDC分析方案 ## 离线 HBase 集群分析 CDC 数据 ↓ ## MySQL 3、通过RegionServer定位HFile，Server的优化和缓存完全用不上。 4、数据格式绑定HFile，不方便拓展到Parquet、Avro、Orc等。 FLINK FORWARD #ASIA 2020 ## Apache Kudu 维护 CDC 数据集 ## MySQL ## 方案评估优点 1、支持实时更新数据，时效性佳。 2、列存加速，适合OLAP分析。 ## 缺点 1、独立的Kudu集群，比较小众。维护成本高。等割裂。数据独立，且存储成本不如 S3 / OSS。 3、Kudu的批量扫描不如parquet。 4、不支持增量拉取。 FLINK FORWARD #ASIA 2020 ## MySQL → GQOOP → HVE ## 方案评估优点 1、流程能工作 2、Hive存量数据不受增量数据影响。 ## 缺点 1、数据不是实时写入； 2、每次数据导致都要 MERGE 存量数据。T+1 0 码力 \| 36 页 \| 781.69 KB \| 2 年前 3 大数据集成与Hadoop - IBM 大数据集成与 Hadoop 可最大限度降低Hadoop计划风险并提高ROI的最佳实践 ![Image](/uploads/documents/6/0/d/1/60d1a1fc09146b40702b2ad5e7fd30d7/p1_1.jpg) IBM $ ^{®} $ ## 简介 Apache Hadoop技术通过支持新的流程和架构，不断改进大数据措施的经济性和活力，这样不仅有助于削减开源软件项目，支持在多个商业服务器群集间分散处理和存储大型数据集，并可根据需求变化从单一服务器扩展到数以千计的服务器。主要的Hadoop组件包括Hadoop Distributed File System（用于存储大型文件）和Hadoop分布式并行处理框架（称为MapReduce）。但是，Hadoop基础架构本身并没有提供完整的大数据集成解决方案，摆在人们面前的既有挑战，也有机遇，只有处理好这。 ## 大数据集成对于Hadoop措施的重要性 Hadoop的迅速崛起推动企业在如何抽取、管理、转换、存储和分析大数据方面实现了范式转变。无论是要更深入的分析，还是希望获得更出色的洞察、新产品、新服务以及更高的服务水平，都可以通过这项技术一一实现，从而大幅降低成本并创造新的收入。依靠收集、移动、转换、清除、集成、治理、探索以及分析多种不同来源的大量不同类型的数据来实现大数据与Hadoop 0 码力 \| 16 页 \| 1.23 MB \| 2 年前 3 Curve元数据节点高可用 Curve元数据节点高可用 • 1. 需求 • 2. 技术选型 • 3. etcd clientv3的concurrency介绍 • 3.1 etcd clientV3的concurrency模块构成 • 3.2 Campaign的流程 • 3.2.1 代码流程说明 • 3.2.2 举例说明Campagin流程 • 3.3 Observe的流程 4. MDS使用election模块的功能进行选主区 4.2.5.1 事件一先发生 4.2.5.2 事件二先发生 4.2.6 异常情况4：Etcd集群的follower节点异常 4.2.7 各情况汇总 ### 1. 需求 mds是元数据节点，负责空间分配，集群状态监控，集群节点间的资源均衡等，mds故障可能会导致client端无法写入。因此，mds需要做高可用。满足多个mds，但同时只有一个mds节点提供服务，称该提供服务的m 熟知的就是zookeeper和etcd，考虑当前系统中mds有两个外部依赖模块，一是mysql，用于存储集群拓扑的相关信息；二是etcd，用于存储文件的元数据信息。而etcd可以用于实现mds高可用，没必要引入其他组件。使用etcd实现元数据节点的leader主要依赖于它的两个核心机制：TTL和CAS。TTL(time to live)指的是给一个key设置一个有效期，到期后key会被自 0 码力 \| 30 页 \| 2.42 MB \| 1 年前 3 Greenplum 新一代数据管理和数据分析解决方案 ## Greenplum ## 新一代数据管理和数据分析解决方案 ## 关于Greenplum公司 ![Image](/uploads/documents/9/8/b/3/98b3d2ca5ab52d44cfe0bd9d7d1dfbef/p2_1.jpg) ## Greenplum ![Image](/uploads/documents/9/8/b/3/98b3d2ca5ab52d44 cfe0bd9d7d1dfbef/p2_2.jpg) - Greenplum是一家数据库软件公司，在数据处理和BI/DW领域，提供容量最大、速度最快、性价比最好的数据库引擎产品和服务。 • Greenplum总部位于圣马蒂奥，加利福尼亚州，美国，成立于2003年6月。 • Greenplum 中国于2008年12月正式成立. 官方网站： www.greenplum.com www.greenplum-china ts/9/8/b/3/98b3d2ca5ab52d44cfe0bd9d7d1dfbef/p2_3.jpg) ## Greenplum: 简介 ## 推动数据依赖型企业的发展 Greenplum数据引擎软件为新一代数据仓库所需的大规模数据和复杂查询功能所设计 ## 全球各地的一些Greenplum客户 ## 亚太地区 ## 欧洲、中东、非洲 ## 北美 ![Image](/upload 0 码力 \| 45 页 \| 2.07 MB \| 2 年前 3 共 1000 条 1 2 3 4 5 6 100 前往页相关搜索词 ClickHouse B站用户行为分析海量数据 OLAP平台作业平台作业 Agent SSH Kratos 推送系统架构异步化并行化缓存化 K8S部署海量运维 Go 运维平台体系统一服务治理静态编译 UDTS 数据迁移增量同步 TiDB MySQL SQLite 数据导出 SQL Maestro 数据导入 Flink Iceberg数据湖 CDC数据增量拉取实时分析 Hadoop 大数据集成 MapReduce 数据治理数据集成平台高可用 etcd 选举机制异常情况 lease过期 Greenplum 数据引擎海量并行处理数据分析解决方案关于我们文库协议联系我们意见反馈免责声明本站文档数据由用户上传或本站整理自互联网，不以营利为目的，供所有人免费下载和学习使用。如侵犯您的权益，请联系我们进行删除。 IT文库 ©1024 - 2026 \| 站点地图 Powered By MOREDOC AI v3.5.0-beta.10

搜索

分类

语言

格式