构建基于富媒体大数据的弹性深度学习计算平台[Image](/uploads/documents/c/d/1/1/cd11ba0b707be61cb140b86841b53505/p1_1.jpg) BEIJING 2017 # 构建基于富媒体大数据的弹性深度学习计算平台 SPEAKER / 土土@七牛 AtLab ## 促进软件开发领域知识与创新的传播  + Ideea ## Connect 数据处理 数据存储 直播点播 数据加速 QINIU QCon[北京站]2017  CHICHE 0 ## 9 色情 0.01 性感 0.98 正常 0.01  ## Greenplum 分布式数据库简介 Greenplum Greenplum 是基于 PostgreSQL 所实现的大规模并行处理(MPP)开源数据平台,具有良好的弹性和线性拓展能力,内置并行存储、并行通信、并行计算和并行优化功能,兼容 SQL 标准。拥有独特的高效的 ORCA 优化器,具有强大、高效的 PB 级数据存储、处理和实时分析能力,同时支持 OLTP 型业务的混合负载。  ## Greenplum 集群化概述 数据库的组成  ## • Coordinator/Segment0 码力 | 31 页 | 3.95 MB | 2 年前3
TiDB 开源分布式关系型数据库# TiDB 开源分布式关系型数据库 TiDB PRODUCT PORTFOLIO & VERTICAL CASE STUDY   ## 自我介绍 ## 李玥 京东集团 技术架构部 架构师 负责主导设计新一代京东消息中间件系统,专注于流数据的一致性分发和可靠存储、分布式实时计算和高可用分布式系统架构等技术领域。 从事互联网研发、架构10余年,曾在浪潮集团、当当网等公司从事架构相关工作。2017年加入京东,期间提升京东商城相关系统的性能和吞吐量数倍。 目前致 能与开源。 Why 有什么用? What 如何定位?如何融入生态系统? How 如何实现?如何优化? ## 目录 ## WHY ## 为什么需要流数据存储? ## 那些年的服务 单体应用 烟筒式 SOA 微服务 ## 这些年的数据 Services ## ☐ → ☐ Data Hive ES HBase HDFS KV ## 我们的愿景 Services ## O0 码力 | 36 页 | 6.02 MB | 2 年前3
迁移学习-自定义数据集实战 ## 自定义数据集实战 主讲:龙良曲  ## Pokemon Dataset0 码力 | 16 页 | 719.15 KB | 2 年前3
Greenplum机器学习⼯具集和案例## Greenplum机器学习工具集和案例 姚延栋 Pivotal 研发技术总监 2017.thegiac.com ## 大纲 • Greenplum 大数据平台 • Greenplum 机器学习工具 • Greenplum 机器学习案例 ## Pivotal ## Greenplum: 新一代开源大数据平台 2017.thegiac.com ## Greenplum 集群 ! bf417d9e5b73bb19c9/p5_2.jpg) 2017.thegiac.com ## Greenplum 大数据平台 - 一次打包,到处运行:裸机、私有云、公有云 - 各种数据源:Hadoop、S3、数据库、文件、Spark、Kafka - 各种数据格式:结构化、半结构化(JSON/XML/Hstore)、非结构化 - 强大内核:MPP、优化器、多态存储、灵活分区、高速加载、PG内核 完善的标准支持:SQL、JDBC、ODBC - 集成数据平台:BI/DW、文本、GIS、图、图像、机器学习 • 开放源代码,持续大力投入 - 敏捷方法学:快速迭代、持续发布、质量内建 • 企业级稳定性,成熟生态系统 ## Pivotal ## Greenplum: 机器学习工具集 2017.thegiac.com ## Greenplum 机器学习工具集 PL/X:各种语言实现自定义函数(存储过程)0 码力 | 58 页 | 1.97 MB | 2 年前3
Go 构建大型开源分布式数据库技术内幕# Go 搭建大型开源分布式数据库技术内幕 shenli@PingCAP ## 关于我 • 申砾 (Shen Li) • TiDB 技术负责人 ● 网易有道 / 360搜索 / PingCAP • Infrastructure software engineer 为什么需要一个新的数据库? ## 从单机数据库到 NewSQL ● 关系型数据库 • NoSQL • 中间件 • NewSQL SQL Database 如何构建分布式数据库? ## 原则 • 分层 • Make it right and make it fast. 测试很重要 ● 简单易用 和社区结合 ## 架构  ## 数据分片 ## • Hash Based 在 Store 的分布情况 ☐ 生成 Operator 使之均衡 ## 调度的难点 ● 难以评判什么样的数据分布情况是最优解 ☐ 机器配置不同 ☐ CPU、内存、磁盘、网络多种因素相互制约 ☐ 用户场景多变 ● 调度所依赖的集群状态不一定是最新的 ● 调度本身也会带来系统负担 ## 多副本管理策略 使用多副本保证数据安全(Data safety) ● 维持数据副本数 ☐ 副本数不足:0 码力 | 44 页 | 649.68 KB | 2 年前3
Spark 简介以及与 Hadoop 的对比map reduce 算法实现的分布式计算,拥有 Hadoop MapReduce 所具有的优点;但不同于 MapReduce 的是 Job 中间输出和结果可以保存在内存中,从而不再需要读写 HDFS,因此 Spark 能更好地适用于数据挖掘与机器学习等需要迭代的 map reduce 的算法。 ### 1.2 Spark 核心概念 #### 1.2.1 弹性分布数据集(RDD) RDD 是 Spark Spark 的最基本抽象, 是对分布式内存的抽象使用, 实现了以操作本地集合的方式来操作分布式数据集的抽象实现。RDD 是 Spark 最核心的东西, 它表示已被分区, 不可变的并能够被并行操作的数据集合, 不同的数据集格式对应不同的 RDD 实现。RDD 必须是可序列化的。RDD 可以 cache 到内存中, 每次对 RDD 数据集的操作之后的结果, 都可以存放到内存中, 下一个操作可以直接从内存中输入 下一个操作可以直接从内存中输入, 省去了 MapReduce 大量的磁盘 IO 操作。这对于迭代运算比较常见的机器学习算法, 交互式数据挖掘来说, 效率提升比较大。 #### 1.2.2 RDD 的转换与操作 对于 RDD 可以有两种计算方式 :转换( 返回值还是一个 RDD )与操作( 返回值不是一个 RDD ) 1. 转换(Transformations) (如:map, filter, groupBy, join0 码力 | 3 页 | 172.14 KB | 2 年前3
数据迁移## 数据迁移 ## 存量 MySQL 迁移到 TiDB 服务 UDTS 产品支持 MySQL(5.5/5.6/5.7/8.0) 到 TiDB 的全量数据迁移,及增量数据同步。可协助用户在不停机的情况下轻松将业务从 MySQL 切换至 TiDB。 ## 自建 TiDB 迁移到 TiDB 服务 UDTS 产品支持 TiDB 全量数据迁移至 TiDB 服务。用户在源 TiDB 开启 Pump, Drainer 可进行数据增量同步。UDTS 与源端 Pump, Drainer 一起可协助用户在不停机的情况下轻松将业务从自建 TiDB 切换至 TiDB 服务。 ## 为 TiDB 服务建立 MySQL 从库 UDTS 产品支持 TiDB 全量数据迁移至 MySQL 数据库。用户在 TiDB 服务上开启 Binlog 可将数据增量同步至下游 MySQL。UDTS 与 TiDB Binlog Binlog 服务一起可协助用户轻松建立 MySQL 从库。 ## 为 TiDB 服务建立 TiDB 从库 UDTS 产品支持 TiDB 全量数据迁移至 TiDB 数据库。用户在源 TiDB 服务上开启 Binlog 可将数据增量同步至下游 TiDB。UDTS 与 TiDB Binlog 服务一起可协助用户轻松建立 TiDB 从 库。0 码力 | 2 页 | 42.01 KB | 1 年前3
共 1000 条
- 1
- 2
- 3
- 4
- 5
- 6
- 100













