弹性分布数据集 - IT文库_程序员IT互联网编程电子书和文档免费下载，助您码力十足！

首页文库资料文章资讯上传文档发布文章登录账户

构建基于富媒体大数据的弹性深度学习计算平台

[Image](/uploads/documents/c/d/1/1/cd11ba0b707be61cb140b86841b53505/p1_1.jpg) BEIJING 2017 # 构建基于富媒体大数据的弹性深度学习计算平台 SPEAKER / 土土@七牛 AtLab ## 促进软件开发领域知识与创新的传播 ![Image](/uploads/documents/c/d/1/1/cd11ba0b70 [Image](/uploads/documents/c/d/1/1/cd11ba0b707be61cb140b86841b53505/p3_1.jpg) + Ideea ## Connect 数据处理数据存储直播点播数据加速 QINIU QCon[北京站]2017 ![Image](/uploads/documents/c/d/1/1/cd11ba0b707be61cb140b86841b53505/p5_1 内容审核团队 ## What are they? 运营分析团队 ## Content 分类描述检测搜索分割分析跟踪 ## 连接 ## 智能 0 0 ## 人工智能 = 大数据 + 机器学习 0 ## Ataraxia AI Lab (AtLab) CHICHE 0 ## 9 色情 0.01 性感 0.98 正常 0.01 ![Image](

0 码力 | 21 页 | 1.71 MB | 2 年前
3
分布式NewSQL数据库TiDB

# 分布式NewSQL数据库 TiDB 产品文档优刻得科技股份有限公司版权所有 ## 目录目录 2 概览 9 什么是TiDB 11 产品优势 12 高度兼容 MySQL 12 动态扩展 12 分布式事务 12 HTAP 12 真正金融级高可用 13 适用场景 14 对数据一致性及高可靠、对数据一致性及高可靠、系统高可用、可扩展性、容灾要求较高的金融行业属性的场景 14 对存储容量、可扩展性、并发要求较高的海量数据及高并发的 OLTP 场景 14 Real-time HTAP 场景 14 数据汇聚、二次加工处理的场景 15 真正金融级高可用 15 UCloud 云上 TiDB 架构示意图 16 TiDB 16 TiDB Serverless 添加用户及权限 36 重置用户密码 36 删除非root用户 37 备份恢复 38 设置备份策略 39 调整自动备份策略 40 手动备份 40 删除备份数据 41 备份恢复 41 Dashboard/监控访问 43 代理节点 43 配置访问代理 43 访问 46 实例 49 创建TiDB

0 码力 | 120 页 | 7.42 MB | 1 年前
3
TiDB 开源分布式关系型数据库

# TiDB 开源分布式关系型数据库 TiDB PRODUCT PORTFOLIO & VERTICAL CASE STUDY ![Image](/uploads/documents/3/d/e/b/3deb0740caa715d2156ad7d85aa695c6/p1_2.jpg) ![Image](/uploads/documents/3/d/e/b/3deb0740caa715 第二章 TiDB 开源分布式关系型数据库 2.1 产品简介 …… 10 2.2 TiDB 架构图 …… 10 2.3 核心特性 …… 11 2.4 TiFlash 高性能列式分析引擎 …… 12 2.5 TiDB 企业版 …… 12 2.6 TiDB 社区版与企业版差异 …… 13 第三章 TiDB 生态工具 3.1 数据迁移 …… 16 数据迁入 - TiDB Data Data Migration 16 增量数据迁出 - TiCDC 17 数据导入 - TiDB Lightning 18 数据导出 - Dumpling 18 3.2 备份和恢复 - Backup & Restore 18 3.3 安装部署 19 TiUP TiDB Operator 3.4 运维和可视化管理 - TiDB Dashboard 21

0 码力 | 58 页 | 9.51 MB | 2 年前
3
Greenplum 分布式数据库内核揭秘

- Greenplum 分布式数据库简介 - Greenplum 集群化概述 - 分布式数据存储与多态存储 - 分布式查询优化器与执行器 - Greenplum 中文社区 ![Image](/uploads/documents/f/8/c/6/f8c6504c12d71f5166507cf7747cf0d9/p3_1.jpg) ## Greenplum 分布式数据库简介 Greenplum Greenplum 是基于 PostgreSQL 所实现的大规模并行处理(MPP)开源数据平台，具有良好的弹性和线性拓展能力，内置并行存储、并行通信、并行计算和并行优化功能，兼容 SQL 标准。拥有独特的高效的 ORCA 优化器，具有强大、高效的 PB 级数据存储、处理和实时分析能力，同时支持 OLTP 型业务的混合负载。 ![Image](/uploads/documents/f/8/c/6/f8c6504 [Image](/uploads/documents/f/8/c/6/f8c6504c12d71f5166507cf7747cf0d9/p5_1.jpg) ## Greenplum 集群化概述数据库的组成 ![Image](/uploads/documents/f/8/c/6/f8c6504c12d71f5166507cf7747cf0d9/p6_2.jpg) ## • Coordinator/Segment

0 码力 | 31 页 | 3.95 MB | 2 年前
3
迁移学习-自定义数据集实战

![Image](/uploads/documents/e/0/e/f/e0ef5ce77064d0322b9f406fa21440d5/p1_1.jpg) ## 自定义数据集实战主讲：龙良曲 ![Image](/uploads/documents/e/0/e/f/e0ef5ce77064d0322b9f406fa21440d5/p2_1.jpg) ## Pokemon Dataset

0 码力 | 16 页 | 719.15 KB | 2 年前
3
高可用分布式流数据存储设计-李玥

## 高可用分布式流数据存储设计李玥京东集团技术架构部架构师 ## TGO鲲鹏会汇聚全球科技领导者的高端社群全球12大城市 850+高端科技领导者使命 Mission 为社会输送更多优秀的科技领导者 ## 愿景 Vision 构建全球领先的有技术背景优秀人才的学习成长平台 ![Image](/uploads/documents/c/e/3/5/ce35 396fecde170dbc2e9a6/p2_1.jpg) ## 自我介绍 ## 李玥京东集团技术架构部架构师负责主导设计新一代京东消息中间件系统，专注于流数据的一致性分发和可靠存储、分布式实时计算和高可用分布式系统架构等技术领域。从事互联网研发、架构10余年，曾在浪潮集团、当当网等公司从事架构相关工作。2017年加入京东，期间提升京东商城相关系统的性能和吞吐量数倍。目前致能与开源。 Why 有什么用？ What 如何定位？如何融入生态系统？ How 如何实现？如何优化？ ## 目录 ## WHY ## 为什么需要流数据存储？ ## 那些年的服务单体应用烟筒式 SOA 微服务 ## 这些年的数据 Services ## ☐ → ☐ Data Hive ES HBase HDFS KV ## 我们的愿景 Services ## O

0 码力 | 36 页 | 6.02 MB | 2 年前
3
Greenplum机器学习⼯具集和案例

## Greenplum机器学习工具集和案例姚延栋 Pivotal 研发技术总监 2017.thegiac.com ## 大纲 • Greenplum 大数据平台 • Greenplum 机器学习工具 • Greenplum 机器学习案例 ## Pivotal ## Greenplum: 新一代开源大数据平台 2017.thegiac.com ## Greenplum 集群 ! bf417d9e5b73bb19c9/p5_2.jpg) 2017.thegiac.com ## Greenplum 大数据平台 - 一次打包，到处运行：裸机、私有云、公有云 - 各种数据源：Hadoop、S3、数据库、文件、Spark、Kafka - 各种数据格式：结构化、半结构化（JSON/XML/Hstore）、非结构化 - 强大内核：MPP、优化器、多态存储、灵活分区、高速加载、PG内核完善的标准支持：SQL、JDBC、ODBC - 集成数据平台：BI/DW、文本、GIS、图、图像、机器学习 • 开放源代码，持续大力投入 - 敏捷方法学：快速迭代、持续发布、质量内建 • 企业级稳定性，成熟生态系统 ## Pivotal ## Greenplum: 机器学习工具集 2017.thegiac.com ## Greenplum 机器学习工具集 PL/X：各种语言实现自定义函数（存储过程）

0 码力 | 58 页 | 1.97 MB | 2 年前
3
Go 构建大型开源分布式数据库技术内幕

# Go 搭建大型开源分布式数据库技术内幕 shenli@PingCAP ## 关于我 • 申砾 (Shen Li) • TiDB 技术负责人 ● 网易有道 / 360搜索 / PingCAP • Infrastructure software engineer 为什么需要一个新的数据库？ ## 从单机数据库到 NewSQL ● 关系型数据库 • NoSQL • 中间件 • NewSQL SQL Database 如何构建分布式数据库？ ## 原则 • 分层 • Make it right and make it fast. 测试很重要 ● 简单易用和社区结合 ## 架构 ![Image](/uploads/documents/f/e/2/8/fe2873497b7c368983e79b995ed6a9c5/p9_2.jpg) ## 数据分片 ## • Hash Based 在 Store 的分布情况 ☐ 生成 Operator 使之均衡 ## 调度的难点 ● 难以评判什么样的数据分布情况是最优解 ☐ 机器配置不同 ☐ CPU、内存、磁盘、网络多种因素相互制约 ☐ 用户场景多变 ● 调度所依赖的集群状态不一定是最新的 ● 调度本身也会带来系统负担 ## 多副本管理策略使用多副本保证数据安全(Data safety) ● 维持数据副本数 ☐ 副本数不足:

0 码力 | 44 页 | 649.68 KB | 2 年前
3
Spark 简介以及与 Hadoop 的对比

map reduce 算法实现的分布式计算，拥有 Hadoop MapReduce 所具有的优点；但不同于 MapReduce 的是 Job 中间输出和结果可以保存在内存中，从而不再需要读写 HDFS，因此 Spark 能更好地适用于数据挖掘与机器学习等需要迭代的 map reduce 的算法。 ### 1.2 Spark 核心概念 #### 1.2.1 弹性分布数据集（RDD） RDD 是 Spark Spark 的最基本抽象, 是对分布式内存的抽象使用, 实现了以操作本地集合的方式来操作分布式数据集的抽象实现。RDD 是 Spark 最核心的东西, 它表示已被分区, 不可变的并能够被并行操作的数据集合, 不同的数据集格式对应不同的 RDD 实现。RDD 必须是可序列化的。RDD 可以 cache 到内存中, 每次对 RDD 数据集的操作之后的结果, 都可以存放到内存中, 下一个操作可以直接从内存中输入下一个操作可以直接从内存中输入, 省去了 MapReduce 大量的磁盘 IO 操作。这对于迭代运算比较常见的机器学习算法, 交互式数据挖掘来说, 效率提升比较大。 #### 1.2.2 RDD 的转换与操作对于 RDD 可以有两种计算方式 :转换( 返回值还是一个 RDD )与操作( 返回值不是一个 RDD ) 1. 转换(Transformations) (如：map, filter, groupBy, join

0 码力 | 3 页 | 172.14 KB | 2 年前
3
敏捷开发/申建：战略项目集下的敏捷应用

## 阿里巴巴研发效能实践日 ## 战略项目集管理下的敏捷应用申建（项目管理专家） ## 视频回放及往期内容精华 ☐ ☐ ☐ ☐ 扫码观看本次活动视频回放 ![Image](/uploads/documents/8/6/f/2/86f2c1b5d0b49b909c38f71cf8983299/p2_1.jpg) 扫码获取往期阿里研发效能精华 ![Image](/uploads/do 申建（沛涵）阿里云智能弹性计算PMO项目管理专家，中软协项目管理专委会专家，PMP。多家互联网公司PMO友情顾问。十余年互联网项目管理经验，曾在任职公司和阿里内部BU组建&管理PMO团队。曾任中搜高级项目经理、团800/折800项目总监等职务，通过项目化助力新产品零到百亿级估值。在阿里多BU组建和管理PMO，推行原生项目管理框架下的多方法体系解决方案和管理理念。 ## 弹性计算介绍 ![Im 9/p4_1.jpg) ECS 弹性计算服务（Elastic Compute Service, 简称 ECS）是一种处理能力可弹性伸缩的计算服务。其管理方式比物理服务器更简单高效、更稳定、更安全的应用，降低开发运维的难度和整体 IT 成本，使您能够更专注于核心业务创新。 ## 弹性计算虚拟网络物理网络虚拟化存储服务器 ## 弹性计算PMO的演进班车发布 + 单项目

0 码力 | 17 页 | 4.07 MB | 2 年前
3

共 1000 条前往

页

搜索

分类

语言

格式