Greenplum机器学习⼯具集和案例Neighbors 成熟的数据科学学习库 2017.thegiac.com • 更好的并行度 • 算法充分利用 MPP 架构实现并行 • 更好的可扩展性 • 算法随着数据扩充而线性扩展 • 更高的预测精准度 • 适用更多数据,而不是抽样 • 顶级 ASF 开源项目 • 社区驱动开发模式 MADlib 特性 2017.thegiac.com 客户端 成对相关性 删除⾼高度相关变量量 逻辑回归 计算 KS 分值 模型验证 ⼿手动预测 1 2 3 4 5 6 7 8 原始⼯工作流程 2017.thegiac.com 数据整理理 特征⽣生成 验证 预测 信息价值 ⽅方差膨胀 因⼦子 成对相关性 逻辑回归 Elastic Net 特征选择 excel ● 在 GPDB 中花 58 秒计 算 ~200 个变量量的IV 13.7x/变量量 建模 ● < 50 个变量量,运⾏行行⼀一 次逻辑回归迭代需要 ~30 分钟 ● 376 个变量量,运⾏行行⼀一次 逻辑回归迭代需要 ~1.86 分钟 ~16x/迭代 ⼯工作流程优化 2017.thegiac.com 原始模型 改良后的模型 ● 模型精确度0 码力 | 58 页 | 1.97 MB | 1 年前3
PieCloudDB Database 产品白皮书 B 既支持用户利用过程语言自行开发模块进行数据分析也原生兼容开源机器学 习库Apache MADlib,从而可以原生实现一些高级机器学习功能。该拓展提供数学、统计学以及机器学习方法,包括 但不限于线性回归、关联规则、贝叶斯分类、决策树和随机森林等算法支持。同时 Openpie 团队经验丰富的数据科学 家团队可以为企业用户提供相关建议。 ,* 多云部署 pieCloudDB 可根据客户需求在任何laaS0 码力 | 17 页 | 2.68 MB | 1 年前3
云原生虚拟数仓PieCloudDB Database产品白皮书既支持用户利用过程语言自行开发模块进行数据分析也原生兼容开源机器学 习库 Apache MADlib,从而可以原生实现一些高级机器学习功能。该拓展提供数学、统计学以及机器学习方法,包括 但不限于线性回归、关联规则、贝叶斯分类、决策树和随机森林等算法支持。同时 OpenPie 团队经验丰富的数据科学 家团队可以为企业用户提供相关建议。 10 多云部署 PieCloudDB 可根据客户0 码力 | 17 页 | 2.02 MB | 1 年前3
Greenplum 精粹文集Postgresql 数据库同时并行工作,优势在于可以充分利用到每个节点 的所有 CPU 和 IO 能力。 Greenplum 单个节点上运行能力比其它数据库也快很多,如果运行在 多节点上,其提供性能几乎是线性的增长,这样一个集群提供的性能 能够很轻易的达到传统数据库的数百倍甚至数千倍,所管理数据存储 规模达到 100TB~ 数 PB,而你在硬件上的投入,仅仅是数台一般的 X86 服务器和普通的万兆交换机。 Madlib(开源挖掘算法)、 SAS algorithm、R 都是通过 UDF 方式实现在 Greenplum 集群中分布 式部署,从而获得库内计算的并行能力。这里可以分享的是,SAS 曾 经做过测试,对 1 亿条记录做逻辑回归,采用一台小型机耗时约 4 个 多小时,通过部署到 Greenplum 集群中,耗时不到 2 分钟就全部完成 了。以 GPEXT 为例,下图展现了 Solr 全文检索在 Greenplum 中的并 行化风格。0 码力 | 64 页 | 2.73 MB | 1 年前3
ClickHouse在B站海量数据场景的落地实践修改表元数据 Ø 表元数据管理 v Yuuni: Ø 屏蔽集群信息 Ø 原⽣JDBC,HTTP接⼜ Ø 读写分离 Ø 动态查询缓存 Ø 流量控制 v 监控管理平台: Ø 统计⼤盘 Ø 回归测试 Ø 接⼊评估 Ø 数据迁移 Ø 数据重平衡 v 交互式分析查询:Superset提供即时查询能⼒ v 离线写⼊服务 (Rider) v 实时写⼊服务 (BSQL/Saber) ClickHouse0 码力 | 26 页 | 2.15 MB | 1 年前3
陈宗志:大容量redis存储方案--Pika到40G 迁移后: 1套100G+ Pika主从 SACC2017 Pika 开发现状 • Pika团队目前有2个主力开发维护,2个DBA做需求分 析讨论、性能测试、bug跟踪、回归测试。积累1700+ 个测试用例 • 产品经理汇总github问题和交流群用户反馈,帮用户问 题解决和需求排期开发 • 一月一个小版本, 二月一个大版本 SACC2017 Pika0 码力 | 47 页 | 2.18 MB | 1 年前3
Pivotal Greenplum 5: 新一代数据平台扩展包括支持使用基于 GiST 的 R 树空间索引和函数分析和处 理 GIS 对象。 图 3:Pivotal Greenplum 5:集成的分析。 地理空间 图分析库 聚类分析 传统BI分析 分类分析 回归分析 全文检索 pivotal.io/cn 白皮书 7 © Copyright 2017 Pivotal Software, Inc.保留所有权利。 PIVOTAL GREENPLUM 5:新一代数据平台0 码力 | 9 页 | 690.33 KB | 1 年前3
PingCAP TiDB&TiKV Introduction OLTP统行业复杂业务逻辑场景中,以 Oracle 为代表 • 挑战:成本高,随着数据量增加, 只能通过购买更贵更好的服务器 ;无法线性扩容,海量数据下处 理能力大幅下降 单机关系型(SQL) 分布式非关系型(NoSQL) 分布式关系型(NewSQL) • 背景:随着搜索 / 社交的发展,数 据量爆发增长,传统数据库高成 本,无法线性扩容问题日益突显 ;分布式及 NoSQL 开始快速发 展,如 MongoDB • 挑战:擅长简单读写,无法处理 (TiDB + TiKV) ● 基于 2013 年 Google Spanner / F1 论文 ● 基于 2014 年 Stanford 工业级分布式一致性协议实现 Raft 论文 概括: 无限水平线性扩展、高并发高吞吐、跨数据中心多活、MySQL 兼容的真正意义上的分布式数据库 ● 我们是全球仅有的在该领域进行技术创新的两家公司之一(对标美国 CockroachDB) ● 完全从头打造,并非基于 ● 无限线性水平扩展(Scale Out) 无论多大的数据量,都可以轻松通过增加节点来解决,写入和读取时延固定(毫 秒级别),无需分库分表或者搭建复杂的 Hadoop 集群,完整的 MySQL 兼容接 口轻松处理高并发实时写入、实时查询和分析,极大的简化程序设计、应用维护 ,轻松应对大数据存储问题。 ● 高并发、高吞吐、完整的跨行事务支持、强一致性 通过简单的增加节点,提供无上限的、线性扩展的的高并发、高吞吐的处理能力0 码力 | 21 页 | 613.54 KB | 6 月前3
完全兼容欧拉开源操作系统的 HTAP 数据平台 Greenplum和软件包引入欧拉开源社区软件仓库后,Greenplum 中文社区开发者还针对引入的欧拉开源操作系统 版本做了功能性验证和测试,测试结论如下: GreenplumDB 6.17.0 版本本次测试,共计执行回归用例 930 个,其中核心数据库引擎用例 534 个,隔离级别用例 240 个,失败 1 个(疑似虚机资源问题)。其它功能测试若干,手动验证用例 2 个(SSL 工具版本问题),管理工具脚 本用例0 码力 | 17 页 | 2.04 MB | 1 年前3
TiDB v7.1 中文手册0 开始,在新的分布式并行执行框架下,多个 TiDB 节点可以并行执行同一项 DDL 任务,从而更好地 利用 TiDB 集群的资源,大幅提升 DDL 的性能。此外,你还可以通过增加 TiDB 节点来线性提升 DDL 的性 能。需要注意的是,该特性是实验性特性,目前仅支持 ADD INDEX 操作。 如果要使用分布式并行执行框架,只需将tidb_enable_dist_task 的值设置为 ON: 样 TiFlash 集群可实现近似线性的扩展能力。TiFlash 节点数量应根据期待的性能和响应时间调 整。 * 当 OLTP 数据吞吐量较高时(例如写入或更新超过千万行/小时),由于网络和物理磁盘的写入 能力有限,内部 TiKV 与 TiFlash 之间的 I/O 会成为主要瓶颈,也容易产生读写热点。此时 TiFlash 节点数与 OLAP 计算量有较复杂非线性关系,需要根据具体系统状态调整节点数量。 systemctl status firewalld.service 473 5.2.5 检测及安装 NTP 服务 TiDB 是一套分布式数据库系统,需要节点间保证时间的同步,从而确保 ACID 模型的事务线性一致性。目前解 决授时的普遍方案是采用 NTP 服务,可以通过互联网中的 pool.ntp.org 授时服务来保证节点的时间同步,也 可以使用离线环境自己搭建的 NTP 服务来解决授时。 采用如下步骤检查是否安装0 码力 | 4369 页 | 98.92 MB | 1 年前3
共 39 条
- 1
- 2
- 3
- 4













