迁移学习-自定义数据集实战 ## 自定义数据集实战 主讲:龙良曲  ## Pokemon Dataset0 码力 | 16 页 | 719.15 KB | 2 年前3
Greenplum机器学习⼯具集和案例## Greenplum机器学习工具集和案例 姚延栋 Pivotal 研发技术总监 2017.thegiac.com ## 大纲 • Greenplum 大数据平台 • Greenplum 机器学习工具 • Greenplum 机器学习案例 ## Pivotal ## Greenplum: 新一代开源大数据平台 2017.thegiac.com ## Greenplum 集群 ! bf417d9e5b73bb19c9/p5_2.jpg) 2017.thegiac.com ## Greenplum 大数据平台 - 一次打包,到处运行:裸机、私有云、公有云 - 各种数据源:Hadoop、S3、数据库、文件、Spark、Kafka - 各种数据格式:结构化、半结构化(JSON/XML/Hstore)、非结构化 - 强大内核:MPP、优化器、多态存储、灵活分区、高速加载、PG内核 完善的标准支持:SQL、JDBC、ODBC - 集成数据平台:BI/DW、文本、GIS、图、图像、机器学习 • 开放源代码,持续大力投入 - 敏捷方法学:快速迭代、持续发布、质量内建 • 企业级稳定性,成熟生态系统 ## Pivotal ## Greenplum: 机器学习工具集 2017.thegiac.com ## Greenplum 机器学习工具集 PL/X:各种语言实现自定义函数(存储过程)0 码力 | 58 页 | 1.97 MB | 2 年前3
机器学习课程-温州大学-05机器学习-机器学习实践## 本章目录 01 数据集划分 02 评价指标 03 正则化、偏差和方差 ### 1. 数据集划分 ## 01 数据集划分 02 评价指标 03 正则化、偏差和方差 ### 1. 数据集划分 训练集(Training Set):帮助我们训练模型,简单的说就是通过训练集的数据让我们确定拟合曲线的参数。 验证集(Validation Set):也叫做开发集(Dev Set),用来做模型选择(model 的模型的构建,即训练超参数,可选; 测试集(Test Set):为了测试已经训练好的模型的精确度。
三者划分:训练集、验证集、测试集 机器学习:60%,20%,20%;70%,10%,20% 机器学习:60%,20%,20%;70%,10%,20% 深度学习:98%,1%,1%(假设百万条数据) ## 交叉验证  1. 使用训练集训练出 k 个模型 2. 用 k 个模型分别对交叉验证集计算得出交叉验证误差(代价函数的值) $$ \frac{\epsilon数据集 训练集 验证集 测试集 0 码力 | 33 页 | 2.14 MB | 2 年前3
数据迁移## 数据迁移 ## 存量 MySQL 迁移到 TiDB 服务 UDTS 产品支持 MySQL(5.5/5.6/5.7/8.0) 到 TiDB 的全量数据迁移,及增量数据同步。可协助用户在不停机的情况下轻松将业务从 MySQL 切换至 TiDB。 ## 自建 TiDB 迁移到 TiDB 服务 UDTS 产品支持 TiDB 全量数据迁移至 TiDB 服务。用户在源 TiDB 开启 Pump, Drainer 可进行数据增量同步。UDTS 与源端 Pump, Drainer 一起可协助用户在不停机的情况下轻松将业务从自建 TiDB 切换至 TiDB 服务。 ## 为 TiDB 服务建立 MySQL 从库 UDTS 产品支持 TiDB 全量数据迁移至 MySQL 数据库。用户在 TiDB 服务上开启 Binlog 可将数据增量同步至下游 MySQL。UDTS 与 TiDB Binlog Binlog 服务一起可协助用户轻松建立 MySQL 从库。 ## 为 TiDB 服务建立 TiDB 从库 UDTS 产品支持 TiDB 全量数据迁移至 TiDB 数据库。用户在源 TiDB 服务上开启 Binlog 可将数据增量同步至下游 TiDB。UDTS 与 TiDB Binlog 服务一起可协助用户轻松建立 TiDB 从 库。0 码力 | 2 页 | 42.01 KB | 1 年前3
敏捷开发/申建:战略项目集下的敏捷应用## 阿里巴巴研发效能实践日 ## 战略项目集管理下的敏捷应用 申建(项目管理专家) ## 视频回放及往期内容精华 ☐ ☐ ☐ ☐ 扫码观看本次活动视频回放  扫码获取往期阿里研发效能精华  ## 利用 InHgServer 生成 Mysql 数据库 确保 mysql 数据库中没有 IM 相关库  调整使用 Mysql 作为数据库,并点击启动  确认启动后数据库正确建立InsMsgServer Start(2017-12-17 05:59:25) General Data Network 0 码力 | 17 页 | 1.40 MB | 2 年前3
Flink如何实时分析Iceberg数据湖的CDC数据Flink如何实时分析Iceberg数据湖的CDC数据 阿里巴巴 李劲松/胡争 FLINK FORWARD #ASIA 2020 #1 #2 #3 #4 常见的CDC 为何选择 Flink 如何实时写 未来规划 分析方案 + Iceberg 入读取 FLINK FORWARD #ASIA 2020 ## #1 常见的CDC分析方案 ## 离线 HBase 集群分析 CDC 数据 ↓ ## MySQL 3、通过RegionServer定位HFile,Server的优化和缓存完全用不上。 4、数据格式绑定HFile,不方便拓展到Parquet、Avro、Orc等。 FLINK FORWARD #ASIA 2020 ## Apache Kudu 维护 CDC 数据集 ## MySQL ## 方案评估 优点 1、支持实时更新数据,时效性佳。 2、列存加速,适合OLAP分析。 ## 缺点 1、独立的Kudu集群,比较小众。维护成本高。 等割裂。数据独立,且存储成本不如 S3 / OSS。 3、Kudu的批量扫描不如parquet。 4、不支持增量拉取。 FLINK FORWARD #ASIA 2020 ## MySQL → GQOOP → HVE ## 方案评估 优点 1、流程能工作 2、Hive存量数据不受增量数据影响。 ## 缺点 1、数据不是实时写入; 2、每次数据导致都要 MERGE 存量数据。T+10 码力 | 36 页 | 781.69 KB | 2 年前3
RISC-V 手册 v2(一本开源指令集的指南)# RISC-V 手册 一本开源指令集的指南 DAVID PATTERSON, ANDREW WATERMAN 翻译:勾凌睿、黄成、刘志刚 校阅:包云岗 Powered by TCPDF (www.tcpdf.org) Open RISC-V Reference CardBase Integer Instructions: 101 ..... 15 1.4 全书的总览 ..... 19 1.5 结束语 ..... 20 1.6 扩展阅读 ..... 21 第二章 RV32I: RISC-V 基础整数指令集 ..... 23 2.1 导言 ..... 23 2.2 RV32I 指令格式 ..... 23 2.3 RV32I 寄存器 ..... 26 2.4 RV32I 整数计算 .... 2.7 RV32I 无条件跳转 ..... 31 2.8 RV32I 杂项 ..... 31 2.9 使用插入排序比较 RV32I, ARM-32, MIPS-32 和 x86-32 指令集 ..... 32 2.10 结束语 ..... 32 2.11 扩展阅读 ..... 33 第三章 RISC-V 汇编语言 ..... 41 3.1 导言 ..... 41 3.2 0 码力 | 164 页 | 8.85 MB | 2 年前3
大数据集成与Hadoop - IBM大数据集成与 Hadoop 可最大限度降低Hadoop计划风险并提高ROI的最佳实践  IBM $ ^{®} $ ## 简介 Apache Hadoop技术通过支持新的流程和架构,不断改进大数据措施的经济性和活力,这样不仅有助于削减 开源软件项目,支持在多个商业服务器群集间分散处理和存储大型数据集,并可根据需求变化从单一服务器扩展到数以千计的服务器。主要的Hadoop组件包括Hadoop Distributed File System(用于存储大型文件)和Hadoop分布式并行处理框架(称为MapReduce)。 但是,Hadoop基础架构本身并没有提供完整的大数据集成解决方案,摆在人们面前的既有挑战,也有机遇,只有处理好这 。 ## 大数据集成对于Hadoop措施的重要性 Hadoop的迅速崛起推动企业在如何抽取、管理、转换、存储和分析大数据方面实现了范式转变。无论是要更深入的分析,还是希望获得更出色的洞察、新产品、新服务以及更高的服务水平,都可以通过这项技术一一实现,从而大幅降低成本并创造新的收入。 依靠收集、移动、转换、清除、集成、治理、探索以及分析多种不同来源的大量不同类型的数据来实现大数据与Hadoop0 码力 | 16 页 | 1.23 MB | 2 年前3
Curve元数据节点高可用Curve元数据节点高可用 • 1. 需求 • 2. 技术选型 • 3. etcd clientv3的concurrency介绍 • 3.1 etcd clientV3的concurrency模块构成 • 3.2 Campaign的流程 • 3.2.1 代码流程说明 • 3.2.2 举例说明Campagin流程 • 3.3 Observe的流程 4. MDS使用election模块的功能进行选主 区 4.2.5.1 事件一先发生 4.2.5.2 事件二先发生 4.2.6 异常情况4:Etcd集群的follower节点异常 4.2.7 各情况汇总 ### 1. 需求 mds是元数据节点,负责空间分配,集群状态监控,集群节点间的资源均衡等,mds故障可能会导致client端无法写入。 因此,mds需要做高可用。满足多个mds,但同时只有一个mds节点提供服务,称该提供服务的m 熟知的就是zookeeper和etcd,考虑当前系统中mds有两个外部依赖模块,一是mysql,用于存储集群拓扑的相关信息;二是etcd,用于存储文件的元数据信息。而etcd可以用于实现mds高可用,没必要引入其他组件。 使用etcd实现元数据节点的leader主要依赖于它的两个核心机制:TTL和CAS。TTL(time to live)指的是给一个key设置一个有效期,到期后key会被自0 码力 | 30 页 | 2.42 MB | 1 年前3共 1000 条- 1
- 2
- 3
- 4
- 5
- 6
- 100













