超大规模深度学习在美团的应用-余建平jpg) 扫码了解更多信息 ## 自我介绍 2011年硕士毕业于南京大学计算机科学与技术系。毕业后曾在百度凤巢从事机器学习工程相关的工作,加入美团后,负责超大规模机器学习系统,从无到有搭建起支持千亿级别规模的深度学习系统,与推荐、搜索、广告业务深度合作,在算法上提供从召回到排序的全系统优化方案,在工程上提供离线、近线、在线的全流程解决方案。 ## 目录 美团超大规模模型场景简介 - 超大规模机器学习MLX [Image](/uploads/documents/a/6/1/7/a61721cdcee80359e0d8383fee6d6fec/p6_42.jpg) 我的 美团广告 ## 美团应用场景简介 百万级活跃商家 千万级别POI   千亿规模模型预估 百亿级训练样本 大规模机器学习 秒级实时反馈 · 场景特点 ✓亿级的用户,千万级的O2O商品 √海量的用户行为,完整的交易闭环 ✓LBS相关的推荐 · 模型特点 √百亿级别的训练数据 ✓千亿级别的模型特征 ✓秒级实时的模型反馈 ## 目录 美团超大规模模型场景简介 - 超大规模机器学习MLX0 码力 | 41 页 | 5.96 MB | 2 年前3
2.1.1Go 在百亿级分布式文件系统的实践GO CN Go在百亿级分布式文件系统的实践 徐桑迪 Juicedata 核心系统工程师 JuiceFS 简介 01 为什么选择 Go 02 基础内存优化 03 深度内存优化 04 内存快照持久化 05 第一部分 JuiceFS 简介 ’ alt=‘OCR图片’/> JuiceFS 简介 为云环境设计的分布式文件系统 兼容POSIX、HDFS和S3协议 支持回收站、目录配额、克隆 单命名空间支持百亿级文件数 单命名空间支持百亿级文件数 高性能、高可靠、高扩展性 ’ alt=‘OCR图片’/> 第二部分 为什么选择 Go ’ alt=‘OCR图片’/> 为什么选择 Go 快速开发 多线(协)程:go 关键字,channel 特性 性能分析:go tool pprof 等 故障分析:详细的 stack trace 编译速度快 内存管理:自带GC ’ alt=‘OCR图片’/> 为什么选择 Go 性能优秀:编译型语言 p) }() } ’ alt=‘OCR图片’/> 第四部分 深度内存优化 ’ alt=‘OCR图片’/> 深度内存优化 文件系统元数据服务进程: 占用近百 GiB 内存 缓存尽可能多的文件(十亿级) 高速处理元数据请求(百微秒) ’ alt=‘OCR图片’/> 深度内存优化 自主管理小对象的分配 GC 全局能看到的指针要少 GC递归扫描的深度要小 ’ alt=‘OCR图片’/>0 码力 | 26 页 | 894.68 KB | 1 月前3
数据迁移## 数据迁移 ## 存量 MySQL 迁移到 TiDB 服务 UDTS 产品支持 MySQL(5.5/5.6/5.7/8.0) 到 TiDB 的全量数据迁移,及增量数据同步。可协助用户在不停机的情况下轻松将业务从 MySQL 切换至 TiDB。 ## 自建 TiDB 迁移到 TiDB 服务 UDTS 产品支持 TiDB 全量数据迁移至 TiDB 服务。用户在源 TiDB 开启 Pump, Drainer 可进行数据增量同步。UDTS 与源端 Pump, Drainer 一起可协助用户在不停机的情况下轻松将业务从自建 TiDB 切换至 TiDB 服务。 ## 为 TiDB 服务建立 MySQL 从库 UDTS 产品支持 TiDB 全量数据迁移至 MySQL 数据库。用户在 TiDB 服务上开启 Binlog 可将数据增量同步至下游 MySQL。UDTS 与 TiDB Binlog Binlog 服务一起可协助用户轻松建立 MySQL 从库。 ## 为 TiDB 服务建立 TiDB 从库 UDTS 产品支持 TiDB 全量数据迁移至 TiDB 数据库。用户在源 TiDB 服务上开启 Binlog 可将数据增量同步至下游 TiDB。UDTS 与 TiDB Binlog 服务一起可协助用户轻松建立 TiDB 从 库。0 码力 | 2 页 | 42.01 KB | 1 年前3
RNN训练难题## PyTorch ## RNN训练难题 主讲人:龙良曲  ## Simple Yet? Nothing is straightforward.  PYTHON 30th ## 使用Python训练和部署低精度模型 (TensorFlow版) 张校捷 2019/9/21 ## 目录 >> 低精度的概念和意义 TensorFlow的FP16模型 >> TensorRT的FP16/Int8模型 n_lists.h  ## FP16训练模型精度 Table 1: ILSVRC12 classification top-1 accuracy. |Model|Baseline|Mixed Precision|Reference|0 码力 | 24 页 | 981.45 KB | 2 年前3
Rust OS 开源操作系统训练营的教与学-0615-李明17-6.18 @Shanghai Rust China Conf 2023 # Rust OS 开源操作系统训练营的教与学 李明 清华大学 2023-6-17 ## 1 Rust OS 开源训练营的起因和发展 ## 鹏城实验室 PENGCHENG LABORATORY ## 开源操作系统训练营的起源(2020年) |30|||| 训练营过去三年的发展情况 2020年 ~ 2022年 • 2020年 • 夏季训练营 2020.7.1 ~ 8.31 • 2021年 CSCC 全国大学生计算机系统能力大赛 • 夏季训练营 2021.7.1 ~ 7.31 2022年 CSCC 全国大学生计算机系统能力大赛 • 夏季训练营 2022.7.3 ~ 8.31 • 秋冬季训练营 2022.10.16 Hub of OS Kernel ## 2023 开源操作系统训练营 • 2023.05.27:在5月底前完成第二阶段 rCore OS 实验的全部内容,排行榜分数达到500分(满分)或类似的能力证明的同学,可联系李明老师了解详情,参加内容丰富的线下实习计划。实习地点在北京/济南。 ·2023.05.07:部分已经完成训练营第二阶段训练的同学,可联系李明老师,与全国的学生/工程师一起参加各种有趣挑战性的小项目0 码力 | 26 页 | 2.62 MB | 2 年前3
SQLite 数据转 Mysql# SQLite 数据转 Mysql #### I nsMsgServer 3.7.6 ## 当前 InHgServer 环境 以下过程在 win7 sp1 x64 系统下完成, 如果您的系统不能运行以下相关程序, 请将服务器的 db/ 目录下的 IMBase.dat 文件复制到 win7 sp1 x64 系统下完成  ## 利用 InHgServer 生成 Mysql 数据库 确保 mysql 数据库中没有 IM 相关库  调整使用 Mysql 作为数据库,并点击启动  确认启动后数据库正确建立InsMsgServer Start(2017-12-17 05:59:25) General Data Network 0 码力 | 17 页 | 1.40 MB | 2 年前3
Flink如何实时分析Iceberg数据湖的CDC数据Flink如何实时分析Iceberg数据湖的CDC数据 阿里巴巴 李劲松/胡争 FLINK FORWARD #ASIA 2020 #1 #2 #3 #4 常见的CDC 为何选择 Flink 如何实时写 未来规划 分析方案 + Iceberg 入读取 FLINK FORWARD #ASIA 2020 ## #1 常见的CDC分析方案 ## 离线 HBase 集群分析 CDC 数据 ↓ ## MySQL 3、通过RegionServer定位HFile,Server的优化和缓存完全用不上。 4、数据格式绑定HFile,不方便拓展到Parquet、Avro、Orc等。 FLINK FORWARD #ASIA 2020 ## Apache Kudu 维护 CDC 数据集 ## MySQL ## 方案评估 优点 1、支持实时更新数据,时效性佳。 2、列存加速,适合OLAP分析。 ## 缺点 1、独立的Kudu集群,比较小众。维护成本高。 等割裂。数据独立,且存储成本不如 S3 / OSS。 3、Kudu的批量扫描不如parquet。 4、不支持增量拉取。 FLINK FORWARD #ASIA 2020 ## MySQL → GQOOP → HVE ## 方案评估 优点 1、流程能工作 2、Hive存量数据不受增量数据影响。 ## 缺点 1、数据不是实时写入; 2、每次数据导致都要 MERGE 存量数据。T+10 码力 | 36 页 | 781.69 KB | 2 年前3
运维上海2017-机器学习模型训练的Kubernetes实践-袁晓沛## 七 牛AI训练业务的K8S实践 袁晓沛 七牛容器云负责人 ## QCon 全球软件开发大会 10⽉17-19⽇上海·宝华万豪酒店  扫码锁定席位 ## 九 折即将结束 团购还享更多优惠,折扣有效期至9月17日 扫描右方二维码即可查看大会信息及购票 扫描添加E小欧, 邀您进入EGO会员预报名群 立即报名 TECHNOLOGY EGO ## TABLE OF CONTENTS AI训练的业务情况 AI训练的痛点 为什么用K8S 基于K8S的AI训练 一次踩坑经历 接下来的工作 ## AI训练流程 分布式系统数量级性能优化的经验。 c. 目前团队人数超过 80 人,每个月都有在全球某个领域有显著影响力的人加入。 ### 2. 团队聚焦底层技术创新,技术Vision强 Length上追上来,且在精度(无损记忆)和中文能力上Kimi智能助手依然领先。 b. 聚焦底层技术创新,不走技术捷径。最早提出 “Lossless Long Context 可以解决 90% 以上的模型定制问题”,坚持对数据的无损压缩,实现模型能力的提升,不走技术捷径(通过滑动窗口、降采样、小模型等技术实现上下文窗口延长,都是 “技术捷径”) c. 通过这篇文章,您可以了解更多技术方面信息:专访月之暗面杨植麟:lossless0 码力 | 74 页 | 1.64 MB | 2 年前3共 1000 条- 1
- 2
- 3
- 4
- 5
- 6
- 100













