Greenplum资源管理器2017 年象行中国(杭州 站)第一期 Greenplum资源管理器 姚珂男/Pivotal kyao@pivotal.io 2017 年象行中国(杭州 站)第一期 Agenda • Greenplum数据库 • Resource Queue • Resource Group 2017 年象行中国(杭州 站)第一期 Greenplum数据库 • 基于PostgreSQL • 分布式 corruption => PANIC 2017 年象行中国(杭州 站)第一期 Resource Queue • Cost is tricky – 没有明确的定义 – 不同优化器不一致 – 优化器不能被纳入资源管理器 2017 年象行中国(杭州 站)第一期 Resource Queue • Priority is rough – 不能精确控制CPU – CHECK_FOR_INTERRUPTS – BackoffBackendTick0 码力 | 21 页 | 756.29 KB | 1 年前3
FFmpeg在Intel GPU上的硬件加速与优化FFmpeg在Intel GPU上的 硬件加速与优化 赵军 DCG/NPG @ Intel 介绍FFmpeg VAAPI • Media pipeline review • 何谓FFmpeg VAAPI • 为什么我们需要FFmpeg VAAPI • 当前状态 • 更进一步的计划 • 附录 典型的 media pipeline File Device Network Stream radeon, nouveau (?), freedreno, … • 废弃的 API bridges • vdpau—va bridge • powervr—va bridge • … Intel GPU简介 • Gfx Label • Gen3: Pinetrail (Pineview) • Gen4: G965 • Gen5: G4X, Ironlake (Piketon, Calpella) Kabylake • … • Intel® Processor Graphics • 3D 渲染(OpenGL & Vulkan) • Media • 显示与计算(CUDA & OpenCL) Intel GPU media 硬件编程模型 slice Ring buffer FFmpeg MSDK i965/iHD OS scheduler com1 KMD com2 com3 Batch0 码力 | 26 页 | 964.83 KB | 1 年前3
激活函数与GPU加速激活函数与GPU加速 主讲人:龙良曲 Leaky ReLU simply SELU softplus GPU accelerated 下一课时 测试 Thank You.0 码力 | 11 页 | 452.22 KB | 1 年前3
C++高性能并行编程与优化 - 课件 - 08 CUDA 开启的 GPU 编程CUDA 开启的 GPU 编程 by 彭于斌( @archibate ) 往期录播: https://www.bilibili.com/video/BV1fa411r7zp 课程 PPT 和代码: https://github.com/parallel101/course 前置条件 • 学过 C/C++ 语言编程。 • 理解 malloc/free 之类的概念。 • 熟悉 STL 中的容器、函数模板等。 做不到的。 编写一段在 GPU 上运行的代码 • 定义函数 kernel ,前面加上 __global__ 修 饰符,即可让他在 GPU 上执行。 • 不过调用 kernel 时,不能直接 kernel() ,而 是要用 kernel<<<1, 1>>>() 这样的三重尖括 号语法。为什么?这里面的两个 1 有什么用 ?稍后会说明。 • 运行以后,就会在 GPU 上执行 printf 了。 kernel 函数在 GPU 上执行,称为核 函数,用 __global__ 修饰的就是核函数。 没有反应?同步一下! • 然而如果直接编译运行刚刚那段代码,是不会打印出 Hello, world! 的。 • 这是因为 GPU 和 CPU 之间的通信,为了高效,是异 步的。也就是 CPU 调用 kernel<<<1, 1>>>() 后,并不 会立即在 GPU 上执行完毕,再返回。实际上只是把0 码力 | 142 页 | 13.52 MB | 1 年前3
TensorFlow on Yarn:深度学习遇上大数据• 没有GPUs集群资源管理和调度(内存、CPU、GPU、 端⼝),集群资源负载不均� • 训练数据⼿动分发,训练模型⼿动保存� • 进程遗留问题,需要⼿动杀死� • 缺乏作业统⼀管理,不便对作业运⾏状态跟踪� • 日志查看不⽅便� � 总结:� TensorFlow使用现状及痛点 • 集群资源的管理(目前支持CPU、内存,需要扩展GPU 资源管理)� • 作业的统⼀管理、状态跟踪� 同时支持单机和分布式TensorFlow程序� • 支持GPU资源管理和调度� • 不再需要⼿动配置CluserSpec信息,仅需要设置work 和ps的数量� • 训练数据和训练模型基于HDFS统⼀存储� • 作业训练结束自动回收work、ps和Tensorboard进程� • 训练效果和性能没有损失� 基本目标:� TensorFlow on Yarn设计 • 支持GPU亲和性调度(提⾼通信效率)� 8192M \ #每个worker需要的内存� --worker-cores 1 \ #每个worker需要的CPU核数� --worker-gpus 2 \ #每个worker需要的GPU卡数� --ps-num 2 \ #ps数量� --ps-memory 1024M \ #每个ps需要的内存� --ps-cores 1 \ #每个ps需要的CPU核数�0 码力 | 32 页 | 4.06 MB | 1 年前3
运维上海2017-Kubernetes与AI相结合架构、落地解析-赵慧智Docker/rkt • kubelet • kube-proxy Kubernetes 基本概念 - Master Master 节点是 Kubernetes 环境中的管理节点,负责整个集群 的资源管理/分配,容器编排。一个 Master 节点包含如下组件: • kube-controller-manager • kube-apiserver • kube-scheduler Kubernetes Example 当我们有多个 core 的时候 深度学习对于并行化硬件的依赖 - GPU • Core 的多少往往决定真正并行化运算的数量 GPU 硬件使用流程 AI 模型 • AI 模型会决定最终使用资源的多少 • AI 模型的服务性能还与网络相关 • 并不是所有 AI 模型都适合通过 GPU 加速 Kubernetes 介绍 Kubernetes 使用 Kubernetes 10G及以上的 networking和GPU TensorFlow 介绍 • TensorFlow™ 是一个使用数据流图进行数值计算的开源软件 库。图中的节点代表数学运算, 而图中的边则代表在这些节 点之间传递的多维数组(张量 。这种灵活的架构可让您使 用一个 API 将计算工作部署到桌面设备、服务器或者移动设 备中的一个或多个 CPU 或 GPU。 TensorFlow 最初是由 Google0 码力 | 77 页 | 14.48 MB | 1 年前3
Volcano加速金融行业大数据分析平台云原生化改造的应用实践公平调度、任务拓扑调度、基于SLA调度、作业抢占、回填、弹性调度、 混部等。 3. 细粒度的资源管理 提供作业队列,队列资源预留、队列容量管理、多租户的动态资源共享。 4. 性能优化和异构资源管理 调度性能优化,并结合 Kubernetes 提供扩展性、吞吐、网络、运行时的 多项优化,异构硬件支持x86, Arm, GPU, 昇腾,昆仑等。 Volcano Global Kubernetes Volcano-controller Kube-apiserver Job/JobFlow Queue vc-controller vc-scheduler vsub kubectl Node NUMA GPU Node NUMA GPU … VolcanoGlobal 架构 多中心 低成本 无绑定 VG Scheduler ETCD Karmada Controllers K8s API Server Fair-share • Namespace fair-share • Task-topology • IO-Awareness • Resource reservation • SLA • GPU sharing • NUMA-Awareness • HDRF • Hierarchy Queue • Co-location • Elastic scheduling • TDM •0 码力 | 18 页 | 1.82 MB | 1 年前3
2023年中国基础软件开源产业研究白皮书多个技术簇的一类根 技术软件,拥有技术 门槛高、衍生场景复 杂等特点 中间件:不同系统和应用程序之间交互 与协作的桥梁 AI框架:具备构建和部署人工智能模型 的基础的全套开发工具 操作系统:是软硬件资源的资源管理者, 为用户与应用程序提供交互接口 数据库:通过对数据的访问与管理,支 持各种应用程序和业务的需求 编程语言:人与计算机交互的“语言”, 含编译器、基础编程语言、IED等 社区协作:鼓励各方在开放平台上协作 码量需要相应规模的人分工合作才能共同完 成设计。加之国内的操作系统起步较晚,需要更多的人才不断迭代整体性能水平。 操作系统生态适配需要大量人力:操作系统需要对软硬件生态适配、兼容,才能更好的发挥其资源管理者的作用。这种适配是双向 的,不同应用场景操作系统适配的生态也有所差异,随着场景的不断创新增加,生态适配性问题日渐复杂,仅靠单个操作系统发行 商进行生态匹配难以解决问题,需要开源集合更多的开发者力量进行帮助。 ,社区正在加强产学研联 动措施,以扩大参与人才的广度和深度,以期产生更好的马太效应。社区的发展不仅局限于国内生态,还积极吸引海外参与者,致 力于深化操作系统的渗透率和覆盖率,充分发挥操作系统作为“资源管理者”的角色。 注释:指标数据时间截止2023年11月。 来源:根据专家访谈、公开资料,由艾瑞咨询研究院自主研究及绘制。 2019.09 华为宣布openEuler开源 2020.12 社区理事会正式成立,3万套商业装机0 码力 | 43 页 | 4.69 MB | 1 年前3
openEuler 23.09 技术白皮书Intel IceLake/ Sapphire Rapids、AMD EPYC Milan /Genoa 等芯片系列,支持多个硬件厂商发布的多款整机型号、板卡型号, 支持网卡、RAID、FC、GPU&AI、DPU、SSD、安全卡七种类型的板卡,具备良好的兼容性。 全版本支持的硬件型号可在兼容性网站查询:https://www.openeuler.org/zh/compatibility/。 X86 ARM 网卡 华为、Mellanox、Intel 华为、Mellanox、Intel Raid Avago Avago FC Marvell、Emulex Marvell、Emulex GPU & AI Nvidia Nvidia SSD 华为 华为 硬件支持 运行环境 07 openEuler 23.09 技术白皮书 运行环境 运行环境 08 openEuler 23.09 场景创新 09 openEuler 23.09 技术白皮书 场景创新 场景创新 10 openEuler 23.09 技术白皮书 异构通用内存管理框架(GMEM)特性 在后摩尔时代,GPU、TPU 和 FPGA 等专用异构加速器设备正不断涌现,它们与 CPU 类似,需要将数据放在本地内存(例 如 LPDDR 或 HBM)中以提高计算速度。加速器厂商们也不可避免地需要开发复杂的内存管理系统。0 码力 | 52 页 | 5.25 MB | 1 年前3
openEuler 22.03 LTS SP2 技术白皮书Intel IceLake/ Sapphire Rapids、AMD EPYC Milan /Genoa 等芯片系列,支持多个硬件厂商发布的多款整机型号、板卡型号, 支持网卡、RAID、FC、GPU&AI、DPU、SSD、安全卡七种类型的板卡,具备良好的兼容性。 全版本支持的硬件型号可在兼容性网站查询:https://www.openeuler.org/zh/compatibility/ 支持的 华为、Mellanox、Intel、星云智联、云芯智联 Raid Avago、云芯智联 Avago、云芯智联 FC Marvell、Qlogic、Emulex Marvell、Qlogic、Emulex GPU&AI Nvidia Nvidia SSD 华为 华为 硬件支持 运行环境 07 openEuler 22.03 LTS SP2 技术白皮书 运行环境 运行环境 08 openEuler 管理工具以达成用户的对系统安 全可信设计的具体要求。 鲲鹏安全库的首个安全特性就是远程证明,目的就是帮助用户获取工作服务器节点的软硬件可信状态,支持端到端的 可信计算远程证明解决方案,让各种资源管理工具可以根据可信报告制定策略,对各种服务器资源进行差异化的调度和使用。 鲲鹏安全库的远程证明特性目前支持: 1. 基于 TPM 的通用平台远程证明。 2. 对鲲鹏服务器 TEE 的远程证明。0 码力 | 48 页 | 5.62 MB | 1 年前3
共 357 条
- 1
- 2
- 3
- 4
- 5
- 6
- 36













