Go on GPUChangkun Ou. 2023. Go on GPU. GopherChina 2023. Session "Foundational Toolchains" Go on GPU Changkun Ou changkun.de/s/gogpu GopherChina 2023 Session “Foundational Toolchains” 2023 June 10 1 Changkun Ou. 2023. Go on GPU. GopherChina 2023. Session "Foundational Toolchains" Agenda ● Basic knowledge for interacting with GPUs ● Accelerate Go programs using GPUs ● Challenges in Go when using outlooks 2 Changkun Ou. 2023. Go on GPU. GopherChina 2023. Session "Foundational Toolchains" Agenda ● Basic knowledge for interacting with GPUs ○ Motivation ○ GPU Driver and Standards ○ Render and0 码力 | 57 页 | 4.62 MB | 1 年前3
Greenplum资源管理器2017 年象行中国(杭州 站)第一期 Greenplum资源管理器 姚珂男/Pivotal kyao@pivotal.io 2017 年象行中国(杭州 站)第一期 Agenda • Greenplum数据库 • Resource Queue • Resource Group 2017 年象行中国(杭州 站)第一期 Greenplum数据库 • 基于PostgreSQL • 分布式 corruption => PANIC 2017 年象行中国(杭州 站)第一期 Resource Queue • Cost is tricky – 没有明确的定义 – 不同优化器不一致 – 优化器不能被纳入资源管理器 2017 年象行中国(杭州 站)第一期 Resource Queue • Priority is rough – 不能精确控制CPU – CHECK_FOR_INTERRUPTS – BackoffBackendTick0 码力 | 21 页 | 756.29 KB | 1 年前3
Bridging the Gap: Writing Portable Programs for CPU and GPU1/66Bridging the Gap: Writing Portable Programs for CPU and GPU using CUDA Thomas Mejstrik Sebastian Woblistin 2/66Content 1 Motivation Audience etc.. Cuda crash course Quiz time 2 Patterns Oldschool Motivation Patterns The dark path Cuda proposal Thank you Why write programs for CPU and GPU Difference CPU/GPU Algorithms are designed differently Latency/Throughput Memory bandwidth Number of cores Motivation Patterns The dark path Cuda proposal Thank you Why write programs for CPU and GPU Difference CPU/GPU Why it makes sense? Library/Framework developers Embarrassingly parallel algorithms User0 码力 | 124 页 | 4.10 MB | 6 月前3
FFmpeg在Intel GPU上的硬件加速与优化FFmpeg在Intel GPU上的 硬件加速与优化 赵军 DCG/NPG @ Intel 介绍FFmpeg VAAPI • Media pipeline review • 何谓FFmpeg VAAPI • 为什么我们需要FFmpeg VAAPI • 当前状态 • 更进一步的计划 • 附录 典型的 media pipeline File Device Network Stream radeon, nouveau (?), freedreno, … • 废弃的 API bridges • vdpau—va bridge • powervr—va bridge • … Intel GPU简介 • Gfx Label • Gen3: Pinetrail (Pineview) • Gen4: G965 • Gen5: G4X, Ironlake (Piketon, Calpella) Kabylake • … • Intel® Processor Graphics • 3D 渲染(OpenGL & Vulkan) • Media • 显示与计算(CUDA & OpenCL) Intel GPU media 硬件编程模型 slice Ring buffer FFmpeg MSDK i965/iHD OS scheduler com1 KMD com2 com3 Batch0 码力 | 26 页 | 964.83 KB | 1 年前3
激活函数与GPU加速激活函数与GPU加速 主讲人:龙良曲 Leaky ReLU simply SELU softplus GPU accelerated 下一课时 测试 Thank You.0 码力 | 11 页 | 452.22 KB | 1 年前3
TensorFlow on Yarn:深度学习遇上大数据• 没有GPUs集群资源管理和调度(内存、CPU、GPU、 端⼝),集群资源负载不均� • 训练数据⼿动分发,训练模型⼿动保存� • 进程遗留问题,需要⼿动杀死� • 缺乏作业统⼀管理,不便对作业运⾏状态跟踪� • 日志查看不⽅便� � 总结:� TensorFlow使用现状及痛点 • 集群资源的管理(目前支持CPU、内存,需要扩展GPU 资源管理)� • 作业的统⼀管理、状态跟踪� 同时支持单机和分布式TensorFlow程序� • 支持GPU资源管理和调度� • 不再需要⼿动配置CluserSpec信息,仅需要设置work 和ps的数量� • 训练数据和训练模型基于HDFS统⼀存储� • 作业训练结束自动回收work、ps和Tensorboard进程� • 训练效果和性能没有损失� 基本目标:� TensorFlow on Yarn设计 • 支持GPU亲和性调度(提⾼通信效率)� 8192M \ #每个worker需要的内存� --worker-cores 1 \ #每个worker需要的CPU核数� --worker-gpus 2 \ #每个worker需要的GPU卡数� --ps-num 2 \ #ps数量� --ps-memory 1024M \ #每个ps需要的内存� --ps-cores 1 \ #每个ps需要的CPU核数�0 码力 | 32 页 | 4.06 MB | 1 年前3
运维上海2017-Kubernetes与AI相结合架构、落地解析-赵慧智Docker/rkt • kubelet • kube-proxy Kubernetes 基本概念 - Master Master 节点是 Kubernetes 环境中的管理节点,负责整个集群 的资源管理/分配,容器编排。一个 Master 节点包含如下组件: • kube-controller-manager • kube-apiserver • kube-scheduler Kubernetes Example 当我们有多个 core 的时候 深度学习对于并行化硬件的依赖 - GPU • Core 的多少往往决定真正并行化运算的数量 GPU 硬件使用流程 AI 模型 • AI 模型会决定最终使用资源的多少 • AI 模型的服务性能还与网络相关 • 并不是所有 AI 模型都适合通过 GPU 加速 Kubernetes 介绍 Kubernetes 使用 Kubernetes 10G及以上的 networking和GPU TensorFlow 介绍 • TensorFlow™ 是一个使用数据流图进行数值计算的开源软件 库。图中的节点代表数学运算, 而图中的边则代表在这些节 点之间传递的多维数组(张量 。这种灵活的架构可让您使 用一个 API 将计算工作部署到桌面设备、服务器或者移动设 备中的一个或多个 CPU 或 GPU。 TensorFlow 最初是由 Google0 码力 | 77 页 | 14.48 MB | 1 年前3
Kubernetes for Edge Computing across
Inter-Continental Haier Production Sites混合云 监控日志 基础服务 镜像仓库 认证鉴权 资源管理 面向业务开发 CI/CD 微服务 应用商店 面向业务管理 弹性伸缩 API Gateway 负载均衡 应用编排 日志监控 告警 服务发现 API 业务中台 多租户管理 运维中台 云端操作系统 数据中台 面向数据与智能 数据管理 大数据 机器学习 资源管理 深度学习 AI工具 API IOT中台 提交多框架(TensorFlow、PyTorch 、MxNet等)的模型训练作业,支 持分布式和 GPU 加速,以及训练过 程的可视化。 模型训练 模型版本管理,模型推理服务的部署 、监控、管理和升级,提供 A/B test 和滚动升级。 模型服务 实现对 GPU 集群资源进行管理,根 据用户作业请求自动分配和回收 GPU 资源。 GPU 集群管理 对接存储系统,管理数据集;提供 notebook 交互式代码开发和调试工0 码力 | 33 页 | 4.41 MB | 1 年前3
Volcano加速金融行业大数据分析平台云原生化改造的应用实践公平调度、任务拓扑调度、基于SLA调度、作业抢占、回填、弹性调度、 混部等。 3. 细粒度的资源管理 提供作业队列,队列资源预留、队列容量管理、多租户的动态资源共享。 4. 性能优化和异构资源管理 调度性能优化,并结合 Kubernetes 提供扩展性、吞吐、网络、运行时的 多项优化,异构硬件支持x86, Arm, GPU, 昇腾,昆仑等。 Volcano Global Kubernetes Volcano-controller Kube-apiserver Job/JobFlow Queue vc-controller vc-scheduler vsub kubectl Node NUMA GPU Node NUMA GPU … VolcanoGlobal 架构 多中心 低成本 无绑定 VG Scheduler ETCD Karmada Controllers K8s API Server Fair-share • Namespace fair-share • Task-topology • IO-Awareness • Resource reservation • SLA • GPU sharing • NUMA-Awareness • HDRF • Hierarchy Queue • Co-location • Elastic scheduling • TDM •0 码力 | 18 页 | 1.82 MB | 1 年前3
2023年中国基础软件开源产业研究白皮书多个技术簇的一类根 技术软件,拥有技术 门槛高、衍生场景复 杂等特点 中间件:不同系统和应用程序之间交互 与协作的桥梁 AI框架:具备构建和部署人工智能模型 的基础的全套开发工具 操作系统:是软硬件资源的资源管理者, 为用户与应用程序提供交互接口 数据库:通过对数据的访问与管理,支 持各种应用程序和业务的需求 编程语言:人与计算机交互的“语言”, 含编译器、基础编程语言、IED等 社区协作:鼓励各方在开放平台上协作 码量需要相应规模的人分工合作才能共同完 成设计。加之国内的操作系统起步较晚,需要更多的人才不断迭代整体性能水平。 操作系统生态适配需要大量人力:操作系统需要对软硬件生态适配、兼容,才能更好的发挥其资源管理者的作用。这种适配是双向 的,不同应用场景操作系统适配的生态也有所差异,随着场景的不断创新增加,生态适配性问题日渐复杂,仅靠单个操作系统发行 商进行生态匹配难以解决问题,需要开源集合更多的开发者力量进行帮助。 ,社区正在加强产学研联 动措施,以扩大参与人才的广度和深度,以期产生更好的马太效应。社区的发展不仅局限于国内生态,还积极吸引海外参与者,致 力于深化操作系统的渗透率和覆盖率,充分发挥操作系统作为“资源管理者”的角色。 注释:指标数据时间截止2023年11月。 来源:根据专家访谈、公开资料,由艾瑞咨询研究院自主研究及绘制。 2019.09 华为宣布openEuler开源 2020.12 社区理事会正式成立,3万套商业装机0 码力 | 43 页 | 4.69 MB | 1 年前3
共 632 条
- 1
- 2
- 3
- 4
- 5
- 6
- 64













