动手学深度学习 v2.04 索引和切片 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 45 2.1.5 节省内存 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 46 2.1.6 转换为其他Python对象 计算机 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 517 12.4.2 内存 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 517 12.4.3 存储器 org/wiki/Alan_Turing 22 https://en.wikipedia.org/wiki/Donald_O._Hebb 1.5. 深度学习的发展 33 表1.5.1: 数据集vs计算机内存和计算能力 年代 数据规模 内存 每秒浮点运算 1970 100 (鸢尾花卉) 1 KB 100 KF (Intel 8080) 1980 1 K (波士顿房价) 100 KB 1 MF (Intel 80186)0 码力 | 797 页 | 29.45 MB | 1 年前3
腾讯基于 Kubernetes 的企业级容器云实践-罗韩梅手段:在线离线集群做合并。 问题:容器只能管理CPU和内存,不能对网络和磁盘IO做 管理,导致在线应用受离线业务影响。 一次现网事故 一个用户需求 可靠 设计目标 ◼在某个cgroup网络繁忙时,能保证其设定配额不会被其他cgroup挤占 ◼在某个cgroup没有用满其配额时,其他cgroup可以自动使用其空闲的部分带宽 ◼在多个cgroup分享其他cgroup的空闲带宽时,优先级高的优先; 优先级相同 时, 时, 配额大的占用多,配额小的占用少 ◼尽量减少为了流控而主动丢包 下图是两个进程都拼命争抢网络带宽时的效果。两个进程的 带宽和时延都得不到任何程度的保证。 ◼队列: 不增加队列, 对每个报文直接在正常代码路径上进行决策 ◼Cgroup区分(标记): 在正常处理流程中,报文查找到目标socket结构之 后,根据socket的owner process来确定cgroup ◼报文决策: 令牌桶 通过将GPU设备及运行时的库转为volume挂载到容器中实现了容 器与驱动的解耦。但是一个GPU设备仅能挂载到一个容器中,不 支持容器间共享GPU设备 ConvGPU 仅支持内存资源的共享且仅处理单个GPU 容器使用GPU的问题: • 需要特定的硬件设备 • 不支持容器共享 • 仅支持内存资源虚拟化 • 仅支持单个GPU卡 采用Device Plugin: • GPU资源的发现 • 为任务分配相应的硬件 资源及配置容器运行时环境0 码力 | 28 页 | 3.92 MB | 1 年前3
VMware Infrastructure 简介Infrastructure VMware Infrastructure 包括 图 1 中所示的下列组件: � VMware ESX Server - 一个在物理服务器上运行的健壮的、经过生产验证的虚拟化 层,它将处理器、内存、存储器和网络资源抽象为多个虚拟机。 ESX Server 分为 多个不同版本。 � ESX Server 3 包含内置服务控制台。它的安装文件是一个可安装的 CD-ROM 引导映像。 � ESX 务器组之间共享 (与服务器组连接的)存储阵列,可实现存储资源的聚合,并在将这 些资源置备给虚拟机时使资源存储更具灵活性。 IP 网络 每个计算服务器都可有多个以太网网络接口卡 (网卡),使整个数据中心的带宽增加, 网络更稳定。 VirtualCenter Server VirtualCenter Server 只为数据中心提供一个单一控制点。它提供了许多基本的数据中 心服务,如访问控制、性能监控和 � 计算资源和内存资源,分别称为主机、群集和资源池 � 称为数据存储的存储资源 � 称为网络的网络资源 � 虚拟机 图 3. 虚拟数据中心架构 主机是运行 ESX Server 的物理机的计算和内存资源的虚拟表示。当一个或多个物理机 组合在一起工作并作为一个整体来管理时,聚合计算和内存资源就形成群集。物理机可 以动态添加或从群集移除。从主机和群集中获得的计算和内存资源能够被精细地分区成0 码力 | 42 页 | 2.41 MB | 1 年前3
OpenShift Container Platform 3.11 扩展和性能指南会积极缓存资源的反序列化版本,以简化 CPU 负载。但是,如果 较小的 pod 集群小于 1000 个 pod,这个缓存可能会浪费大量内存用于微小的 CPU 负载。默认缓存大小 为 50,000 个条目,它根据资源的大小,可以将 cupy 1 增加到 2 GB 内存。使用 /etc/origin/master/master-config.yaml 中的以下设置可以减少这个缓存大小: 发送到 API maxRequestsInFlight 和 QPS。 更改默认值时,需要有一个很好的平衡,因为 API 服务器的 CPU 和内存消耗,etcd IOPS 会在并行处理 更多请求时增加。另请注意,大量非watch 请求可能会在固定 60 秒超时后取消 API 服务器过载,客户端 开始重试。 API 服务器系统中提供了足够的 CPU 和内存资源,API 服务器请求过载问题可安全地缓解这个问题。通过 考虑以上提到的因素并浏览了 ma 点上的 pod 数量。超过这些值可导致: OpenShift Container Platform 和 Docker 的 CPU 使用率增加。 减慢 pod 调度的速度。 潜在的内存不足情况(取决于节点中的内存量)。 耗尽 IP 地址池。 资源过量使用,导致用户应用程序性能变差。 注意 注意 在 Kubernetes 中,包含单个容器的 pod 实际使用两个容器。第二个容器用来在实际容器0 码力 | 58 页 | 732.06 KB | 1 年前3
OpenShift Container Platform 4.10 监控Prometheus Adapter Prometheus Adapter(上图中的 PA)负责转换 Kubernetes 节点和 Pod 查询以便在 Prometheus 中使 用。转换的资源指标包括 CPU 和内存使用率指标。 Prometheus Adapter 会公开用于 Pod 横向自动扩展 的集群资源指标 API。Prometheus Adapter 也用于 oc adm top nodes 和 oc Prometheus adapter Prometheus Adapter 会转换 Kubernetes 节点和 pod 查询以便在 Prometheus 中使用。转换的资源指 标包括 CPU 和内存使用率。Prometheus Adapter 会公开用于 Pod 横向自动扩展的集群资源指标 API。 Prometheus Operator 第 第 1 章 章 监 监控概述 控概述 9 为监控用户定义的项目的 Prometheus 实例配置 24 小时的数据保留周期。 为 Prometheus 容器定义最低 200 毫秒的资源请求。 为 Prometheus 容器定义最低 2 GiB 内存的 Pod 资源请求。 注意 注意 Prometheus 配置映射组件在 cluster-monitoring-configConfigMap 对 象中被称为 prometheusK8s,在 u0 码力 | 135 页 | 1.58 MB | 1 年前3
OpenShift Container Platform 4.13 虚拟化元素 元素 描述 描述 下 下载 载 virtctl 下载 virtctl 命令行工具来管理资源。 概述 概述标签页 资源、使用量、警报和状态 顶级 顶级消 消费 费者 者选项卡 CPU、内存和存储资源的主要使用者 Migration 标签页 实时迁移状态 第 第 4 章 章 WEB 控制台概述 控制台概述 17 设 设置 置标签页 集群范围的设置,包括实时迁移限制和用户权限 元素 Operator。 VirtualMachines 标题 VirtualMachines 数量,带有图表,显示最后 7 天的趋势 vCPU 使用 使用标题 vCPU 使用量,图表显示最后 7 天的趋势 内存 内存标题 内存用量,图表显示最后 7 天的趋势 存 存储 储标题 存储使用,图表显示最后 7 天的趋势 警 警报 报标题 OpenShift Virtualization 警报,按严重性分组 VirtualMachine 每个模板的 VirtualMachines 图标 从模板创建的 VirtualMachines 数量,按模板名称分组 4.1.2. 顶级消费者选项卡 Top consumers 选项卡显示 CPU、内存和存储的主要使用者。 例 例 4.3. 顶级 顶级消 消费 费者 者选项 选项卡 卡 OpenShift Container Platform 4.13 虚 虚拟 拟化 化 18 元素 元素0 码力 | 393 页 | 4.53 MB | 1 年前3
微博在线机器学习和深度学习实践-黄波曝光,互动,点击,真实阅读等多种数据流接入并多流拼接 • 如何解决日志延时问题 • 延迟等待机制,先到先走 • 定时轮寻,最长N分钟等待 • Kafka 堆积监控,实时报警 • 如何解决内存问题 • 调整内存参数 • 关闭多余的监控点 • 如何异常处理 • 自动化监控与修复系统 • Checkpoint 节点异常修复 3 在线机器学习-实时样本生成 • 在线机器学习模型训练:Flink/Blink+WeiPS 发,锁粒度优化,性能提升5-10倍 • 缓存优化:使用堆外内存与LRU过期机制,解决GC引起的性能损耗,性能提升3-5倍 • 分区优化:支持多种分区策略(RANGE/HASH/MOD),解决数据倾斜导致的流量热点瓶颈问题,性能提升2-5倍 • 存储优化:自定义存储方式(ByRow&ByKey),基于row进行矩阵压缩存储,参数内存占用减少90% 3 在线机器学习-参数服务器 模型验证 离线训练 PS:BSP/SSP/ASP多种通信模式支持 • MPI&RingAllreduce:Horovod,使用 MPI替换grpc,同步通信模式;带宽优化,增加延时; • PS&MPI:DistributionStrategy API,统一分布式语义,解耦分布式架构与模型训练框架 • 使用FP16通信,使用FP32做计算,带宽压力降低一倍 • IO优化 • 多线程样本并发读取,样本读取与计算PIPELINE,实现计算与IO的overlap0 码力 | 36 页 | 16.69 MB | 1 年前3
尚硅谷大数据技术之Hadoop(生产调优手册)NameNode 内存生产配置 1)NameNode 内存计算 每个文件块大概占用 150byte,一台服务器 128G 内存为例,能存储多少文件块呢? 128 * 1024 * 1024 * 1024 / 150Byte ≈ 9.1 亿 G MB KB Byte 2)Hadoop2.x 系列,配置 NameNode 内存 NameNode 内存默认 2000m,如果服务器内存 2000m,如果服务器内存 4G,NameNode 内存可以配置 3g。在 hadoop-env.sh 文件中配置如下。 HADOOP_NAMENODE_OPTS=-Xmx3072m 3)Hadoop3.x 系列,配置 NameNode 内存 (1)hadoop-env.sh 中描述 Hadoop 的内存是动态分配的 # The maximum amount of heap to memory size. # export HADOOP_HEAPSIZE_MIN= HADOOP_NAMENODE_OPTS=-Xmx102400m (2)查看 NameNode 占用内存 [atguigu@hadoop102 ~]$ jps 3088 NodeManager 2611 NameNode 3271 JobHistoryServer 2744 DataNode0 码力 | 41 页 | 2.32 MB | 1 年前3
OpenShift Container Platform 4.6 网络附加的运行时配置 12.7.1.2. 基于 InfiniBand 的 SR-IOV 附加的运行时配置 12.7.2. 将 pod 添加到额外网络 12.7.3. 创建与 SR-IOV pod 兼容的非统一内存访问 (NUMA) 12.7.4. 其他资源 12.8. 配置高性能多播 12.8.1. 高性能多播 12.8.2. 为多播配置 SR-IOV 接口 12.9. 在 DPDK 和 RDMA 模式中使用虚拟功能(VF)的示例 网络设备与 OpenShift Container Platform 集群上安装在裸机或 Red Hat OpenStack Platform(RHOSP)基础架构上安装的额外网络一起使用,用于需要高带宽或低延迟的应用程序。 您可以使用以下命令在节点上启用 SR-IOV: 12.1.1. 负责管理 SR-IOV 网络设备的组件 SR-IOV Network Operator 会创建和管理 SR-IOV worker 节点上发现的所有 SR-IOV 设备列表。 12.1.1.4. 在 在 pod 中使用虚 中使用虚拟 拟功能的示例 功能的示例 您可以在附加了 SR-IOV VF 的 pod 中运行远程直接内存访问 (RDMA) 或 Data Plane Development Kit (DPDK) 应用程序。 本示例演示了在 RDMA 模式中使用虚拟功能 (VF) 的 pod: 使用 使用 RDMA0 码力 | 256 页 | 2.78 MB | 1 年前3
OpenShift Container Platform 4.9 节点2.4. 查看资源日志 2.3. 为 POD 配置 OPENSHIFT CONTAINER PLATFORM 集群 2.3.1. 配置 pod 重启后的行为 2.3.2. 限制可供 pod 使用的带宽 2.3.3. 了解如何使用 pod 中断预算来指定必须在线的 pod 数量 2.3.3.1. 使用 pod 中断预算指定必须在线的 pod 数量 2.3.4. 使用关键 pod 防止删除 pod 4.1.2. 扩展策略 2.4.2. 使用 Web 控制台创建 pod 横向自动扩展 2.4.3. 使用 CLI 根据 CPU 使用率创建 pod 横向自动扩展 2.4.4. 使用 CLI 根据内存使用率创建 pod 横向自动扩展对象 2.4.5. 使用 CLI 了解 pod 横向自动扩展状态条件 2.4.5.1. 使用 CLI 查看 pod 横向自动扩展状态条件 2.4.6. 其他资源 查看和列出 OPENSHIFT CONTAINER PLATFORM 集群中的节点 5.1.1. 关于列出集群中的所有节点 5.1.2. 列出集群中某一节点上的 pod 5.1.3. 查看节点上的内存和 CPU 用量统计 5.2. 操作节点 5.2.1. 了解如何撤离节点上的 pod 5.2.2. 了解如何更新节点上的标签 5.2.3. 了解如何将节点标记为不可调度或可以调度 5.2.4.0 码力 | 374 页 | 3.80 MB | 1 年前3
共 167 条
- 1
- 2
- 3
- 4
- 5
- 6
- 17













