监控管理 - IT文库_程序员IT互联网编程电子书和文档免费下载，助您码力十足！

首页文库资料文章资讯上传文档发布文章登录账户

谭国富：深度学习在图像审核的应用

自建识别模型加大审核人力一旦出现严重违规平台面临停业整顿风险昂贵的专业机器、AI专家, 样本不足导致识别模型漏过模型调优难度大人力审核疲劳容易发生漏过，人力招聘、管理需要耗费不小成本识别种类完备节约成本节省审核人力减少人工漏审技术诉求：自动识别图片或视频中出现的文字、二维码、logo等内容以及违规人像、淫秽、血腥、暴力、极端主义、恐怖主义图像 Job 2 WK Job 2 WK Job 3 监控/启停任务调度/资源管理监控上报 cephfs存储集群本地文件系统数据模型/日志 client 管理数据提取模型、查看日志提交/管理任务用户 docker.oa.co m 自动拉取镜像 Redis 冷数据热任务/监控数据/集群信息 • 任务监控与自动重启 • 分布式多机训练，不可避免遇到由于硬件/网分布式多机训练，不可避免遇到由于硬件/网络波动引起的异常 • 监控任务运行状况，当任务发生异常时，选择不同的重启策略 • 集群管理与监控 • 节点心跳异常告警 • 运维工具化，快速屏蔽/启动异常机器 • 灵活的资源分配 • 支持以 GPU 或节点为粒度进行资源分配 • 用户配置任务所需最小资源 • 自动扩缩容，最大化资源使用率 • 支持不同计算框架 • 调度与任务松耦合，用户可以灵活定义任务 • 支持配置

0 码力 | 32 页 | 5.17 MB | 1 年前
3
【PyTorch深度学习-龙龙老师】-测试版202112

代码文件(.py 格式)。这里选择安装集成了 Python 解释器和虚拟环境等一系列辅助功能的 Anaconda 软件，用户通过安装 Anaconda 软件，可以同时获得 Python 解释器、包管理和虚拟环境等一系列便捷功能，何乐而不为呢。首先从 https://www.anaconda.com/distribution/#download-section 网址进入 Anaconda 下载页面，选择 28 CUDA 安装结果测试-1 图 1.29 CUDA 安装结果测试-2 1.6.3 PyTorch 安装 PyTorch 和其他的 Python 库一样，使用 Python 包管理工具 pip install 命令即可安装。官方推荐采用 conda install 命令安装。打开 https://pytorch.org/网页，选择 Windows 操作系统、Conda 安装方式、Python b, w = step_gradient(b, w, np.array(points), lr) loss = mse(b, w, points) # 计算当前的均方差，用于监控训练进度 if step%50 == 0: # 打印误差和实时的 w,b 值 print(f"iteration:{step}, loss:{loss}

0 码力 | 439 页 | 29.91 MB | 1 年前
3
微博在线机器学习和深度学习实践-黄波

曝光，互动，点击，真实阅读等多种数据流接入并多流拼接 • 如何解决日志延时问题 • 延迟等待机制，先到先走 • 定时轮寻，最长N分钟等待 • Kafka 堆积监控，实时报警 • 如何解决内存问题 • 调整内存参数 • 关闭多余的监控点 • 如何异常处理 • 自动化监控与修复系统 • Checkpoint 节点异常修复 3 在线机器学习-实时样本生成 • 在线机器学习模型训练：Flink/Blink+WeiPS 深度学习-深度学习模型训练 • 分布式模型推理框架：WeiServing 异构CPU集群 kubernetes/ol-submit RPC服务框架 LR/GBDT DNN/DeepFM/W&D 负载均衡/统一版本管理/动态加载/批量化机制特征映射 Embedding 数据处理异构GPU集群 CNN 业务应用模型服务框架排序模型服务多媒体分析服务自然语言分析服务集群调度层核心架构层

0 码力 | 36 页 | 16.69 MB | 1 年前
3
阿里云上深度学习建模实践-程孟力

推荐引擎 PAI-REC 推荐引擎多路召回曝光/状态过滤粗排/精排策略[类目打散、流量控制、…] 实时采集后端日志 PAI-REC 配置中心 AB实验实验工具拉取配置监控报警 Prometheus Grafana 读取metric 消息队列(datahub/kafka) PAI-REC平台自动化降级负载均衡灰度发布超时控制平台支持日志SLS 多场景模板：物体检测、语音识别 • 数据集管理 • 主动学习 • 智能标注 itags AI SaaS服务（OCR、语音识别、推荐系统、金融风控、疾病预测等） Infrastructure PAI平台（Platform of Artificial Intelligence） • 一键部署、弹性扩缩 • 多框架、多语言 • 推理优化Blade • 多维度监控+报警 • 自定义镜像 • 全托管+半托管

0 码力 | 40 页 | 8.51 MB | 1 年前
3
AI大模型千问 qwen 中文文档

和 q8_0 。欲了解更多信息，请访问 llama.cpp 。 1.10 vLLM 我们建议您在部署 Qwen 时尝试使用 vLLM 。它易于使用，且具有最先进的服务吞吐量、高效的注意力键值内存管理（通过 PagedAttention 实现）、连续批处理输入请求、优化的 CUDA 内核等功能。要了解更多关于 vLLM 的信息，请参阅论文和文档。 1.10.1 安装默认情况下，你可以通过 SkyPilot 1.11.1 SkyPilot 是什么 SkyPilot 是一个可以在任何云上运行 LLM、AI 应用以及批量任务的框架，旨在实现最大程度的成本节省、最高的 GPU 可用性以及受管理的执行过程。其特性包括： • 通过跨区域和跨云充分利用多个资源池，以获得最佳的 GPU 可用性。 • 把费用降到最低——SkyPilot 在各区域和云平台中为您挑选最便宜的资源。无需任何托管解决方案的的服务规模非常容易，只需运行： sky serve up -n qwen ./serve-72b.yaml 这将启动服务，使用多个副本部署在最经济的可用位置和加速器上。SkyServe 将自动管理这些副本，监控其健康状况，根据负载进行自动伸缩，并在必要时重启它们。将返回一个 endpoint，所有发送至该 endpoint 的请求都将被路由至就绪状态的副本。 2. 运行如下命令检查服务的状态：

0 码力 | 56 页 | 835.78 KB | 1 年前
3
机器学习课程-温州大学-01深度学习-引言

2011年 D轮融资估值40亿美元 8 科大讯飞智能语音技术综合中国 1999年上市市值108亿美元 9 Automation Anywhere 自然语言处理技术、非结构化数据认知企业管理美国 2003年 B轮融资估值68亿美元 10 IBM Watson（IBM沃森）深度学习、智适应学习技术计算机美国 1911年上市市值1198亿美元 11 松鼠AI 1对1 智适应学习技术、机器学习出农业机械穿过作物的最佳路径。另外也可用来识别杂草和作物，有效减少除草剂的使用量。制造业计算机视觉也可以帮助制造商更安全、更智能、更有效地运行，比如预测性维护设备故障，对包装和产品质量进行监控，并通过计算机视觉减少不合格产品。交通自动驾驶汽车需要计算机视觉。特斯拉 (Tesla)、宝马(BMW)、沃尔沃(Volvo)和奥迪 (Audi)等汽车制造商Y已经通过摄像头、激光

0 码力 | 80 页 | 5.38 MB | 1 年前
3
动手学深度学习 v2.0

效率 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 197 5.2 参数管理 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 197 5.2 码，向读者展示如何解决实践中的问题；（4）允许我们和社区的快速更新;（5）由一个论坛2作为补充，用于技术细节的互动讨论和回答问题。这些目标经常是相互冲突的。公式、定理和引用最好用LaTeX来管理和布局。代码最好用Python描述。网页原生是HTML和JavaScript的。此外，我们希望内容既可以作为可执行代码访问、作为纸质书访问，作为可下载的PDF访问，也可以作为网站在互联网上访 https://discuss.d2l.ai/t/2089 目录 15 16 目录 1 引言时至今日，人们常用的计算机程序几乎都是软件开发人员从零编写的。比如，现在开发人员要编写一个程序来管理网上商城。经过思考，开发人员可能提出如下一个解决方案：首先，用户通过Web浏览器（或移动应用程序）与应用程序进行交互；紧接着，应用程序与数据库引擎进行交互，以保存交易历史记录并跟踪每个用户的

0 码力 | 797 页 | 29.45 MB | 1 年前
3
经典算法与人工智能在外卖物流调度中的应用

当前配送的繁忙程度 • 天气情况.. 1 2 3 提纲 4 外卖订单的智能调度系统一. 智能调度系统的大数据分析监控二. 智能调度系统中的人工智能三. 提纲 5 外卖订单的智能调度系统一. 智能调度系统的大数据分析监控二. 智能调度系统中的人工智能三. 外卖订单智能调度系统发展历程 6 人工派单模式 • 调度员根据订单地址和骑士位置来进行订单分配 1 2 3 4 5 提纲 16 外卖订单的智能调度系统一. 智能调度系统的大数据分析监控二. 智能调度系统中的人工智能三. 调度系统智能调度系统的分析监控 17 • 真实再现调度场景细节 • 回溯定位异常调度原因，诊断调试算法 • 实时获取调度监控指标 • 及时预警引入人工干预 • 精准模拟实际订单分布情况 • 有效评估调度算法的改进效果 • 合理划分物流范围节省调度运力，提升商户配送能力 • 云端虚拟队列，实现调度指派 • 提升物流效率仿真系统实时监控时光机寻宝系统 1 2 3 4 5 时光机系统—历史数据可视化分析真实再现调度场景细节回溯定位异常调度原因，诊断调试算法 18 1 实时监控系统—当前状况实时监控 19 实时获取调度监控指标及时预警引入人工干预 2 仿真系统—未来效果仿真预测订单在岗骑士数量

0 码力 | 28 页 | 6.86 MB | 1 年前
3
QCon北京2018-《未来都市--智慧城市与基于深度学习的机器视觉》-陈宇恒

AI+智慧城市 2015-2017 l单机、简易分布式人脸检测、跟踪、比对平台 l处理数十路到数百路监控摄像头数据 l千万级别深度学习特征检索 l行业试水 2018-2019 l云原生Cloud-Native超大规模视图存储、处理、检索 l处理数万到数十万路，城市范围级别监控、门禁摄像头数据 l10-100 Billion级别深度学习特征检索 - PB以上级别数据库存储 -

0 码力 | 23 页 | 9.26 MB | 1 年前
3
TensorFlow on Yarn：深度学习遇上大数据

没有GPUs集群资源管理和调度（内存、CPU、GPU、端⼝），集群资源负载不均� • 训练数据⼿动分发，训练模型⼿动保存� • 进程遗留问题，需要⼿动杀死� • 缺乏作业统⼀管理，不便对作业运⾏状态跟踪� • 日志查看不⽅便� � 总结：� TensorFlow使用现状及痛点 • 集群资源的管理（目前支持CPU、内存，需要扩展GPU 资源管理）� • 作业的统⼀管理、状态跟踪� Pool）的划分� • 作业进程的资源隔离� Yarn能解决什么问题：� TensorFlow on Yarn设计 • 同时支持单机和分布式TensorFlow程序� • 支持GPU资源管理和调度� • 不再需要⼿动配置CluserSpec信息，仅需要设置work 和ps的数量� • 训练数据和训练模型基于HDFS统⼀存储� • 作业训练结束自动回收work、ps和Tensorboard进程� public abstract void setGpuCores(int gCores);� � 最终在ResourceManager端需要完成：� 1、对NodeManager GPU卡数量的统计管理� 2、调度器统计管理每个Pool的GPU设备数的分配情况� � 具体可以参考下面Patch的实现思路：� https://issues.apache.org/jira/browse/YARN-5517� TensorFlow

0 码力 | 32 页 | 4.06 MB | 1 年前
3

共 21 条前往

页

分类

语言

格式