谭国富:深度学习在图像审核的应用自建识别模型 加大审核人力 一旦出现严重违规平 台面临停业整顿风险 昂贵的专业机器、AI专家, 样本不足导致识别模型漏 过模型调优难度大 人力审核疲劳容易发 生漏过,人力招聘、 管理需要耗费不小成 本 识别种类 完备 节约成本 节省审核 人力 减少人工 漏审 技术诉求:自动识别图片或视频中出现的文 字、二维码、logo等内容以及违规人像、淫 秽、血腥、暴力、极端主义、恐怖主义图像 Job 2 WK Job 2 WK Job 3 监控/启停 任务调度/资源管理 监控上报 cephfs存储集 群 本地文件系统 数据 模型/日志 client 管理数据 提取模型、 查看日志 提交/管理任务 用户 docker.oa.co m 自动拉取镜像 Redis 冷数据 热任务/监控数据/集群信息 • 任务监控与自动重启 • 分布式多机训练,不可避免遇到由于硬件/网 分布式多机训练,不可避免遇到由于硬件/网 络波动引起的异常 • 监控任务运行状况,当任务发生异常时,选 择不同的重启策略 • 集群管理与监控 • 节点心跳异常告警 • 运维工具化,快速屏蔽/启动异常机器 • 灵活的资源分配 • 支持以 GPU 或节点为粒度进行资源分配 • 用户配置任务所需最小资源 • 自动扩缩容,最大化资源使用率 • 支持不同计算框架 • 调度与任务松耦合,用户可以灵活定义任务 • 支持配置0 码力 | 32 页 | 5.17 MB | 1 年前3
【PyTorch深度学习-龙龙老师】-测试版202112代码文件(.py 格式)。 这里选择安装集成了 Python 解释器和虚拟环境等一系列辅助功能的 Anaconda 软件, 用户通过安装 Anaconda 软件,可以同时获得 Python 解释器、包管理和虚拟环境等一系列 便捷功能,何乐而不为呢。首先从 https://www.anaconda.com/distribution/#download-section 网址进入 Anaconda 下载页面,选择 28 CUDA 安装结果测试-1 图 1.29 CUDA 安装结果测试-2 1.6.3 PyTorch 安装 PyTorch 和其他的 Python 库一样,使用 Python 包管理工具 pip install 命令即可安装。 官方推荐采用 conda install 命令安装。打开 https://pytorch.org/网页,选择 Windows 操作系 统、Conda 安装方式、Python b, w = step_gradient(b, w, np.array(points), lr) loss = mse(b, w, points) # 计算当前的均方差,用于监控训练进度 if step%50 == 0: # 打印误差和实时的 w,b 值 print(f"iteration:{step}, loss:{loss}0 码力 | 439 页 | 29.91 MB | 1 年前3
微博在线机器学习和深度学习实践-黄波曝光,互动,点击,真实阅读等多种数据流接入并多流拼接 • 如何解决日志延时问题 • 延迟等待机制,先到先走 • 定时轮寻,最长N分钟等待 • Kafka 堆积监控,实时报警 • 如何解决内存问题 • 调整内存参数 • 关闭多余的监控点 • 如何异常处理 • 自动化监控与修复系统 • Checkpoint 节点异常修复 3 在线机器学习-实时样本生成 • 在线机器学习模型训练:Flink/Blink+WeiPS 深度学习-深度学习模型训练 • 分布式模型推理框架:WeiServing 异构CPU集群 kubernetes/ol-submit RPC服务框架 LR/GBDT DNN/DeepFM/W&D 负载均衡/统一版本管理/动态加载/批量化机制 特征映射 Embedding 数据处理 异构GPU集群 CNN 业务应用 模型服务 框架 排序模型服务 多媒体分析服务 自然语言分析服务 集群调度层 核心架构层0 码力 | 36 页 | 16.69 MB | 1 年前3
阿里云上深度学习建模实践-程孟力推荐引擎 PAI-REC 推荐引擎 多路召回 曝光/状态过滤 粗排/精排 策略[类目打散、流量控制、…] 实时采集后端日志 PAI-REC 配置中心 AB实验 实验工具 拉取配置 监控报警 Prometheus Grafana 读取metric 消息队列(datahub/kafka) PAI-REC平台 自动化降级 负载均衡 灰度发布 超时控制 平台支持 日志SLS 多场景模板:物体检 测、语音识别 • 数据集管理 • 主动学习 • 智能标注 itags AI SaaS服务(OCR、语音识别、推荐系统、金融风控、疾病预测等) Infrastructure PAI平台(Platform of Artificial Intelligence) • 一键部署、弹性扩缩 • 多框架、多语言 • 推理优化Blade • 多维度监控+报警 • 自定义镜像 • 全托管+半托管0 码力 | 40 页 | 8.51 MB | 1 年前3
AI大模型千问 qwen 中文文档和 q8_0 。欲了解更多信息,请访问 llama.cpp 。 1.10 vLLM 我们建议您在部署 Qwen 时尝试使用 vLLM 。它易于使用,且具有最先进的服务吞吐量、高效的注意力键值 内存管理(通过 PagedAttention 实现)、连续批处理输入请求、优化的 CUDA 内核等功能。要了解更多关于 vLLM 的信息,请参阅 论文 和 文档 。 1.10.1 安装 默认情况下,你可以通过 SkyPilot 1.11.1 SkyPilot 是什么 SkyPilot 是一个可以在任何云上运行 LLM、AI 应用以及批量任务的框架,旨在实现最大程度的成本节省、最 高的 GPU 可用性以及受管理的执行过程。其特性包括: • 通过跨区域和跨云充分利用多个资源池,以获得最佳的 GPU 可用性。 • 把费用降到最低——SkyPilot 在各区域和云平台中为您挑选最便宜的资源。无需任何托管解决方案的 的服务规模非常容易,只需运行: sky serve up -n qwen ./serve-72b.yaml 这将启动服务,使用多个副本部署在最经济的可用位置和加速器上。SkyServe 将自动管理这些副本,监控其 健康状况,根据负载进行自动伸缩,并在必要时重启它们。 将返回一个 endpoint,所有发送至该 endpoint 的请求都将被路由至就绪状态的副本。 2. 运行如下命令检查服务的状态:0 码力 | 56 页 | 835.78 KB | 1 年前3
机器学习课程-温州大学-01深度学习-引言2011年 D轮融资 估值40亿美元 8 科大讯飞 智能语音技术 综合 中国 1999年 上市 市值108亿美元 9 Automation Anywhere 自然语言处理技术、非结构化数据认知 企业管理 美国 2003年 B轮融资 估值68亿美元 10 IBM Watson(IBM沃森) 深度学习、智适应学习技术 计算机 美国 1911年 上市 市值1198亿美元 11 松鼠AI 1对1 智适应学习技术、机器学习 出农业机械穿过作物的最佳路径。另 外也可用来识别杂草和作物,有效减 少除草剂的使用量。 制造业 计算机视觉也可以帮助制造商更安 全、更智能、更有效地运行,比如预 测性维护设备故障,对包装和产品质 量进行监控,并通过计算机视觉减少 不合格产品。 交通 自动驾驶汽车需要计算机视觉。特斯拉 (Tesla)、宝马(BMW)、沃尔沃(Volvo)和奥迪 (Audi)等汽车制造商Y已经通过摄像头、激光0 码力 | 80 页 | 5.38 MB | 1 年前3
动手学深度学习 v2.0效率 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 197 5.2 参数管理 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 197 5.2 码,向读者展示如何解决实践中的问题;(4)允许我们和社区 的快速更新;(5)由一个论坛2作为补充,用于技术细节的互动讨论和回答问题。 这些目标经常是相互冲突的。公式、定理和引用最好用LaTeX来管理和布局。代码最好用Python描述。网页 原生是HTML和JavaScript的。此外,我们希望内容既可以作为可执行代码访问、作为纸质书访问,作为可下 载的PDF访问,也可以作为网站在互联网上访 https://discuss.d2l.ai/t/2089 目录 15 16 目录 1 引言 时至今日,人们常用的计算机程序几乎都是软件开发人员从零编写的。比如,现在开发人员要编写一个程序 来管理网上商城。经过思考,开发人员可能提出如下一个解决方案:首先,用户通过Web浏览器(或移动应 用程序)与应用程序进行交互;紧接着,应用程序与数据库引擎进行交互,以保存交易历史记录并跟踪每个 用户的0 码力 | 797 页 | 29.45 MB | 1 年前3
经典算法与人工智能在外卖物流调度中的应用当前配送的繁忙程度 • 天气情况.. 1 2 3 提纲 4 外卖订单的智能 调度系统 一. 智能调度系统的 大数据分析监控 二. 智能调度系统中 的人工智能 三. 提纲 5 外卖订单的智能 调度系统 一. 智能调度系统的 大数据分析监控 二. 智能调度系统中 的人工智能 三. 外卖订单智能调度系统发展历程 6 人工派单模式 • 调度员根据订单地址和骑士 位置来进行订单分配 1 2 3 4 5 提纲 16 外卖订单的智能 调度系统 一. 智能调度系统的 大数据分析监控 二. 智能调度系统中 的人工智能 三. 调度系统 智能调度系统的分析监控 17 • 真实再现调度场景细节 • 回溯定位异常调度原因,诊断调试算法 • 实时获取调度监控指标 • 及时预警引入人工干预 • 精准模拟实际订单分布情况 • 有效评估调度算法的改进效果 • 合理划分物流范围 节省调度运力,提升商户配送能力 • 云端虚拟队列,实现调度指派 • 提升物流效率 仿真系统 实时监控 时光机 寻宝系统 1 2 3 4 5 时光机系统—历史数据可视化分析 真实再现调度场景细节 回溯定位异常调度原因,诊断调试算法 18 1 实时监控系统—当前状况实时监控 19 实时获取调度监控指标 及时预警引入人工干预 2 仿真系统—未来效果仿真预测 订单 在岗骑 士数量0 码力 | 28 页 | 6.86 MB | 1 年前3
QCon北京2018-《未来都市--智慧城市与基于深度学习的机器视觉》-陈宇恒AI+智慧城市 2015-2017 l单机、简易分布式人脸检测、跟踪、比对平台 l处理数十路到数百路监控摄像头数据 l千万级别深度学习特征检索 l行业试水 2018-2019 l云原生Cloud-Native超大规模视图存储、处理、检 索 l处理数万到数十万路,城市范围级别监控、门禁摄 像头数据 l10-100 Billion级别深度学习特征检索 - PB以上级别数据库存储 -0 码力 | 23 页 | 9.26 MB | 1 年前3
TensorFlow on Yarn:深度学习遇上大数据没有GPUs集群资源管理和调度(内存、CPU、GPU、 端⼝),集群资源负载不均� • 训练数据⼿动分发,训练模型⼿动保存� • 进程遗留问题,需要⼿动杀死� • 缺乏作业统⼀管理,不便对作业运⾏状态跟踪� • 日志查看不⽅便� � 总结:� TensorFlow使用现状及痛点 • 集群资源的管理(目前支持CPU、内存,需要扩展GPU 资源管理)� • 作业的统⼀管理、状态跟踪� Pool)的划分� • 作业进程的资源隔离� Yarn能解决什么问题:� TensorFlow on Yarn设计 • 同时支持单机和分布式TensorFlow程序� • 支持GPU资源管理和调度� • 不再需要⼿动配置CluserSpec信息,仅需要设置work 和ps的数量� • 训练数据和训练模型基于HDFS统⼀存储� • 作业训练结束自动回收work、ps和Tensorboard进程� public abstract void setGpuCores(int gCores);� � 最终在ResourceManager端需要完成:� 1、对NodeManager GPU卡数量的统计管理� 2、调度器统计管理每个Pool的GPU设备数的分配情况� � 具体可以参考下面Patch的实现思路:� https://issues.apache.org/jira/browse/YARN-5517� TensorFlow0 码力 | 32 页 | 4.06 MB | 1 年前3
共 21 条
- 1
- 2
- 3













