深度学习下的图像视频处理技术-沈小勇深度学习下的图像视频处理技术 沈小勇 优图X-Lab视觉AI负责人 专家研究员 自我介绍 自我介绍 2006.9 – 2012.7 浙江大学数学系本科硕士 2012.8 – 2016.6 香港中文大学博士 2016.6 – 2017.5 香港中文大学 Research Fellow 2017.5 – 现在 腾讯优图X-Lab 视觉AI负责人,专家研究员 个人主页:http://xiaoyongshen0 码力 | 121 页 | 37.75 MB | 1 年前3
Qcon北京2018-《文本智能处理的深度学习技术》-陈运文达观数据 陈运文 文本智能处理的深度学习技术 达观数据CEO 陈运文 博士 • 中 国 计 算 机 学 会 高 级 会 员 , A C M 和 I E E E 学 会 会 员 , 复 旦 大 学 计 算 机 博 士 和 杰 出 毕 业 生 • 原 腾 讯 文 学 高 级 总 监 、 盛 大 文 学 首 席 数 据 官 、 百 度 核 心 技 术 工 程 师 • 三 十 项 国 家 技 术 法 》 专 注 于 企 业 文 本 挖 掘 技 术 和 相 关 应 用 系 统 的 服 务 个人简介——达观数据CEO 陈运文 达观数据:全球领先的文本智能处理专家 l 为企业提供文本挖掘、知识图谱、搜索引擎和个性化推荐等文本智能处理技术服 务,是国内首家将自动语义分析技术应用于企业数据化运营的人工智能公司 专注于文本挖掘的国际领军人工智能企业 l 获得全球三十大最佳AI企业等荣誉,拥有国家级高新技术企业、CMMI3资质认 覆盖金融、制造、法律、电商、传媒等行业,提升企业文档自动化处理能力 为数百家中国知名客户提供完善的文本智能处理服务 01 文本智能处理背景简介 7 文本 语音 图像 人工智能 Voice Image Text 达观专注于人工智能中的文本处理细分领域 文本处理任务 什么是NLP 概念:Natural Language Processing 自然语言处理 目的:让机器理解人类的语言,是人工智能领域的重要0 码力 | 46 页 | 25.61 MB | 1 年前3
机器学习课程-温州大学-12深度学习-自然语言处理和词嵌入1 2023年05月 深度学习-自然语言处理和词嵌入 黄海广 副教授 2 03 Word2Vec 04 GloVe 本章目录 01 词汇表征和文本数据处理 02 词嵌入 05 GPT 3 1.词汇表征 01 词汇表征和文本数据处理 03 Word2Vec 04 GloVe 02 词嵌入 05 GPT GPT 4 1.词汇表征和文本数据处理 5 1.词汇表征和文本数据处理 6 1.词汇表征和文本数据处理 7 1.词汇表征和文本数据处理 8 2.词嵌入 03 Word2Vec 04 GloVe 02 词嵌入 05 GPT 01 词汇表征和文本数据处理 9 2.词嵌入 “Sally Johnson is an orange farmer 2.词嵌入 嵌入矩阵 14 3.Word2Vec 03 Word2Vec 04 GloVe 02 词嵌入 05 GPT 01 词汇表征和文本数据处理 15 3.Word2Vec 语言模型的训练机制就是这样 1.我们获得了大量文本数据(例如,所 有维基百科文章)。然后 2.我们有一个窗口(比如说三个单词) ,我们会对所有文本进行滑动。0 码力 | 44 页 | 2.36 MB | 1 年前3
Keras: 基于 Python 的深度学习库. . . . . . . 29 3.3.6.3 只保存/加载模型的权重 . . . . . . . . . . . . . . . . . . . . . . . . 29 3.3.6.4 处理已保存模型中的自定义层(或其他自定义对象) . . . . . . . 30 3.3.7 为什么训练误差比测试误差高很多? . . . . . . . . . . . . . . . . . . 31 3.3.8 如何获取中间层的输出? . . . . . . . . . . . . . . . . . . . . . . . . . . . . 31 3.3.9 如何用 Keras 处理超过内存的数据集? . . . . . . . . . . . . . . . . . . . . 32 3.3.10 在验证集的误差不再下降时,如何中断训练? . . . . . . . . . 编写你自己的 Keras 层 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 117 6 数据预处理 118 6.1 序列预处理 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 118 6.1.10 码力 | 257 页 | 1.19 MB | 1 年前3
谭国富:深度学习在图像审核的应用节约成本 节省审核 人力 减少人工 漏审 技术诉求:自动识别图片或视频中出现的文 字、二维码、logo等内容以及违规人像、淫 秽、血腥、暴力、极端主义、恐怖主义图像 等,方便平台进行违规处理和风险管控。 业务痛点:面对越来越爆发的安全风险,解决办法门 槛高, 成本高;迫切需要技术解决方案 SACC2017 图像内容审核技术 OCR技术 图像分割以及超分辨率技术 优图图像技 GPU微架构 Pascal Pascal Volta 核心代号 GP104 GP102 GV100 Tensor Cores NA NA 640 CUDA核数量 3456 3840 5120 处理器制程 - 16nm FinFET 12nm FinFET Core Clock(<=) 1621MHz 1531MHz 1450MHz GPU显存 显存类型 GDDR5X GDDR5 HBM2 冷数据 热任务/监控数据/集群信息 • 任务监控与自动重启 • 分布式多机训练,不可避免遇到由于硬件/网 络波动引起的异常 • 监控任务运行状况,当任务发生异常时,选 择不同的重启策略 • 集群管理与监控 • 节点心跳异常告警 • 运维工具化,快速屏蔽/启动异常机器 • 灵活的资源分配 • 支持以 GPU 或节点为粒度进行资源分配 • 用户配置任务所需最小资源 • 自动扩缩容,最大化资源使用率0 码力 | 32 页 | 5.17 MB | 1 年前3
微博在线机器学习和深度学习实践-黄波实时特征 实时数据 3 在线机器学习 实时样本 实时模型训练 实时更新参数 Task 训练预处理 Node 实时样本拼接 Node 在线模型训练 Node 离线样本拼接 Node 在线模型评估 Node 模型上线 Node 实时特征处理 Node 离线特征处理 Task Kafka输入 input process process output WeiFlow WeiFlow 工作流 Task 模型训练 Task 模型训练 Task Metrics输出 3 在线机器学习-工作流 互动行为日志 数据处理 点击行为日志 阅读行为日志 曝光行为日志 数据过滤 样本拼接 定时轮询 Kafka Hdfs 样本输出 3 在线机器学习-实时样本生成 • 多流拼接 • 曝光,互动,点击,真实阅读等多种数据流接入并多流拼接 • 如何解决日志延时问题 如何解决内存问题 • 调整内存参数 • 关闭多余的监控点 • 如何异常处理 • 自动化监控与修复系统 • Checkpoint 节点异常修复 3 在线机器学习-实时样本生成 • 在线机器学习模型训练:Flink/Blink+WeiPS 样本生成和特征处理 1.配置化 2.多标签样本 3.支持高维HASH 训练预处理 1.标签选择 2.标签UDF 3.样本过滤 4.特征过滤0 码力 | 36 页 | 16.69 MB | 1 年前3
机器学习课程-温州大学-机器学习项目流程2.数据清洗 什么是数据清洗? 数据清洗是指发现并纠正数据文件中可识别的错误的最后一道程序,包 括检查数据一致性,处理无效值和缺失值等。与问卷审核不同,录入后 的数据清理一般是由计算机而不是人工完成。 9 2.数据清洗 不合法值 空 值 异常检测 重复处理 拼写错误 命名习惯 数理统计技术 数据挖掘技术 脏数据 数据清理策略、规则 满足数据质量要求的数据 数据清理原理 数据清理原理 10 探索性数据分析(EDA) 探索性数据分析(EDA)是一个开放式流程,我们制作绘图并计算 统计数据,以便探索我们的数据。 •目的是找到异常,模式,趋势或关系。 这些可能是有趣的(例如, 找到两个变量之间的相关性),或者它们可用于建模决策,例如使 用哪些特征。 •简而言之,EDA的目标是确定我们的数据可以告诉我们什么! 探索性数据分析(EDA) 11 探索性数据分析(EDA) 选择数据中最相关的特征的过程。在特征选择中,我们删除特征 以帮助模型更好地总结新数据并创建更具可解释性的模型。一般来说,特 征选择是减去特征,所以我们只留下那些最重要的特征。 20 特征工程 主要方法 离散型变量处理 分箱/分区 交叉特征 特征缩放 特征提取 …… 特征工程在数据挖掘中有举足轻重的位置数据领域一致认为: 数据和特征决定了机器学习的上限,而模型和算法只能逼近这 个上限而已。 特征工程重要性:0 码力 | 26 页 | 1.53 MB | 1 年前3
机器学习课程-温州大学-10机器学习-聚类需要预先指定簇的数量; • 如果有两个高度重叠的数据,那么它就 不能被区分,也不能判断有两个簇; • 欧几里德距离可以不平等的权重因素, 限制了能处理的数据变量的类型; • 有时随机选择质心并不能带来理想的结 果; • 无法处理异常值和噪声数据; • 不适用于非线性数据集; • 对特征尺度敏感; • 如果遇到非常大的数据集,那么 计算机可能会崩溃。 27 3.密度聚类和层次聚类 将所有点标记为核心点、边界点或噪声点; 2. 如果选择的点是核心点,则找出所有从该点出发的密度可达对象形成簇; 3. 如果该点是非核心点,将其指派到一个与之关联的核心点的簇中; 4. 重复以上步骤,直到所点都被处理过 P1 P2 P3 P4 P5 P6 P7 P8 P9 P10 P11 P12 P13 X 1 2 2 4 5 6 6 7 9 1 3 5 3 Y 2 1 4 3 8 7 9 9 5 12 120 码力 | 48 页 | 2.59 MB | 1 年前3
超大规模深度学习在美团的应用-余建平MLX平台架构 MLX平台架构 • 基于Worker + PS架构搭建 • Worker 模型计算引擎(Engine) 计算图框架(Graph) • 模型计算引擎Engine 模型结构处理 与PS通信交换模型参数 计算图的计算 • 计算图框架Graph 计算逻辑抽象op,通过op组合形成模型结构 提供正向(forward)、反向(backward)、Loss的操作扩展 基于Low Watermark解决流乱序、流延迟等流式常 见问题 流式拼接框架 • Low Watermark机制 定义了流式数据的时钟,不可逆性 Smooth low watermark:异常数据时间跳变 流式拼接 • Checkpoint解决不重不丢问题 外存解决大数据量性能问题 在引擎中流转log key,特征数据在外存 • 分业务场景支持 轻量级predic 将特征数据进行转换,转换成模型所需的格式,比如离散化 模型计算: 传入转换后的特征数据,调用模型计算引擎 在线预估服务 • 特征编码方式 通过明文hash的方式编码 适用于特征的动态增长 不需要预分配,提高处理效率 • 框架与实现分离 提供op形式的特征抽取类 逻辑一致性:在线、近线、离线 特征抽取框架 目录 • 美团超大规模模型场景简介 • 超大规模机器学习MLX MLX平台目标0 码力 | 41 页 | 5.96 MB | 1 年前3
动手学深度学习 v2.046 2.1.6 转换为其他Python对象 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 47 2.2 数据预处理 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 47 2.2.1 读取数据集 读取数据集 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 48 2.2.2 处理缺失值 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 48 2.2.3 转换为张量格式 6.1 基本概率论 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 74 2.6.2 处理多个随机变量 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 77 2.6.3 期望和方差 . .0 码力 | 797 页 | 29.45 MB | 1 年前3
共 54 条
- 1
- 2
- 3
- 4
- 5
- 6













