数据流处理 - IT文库_程序员IT互联网编程电子书和文档免费下载，助您码力十足！

首页文库资料文章资讯上传文档发布文章登录账户

深度学习下的图像视频处理技术-沈小勇

深度学习下的图像视频处理技术沈小勇优图X-Lab视觉AI负责人专家研究员自我介绍自我介绍 2006.9 – 2012.7 浙江大学数学系本科硕士 2012.8 – 2016.6 香港中文大学博士 2016.6 – 2017.5 香港中文大学 Research Fellow 2017.5 – 现在腾讯优图X-Lab 视觉AI负责人，专家研究员个人主页：http://xiaoyongshen

0 码力 | 121 页 | 37.75 MB | 1 年前
3
Qcon北京2018-《文本智能处理的深度学习技术》-陈运文

达观数据陈运文文本智能处理的深度学习技术达观数据CEO 陈运文博士 • 中国计算机学会高级会员， A C M 和 I E E E 学会会员，复旦大学计算机博士和杰出毕业生 • 原腾讯文学高级总监、盛大文学首席数据官、百度核心技术工程师 • 三十项国家技术法》专注于企业文本挖掘技术和相关应用系统的服务个人简介——达观数据CEO 陈运文达观数据：全球领先的文本智能处理专家 l 为企业提供文本挖掘、知识图谱、搜索引擎和个性化推荐等文本智能处理技术服务，是国内首家将自动语义分析技术应用于企业数据化运营的人工智能公司专注于文本挖掘的国际领军人工智能企业 l 获得全球三十大最佳AI企业等荣誉，拥有国家级高新技术企业、CMMI3资质认覆盖金融、制造、法律、电商、传媒等行业，提升企业文档自动化处理能力为数百家中国知名客户提供完善的文本智能处理服务 01 文本智能处理背景简介 7 文本语音图像人工智能 Voice Image Text 达观专注于人工智能中的文本处理细分领域文本处理任务什么是NLP 概念：Natural Language Processing 自然语言处理目的：让机器理解人类的语言，是人工智能领域的重要

0 码力 | 46 页 | 25.61 MB | 1 年前
3
机器学习课程-温州大学-12深度学习-自然语言处理和词嵌入

1 2023年05月深度学习-自然语言处理和词嵌入黄海广副教授 2 03 Word2Vec 04 GloVe 本章目录 01 词汇表征和文本数据处理 02 词嵌入 05 GPT 3 1.词汇表征 01 词汇表征和文本数据处理 03 Word2Vec 04 GloVe 02 词嵌入 05 GPT GPT 4 1.词汇表征和文本数据处理 5 1.词汇表征和文本数据处理 6 1.词汇表征和文本数据处理 7 1.词汇表征和文本数据处理 8 2.词嵌入 03 Word2Vec 04 GloVe 02 词嵌入 05 GPT 01 词汇表征和文本数据处理 9 2.词嵌入 “Sally Johnson is an orange farmer 2.词嵌入嵌入矩阵 14 3.Word2Vec 03 Word2Vec 04 GloVe 02 词嵌入 05 GPT 01 词汇表征和文本数据处理 15 3.Word2Vec 语言模型的训练机制就是这样 1.我们获得了大量文本数据（例如，所有维基百科文章）。然后 2.我们有一个窗口（比如说三个单词），我们会对所有文本进行滑动。

0 码力 | 44 页 | 2.36 MB | 1 年前
3
《TensorFlow 快速入门与实战》4-实战TensorFlow房价预测

扫描二维码试看/购买《TensorFlow 快速入门与实战》视频课程 • 房价预测模型介绍 • 使用 TensorFlow 实现房价预测模型 • 使用 TensorBoard 可视化模型数据流图 • 实战 TensorFlow 房价预测第四部分目录房价预测模型介绍前置知识：监督学习（Supervised Learning）监督学习是机器学习的一种方法，指从训练数据（输入和预期输出）中学到一个模型（函数）， -0.78305 训练数据：假设函数：使用 TensorFlow 实现房价预测模型使用 TensorFlow 训练模型的工作流数据读入数据分析数据规范化创建模型 (数据流图) 创建会话 (运行环境) 训练模型数据分析库：Pandas Pandas 是一个 BSD 开源协议许可的，面向 Python 用户的高性能和易于上手的数据结构化和数据分析工具。方法专门用于绘制3维的散点图。数据归一化（3D）数据处理：NumPy NumPy 是一个 BSD 开源协议许可的，面向 Python 用户的基础科学计算库，在多维数组上实现了线性代数、傅立叶变换和其他丰富的函数运算。 X y 创建线性回归模型（数据流图）创建会话（运行环境）使用 TensorBoard 可视化模型数据流图 TensorBoard 可视化工具在数据处理过程中，用户通常想要可视化地直观查看数据集分布情况。

0 码力 | 46 页 | 5.71 MB | 1 年前
3
PyTorch OpenVINO 开发实战系列教程第一篇

完成全部代码构建与程序演示。本章的主要目标是帮助初次接触 Python 与 Pytorch 的读者搭建好开发环境，认识与理解 Pytorch 框架中常见的基础操作函数、学会使用它们完成一些基础的数据处理与流程处理，为后续内容学习打下良好基础。好了，下面就让我们来一起开启这段 Pytorch 框架的深度学习破冰之旅。 PyTorch + OpenVINO 开发实战系列教程第一篇 2 1. 智能开发者的认可与追捧，也成为工业界最受欢迎的深度学习框架之一。 Pytorch 发展至今，其版本跟功能几经迭代，针对不同的场景任务分裂出不同的分支扩展库，比如针对自然语言处理（NLP）的 torchtext、针对计算机视觉的 torchvision、针对语音处理的 torchaudio，这些库支持快速模型训练与演示应用，可以帮助开发者快速搭建原型演示。此外在移动端支持、模型部署的压缩、量化、服务器端云化部署、推理端 (Sequential)、功能函数 (functional)、损失功能、支持自定义的模型类（Module）等。通过它们就可以实现大多数的模型结构搭建与生成。 2）torch.utils 包，里面主要包括训练模型的输入数据处理类、 pytorch 自带的模型库、模型训练时候可视化支持组件、检查点与性能相关的组件功能。重要的类有数据集类（Dataset）, 数据加载类 (DataLoader)、自定义编程的可视化支持组件

0 码力 | 13 页 | 5.99 MB | 1 年前
3
Keras: 基于 Python 的深度学习库

. . . . . . . 29 3.3.6.3 只保存/加载模型的权重 . . . . . . . . . . . . . . . . . . . . . . . . 29 3.3.6.4 处理已保存模型中的自定义层（或其他自定义对象） . . . . . . . 30 3.3.7 为什么训练误差比测试误差高很多？ . . . . . . . . . . . . . . . . . . 31 3.3.8 如何获取中间层的输出？ . . . . . . . . . . . . . . . . . . . . . . . . . . . . 31 3.3.9 如何用 Keras 处理超过内存的数据集？ . . . . . . . . . . . . . . . . . . . . 32 3.3.10 在验证集的误差不再下降时，如何中断训练？ . . . . . . . . . 编写你自己的 Keras 层 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 117 6 数据预处理 118 6.1 序列预处理 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 118 6.1.1

0 码力 | 257 页 | 1.19 MB | 1 年前
3
动手学深度学习 v2.0

46 2.1.6 转换为其他Python对象 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 47 2.2 数据预处理 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 47 2.2.1 读取数据集读取数据集 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 48 2.2.2 处理缺失值 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 48 2.2.3 转换为张量格式 6.1 基本概率论 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 74 2.6.2 处理多个随机变量 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 77 2.6.3 期望和方差 . .

0 码力 | 797 页 | 29.45 MB | 1 年前
3
微博在线机器学习和深度学习实践-黄波

实时特征实时数据 3 在线机器学习实时样本实时模型训练实时更新参数 Task 训练预处理 Node 实时样本拼接 Node 在线模型训练 Node 离线样本拼接 Node 在线模型评估 Node 模型上线 Node 实时特征处理 Node 离线特征处理 Task Kafka输入 input process process output WeiFlow 模型训练 Task Metrics输出 3 在线机器学习-工作流互动行为日志数据处理点击行为日志阅读行为日志曝光行为日志数据过滤样本拼接定时轮询 Kafka Hdfs 样本输出 3 在线机器学习-实时样本生成 • 多流拼接 • 曝光，互动，点击，真实阅读等多种数据流接入并多流拼接 • 如何解决日志延时问题 • 延迟等待机制，先到先走 • 定时轮寻，最长N分钟等待如何解决内存问题 • 调整内存参数 • 关闭多余的监控点 • 如何异常处理 • 自动化监控与修复系统 • Checkpoint 节点异常修复 3 在线机器学习-实时样本生成 • 在线机器学习模型训练：Flink/Blink+WeiPS 样本生成和特征处理 1.配置化 2.多标签样本 3.支持高维HASH 训练预处理 1.标签选择 2.标签UDF 3.样本过滤 4.特征过滤

0 码力 | 36 页 | 16.69 MB | 1 年前
3
亚马逊AWSAI Services Overview

更好的分析对象存储数据库数据仓库数据流分析商业智能 Map/Reduce 内存数据库数据检索点击流用户活动内容生成购买点击喜好传感器数据机器学习& 人工智能大数据更多的用户更好的产品更多的数据更好的分析围绕数据的“飞轮” 算法数据程序模型 GPUs & 计算加速深度学习的爆发图像理解自然语言处理语音识别机器自主 AWS K80 Accelerators, 每个运行一对 NVIDIA GK210 GPUs. ▪ 每块GPU 提供 12 GiB 内存 (内存存取带宽达到240 GB/秒), 以及 2,496 个并行处理核心 Instance Name GPU Count vCPU Count Memory Parallel Processing Cores GPU Memory Network Performance 将文本转化为生活化语音 47 种语音 24 种语言低延迟、实时全托管 Polly: 生活化的语音服务 Voice Quality & Pronunciation 1. 自动化、精准的文本处理 2. 智能化的且易于理解 3. 将语义加入文本当中 4. 定制化的发音文章、博客训练材料 Chatbots (Lex) 公告第一代: 面向机器的交互第二代: 面向控制& 翻译第三代:

0 码力 | 56 页 | 4.97 MB | 1 年前
3
超大规模深度学习在美团的应用-余建平

MLX平台架构 MLX平台架构 • 基于Worker + PS架构搭建 • Worker  模型计算引擎（Engine）  计算图框架（Graph） • 模型计算引擎Engine  模型结构处理  与PS通信交换模型参数  计算图的计算 • 计算图框架Graph  计算逻辑抽象op，通过op组合形成模型结构  提供正向（forward）、反向（backward）、Loss的操作扩展流式模型的通路 • 持久化存储  本地disk存储，持久化对齐kafka的数据 • PS快速failover  Compaction机制，降低load数据量 • Online Learning对数据流的要求  不重不丢：重复的数据会使模型有偏，数据的缺失会使模型丢失重要信息  数据有序性：数据乱序会导致样本穿越的现象 • Log Join框架  双流拼接框架，通过组合方式支持多流拼接将特征数据进行转换，转换成模型所需的格式，比如离散化  模型计算：传入转换后的特征数据，调用模型计算引擎在线预估服务 • 特征编码方式  通过明文hash的方式编码  适用于特征的动态增长  不需要预分配，提高处理效率 • 框架与实现分离  提供op形式的特征抽取类  逻辑一致性：在线、近线、离线特征抽取框架目录 • 美团超大规模模型场景简介 • 超大规模机器学习MLX  MLX平台目标

0 码力 | 41 页 | 5.96 MB | 1 年前
3

共 54 条前往

页

分类

语言

格式