C语言指针 - IT文库_程序员IT互联网编程电子书和文档免费下载，助您码力十足！

首页文库资料文章资讯上传文档发布文章登录账户

机器学习课程-温州大学-12深度学习-自然语言处理和词嵌入

1 2023年05月深度学习-自然语言处理和词嵌入黄海广副教授 2 03 Word2Vec 04 GloVe 本章目录 01 词汇表征和文本数据处理 02 词嵌入 05 GPT 3 1.词汇表征 01 词汇表征和文本数据处理 03 Word2Vec 04 GloVe 02 词嵌入 05 GPT Word2Vec 03 Word2Vec 04 GloVe 02 词嵌入 05 GPT 01 词汇表征和文本数据处理 15 3.Word2Vec 语言模型的训练机制就是这样 1.我们获得了大量文本数据（例如，所有维基百科文章）。然后 2.我们有一个窗口（比如说三个单词），我们会对所有文本进行滑动。 3.滑动窗口为我们的模型生成训练样本数据集中为每个训练样本做一次（很可能数千万次）。我们需要做一些事情来提高效率。一种方法是将目标分成两个步骤： 1.生成高质量的单词嵌入（不要担心下一个单词预测）。 2.使用这些高质量的嵌入来训练语言模型（进行下一个单词预测）。 19 3.Word2Vec 负采样并不是每次迭代都训练全部10,000个，我们只训练其中的5个，我们要训练对应真正目标词那一个分类器，再训练 4个随机选取的负样本，这就是

0 码力 | 44 页 | 2.36 MB | 1 年前
3
动手学深度学习 v2.0

动手学深度学习 Release 2.0.0 Aston Zhang, Zachary C. Lipton, Mu Li, and Alexander J. Smola Aug 18, 2023 目录前言 1 安装 9 符号 13 1 引言 17 2 预备知识 39 2.1 数据操作 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 302 8.3 语言模型和数据集 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 303 8.3.1 学习语言模型 . . . . . . . . . . . . . . . . . . . . . . . 303 8.3.2 马尔可夫模型与n元语法 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 305 8.3.3 自然语言统计 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 305 8.3.4 读取长序列数据 .

0 码力 | 797 页 | 29.45 MB | 1 年前
3
机器学习课程-温州大学-01深度学习-引言

Microsoft（微软）计算机视觉技术、自然语言处理技术等办公美国 1975年上市市值1.21万亿美元 2 Google（谷歌）计算机视觉技术、自然语言处理技术等综合美国 1998年上市市值9324亿美元 3 Facebook（脸书）人脸识别、深度学习等社交美国 2004年上市市值5934亿美元 4 百度计算机视觉技术、自然语言处理技术、知识图谱等综合中国 Anywhere 自然语言处理技术、非结构化数据认知企业管理美国 2003年 B轮融资估值68亿美元 10 IBM Watson（IBM沃森）深度学习、智适应学习技术计算机美国 1911年上市市值1198亿美元 11 松鼠AI 1对1 智适应学习技术、机器学习教育中国 2015年 A轮融资估值11亿美元 12 字节跳动跨媒体分析推理技术、深度学习、自然语言处理、图像识别 Waymo 自动驾驶交通美国 2016年 C轮融资估值1050亿美元 18 ABB Robotics 机器人及自动化技术机器人瑞士 1988年上市市值514亿美元 19 Fanuc（发那科）机器人技术制造日本 1956年上市市值362亿美元 20 Preferred Networks 深度学习、机器学习技术物联网日本 2016年 C轮融资估值20亿美元 9 不同视角的深度学习

0 码力 | 80 页 | 5.38 MB | 1 年前
3
PyTorch OpenVINO 开发实战系列教程第一篇

介绍与基础知识 1.1 Pytorch 介绍 Pytorch 是开放源代码的机器学习框架，目的是加速从研究原型到产品开发的过程。其 SDK 主要基于 Python 语言，而 Python 语言作为流行的人工智能开发语言一直很受研究者与开发者的欢迎。其模型训练支持CPU与GPU、支持分布式训练、云部署、针对深度学习特定领域有不同的丰富的扩展库。 1.1.1 Pytorch 历史最初的来源历史可以追溯到另外两个机器学习框架，第一个是 torch 框架，第二个是 Chainer，实现了 Eager 模式与自动微分，Pytoch 集成了这两个框架的优点，把 Python 语言作为框架的首选编程语言，所以它的名字是在 torch 的前面加上 Py 之后的 Pytorch。由于 Pytorch 吸取了之前一些深度学习框架优点，开发难度大大降低、很容易构建各种深度学习模型并实现分布式的训练，因此一发布就引易构建各种复杂的深度学习模型网络，因此很快得到大量人工智能开发者的认可与追捧，也成为工业界最受欢迎的深度学习框架之一。 Pytorch 发展至今，其版本跟功能几经迭代，针对不同的场景任务分裂出不同的分支扩展库，比如针对自然语言处理（NLP）的 torchtext、针对计算机视觉的 torchvision、针对语音处理的 torchaudio，这些库支持快速模型训练与演示应用，可以帮助开发者快速搭建原型演示。此外在移动端支持、模型部署

0 码力 | 13 页 | 5.99 MB | 1 年前
3
【PyTorch深度学习-龙龙老师】-测试版202112

用正式化的数学符号推导，其中涉及到少量的概率与统计、线性代数、微积分等数学知识，一般要求读者对这些数学知识有初步印象或了解即可。比起理论基础，读者需要有少量的编程经验，特别是 Python 语言编程经验，显得更加重要，因为本书更侧重于实用性，而不是堆砌公式。总的来说，本书适合于大学三年级左右的理工科本科生和研究生，以及其他对人工智能算法感兴趣的朋友。本书共 15 章，大体上可分为 7407&courseId=1209092816&_trace_c _p_k2_=9e74eb6f891d47cfaa6f00b5cb 5f617c https://study.163.com/course/courseMain.h tm?share=2&shareId=480000001847407& courseId=1208894818&_trace_c_p_k2_=8 d1b10e04bd34d69855bb71da65b0549 年代，科学家们尝试通过知识库加推理的方式解决人工智能，通过构建庞大复杂的专家系统来模拟人类专家的智能水平。这些明确指定规则的方式存在一个最大的难题，就是很多复杂、抽象的概念无法用具体的代码实现。比如人类对图片的识别、对语言的理解过程，根本无法通过既定规则模拟实现。为了解决这类问题，一门通过让机器自动从数据中学习规则的研究学科诞生了，称为机器学习，并在 1980 年代成为人工智能中的热门学预览版202112 第

0 码力 | 439 页 | 29.91 MB | 1 年前
3
Chatbots 中对话式交互系统的分析与应用

• 爱因互动所做的事 • 总结 Chatbots简史 1950 • 提出 “图灵测试” 1966 •ELIZA：MIT 发展的精神治疗师 chatbot 1995 •A.L.I.C.E.：基于模式匹配的NLP chatbot 2011, 2012 •Siri •Watson •Google Now 2015 •Amazon ALEXA •Microsoft Cortana with Deep Learning Task-Bot: 任务对话机器人 Task-Bot: task-oriented bot 用户语音合成 (TTS) 语言产生 (NLG) 语音识别 (ASR) 语言理解 (SLU) 策略优化 (DPO) 状态追踪 (DST) inform(order_op=预订, restaurant_name=云海肴, subbranch=中关村店) subbranch=中关村店) request(phone, name) 理解模块对话管理模块产生模块 Spoken Language Understanding (SLU) • 结构化表示自然语言的语义： • act1 (slot1=value1, slot2=value2,…), act2 (slot1=value1,…), … • acttype, slot, value的取值范围已预先定义好

0 码力 | 39 页 | 2.24 MB | 1 年前
3
机器学习课程-温州大学-01机器学习-引言

Microsoft（微软）计算机视觉技术、自然语言处理技术等办公美国 1975年上市市值1.21万亿美元 2 Google（谷歌）计算机视觉技术、自然语言处理技术等综合美国 1998年上市市值9324亿美元 3 Facebook（脸书）人脸识别、深度学习等社交美国 2004年上市市值5934亿美元 4 百度计算机视觉技术、自然语言处理技术、知识图谱等综合中国 Anywhere 自然语言处理技术、非结构化数据认知企业管理美国 2003年 B轮融资估值68亿美元 10 IBM Watson（IBM沃森）深度学习、智适应学习技术计算机美国 1911年上市市值1198亿美元 11 松鼠AI 1对1 智适应学习技术、机器学习教育中国 2015年 A轮融资估值11亿美元 12 字节跳动跨媒体分析推理技术、深度学习、自然语言处理、图像识别 Waymo 自动驾驶交通美国 2016年 C轮融资估值1050亿美元 18 ABB Robotics 机器人及自动化技术机器人瑞士 1988年上市市值514亿美元 19 Fanuc（发那科）机器人技术制造日本 1956年上市市值362亿美元 20 Preferred Networks 深度学习、机器学习技术物联网日本 2016年 C轮融资估值20亿美元 9 机器学习的范围

0 码力 | 78 页 | 3.69 MB | 1 年前
3
AI大模型千问 qwen 中文文档

5B、1.8B、4B、7B、14B 和 72B； • 针对每种尺寸提供基础模型和 Chat 模型，并确保聊天模型按照人类偏好进行校准； • 对基础模型和 Chat 模型的多语言支持 • 基础模型和聊天模型都支持多种语言； • 支持工具调用、RAG（检索增强文本生成）、角色扮演、AI Agent 等；想了解更多信息，欢迎访问： • 博客 • GitHub • Hugging Face 现在，你可以选择流式模式或非流式模式与 Qwen1.5 进行对话。继续阅读文档，并尝试探索模型推理的更多高级用法！” 1.4 llama.cpp llama.cpp 是一个 C++ 库，用于简化 LLM 推理的设置。它使得在本地机器上运行 Qwen 成为可能。该库是一个纯 C/C++ 实现，不依赖任何外部库，并且针对 x86 架构提供了 AVX、AVX2 和 AVX512 加速支持。此外，它还提供了 2、3、4、5、6 以及 9 Qwen 1.4.5 在 LM Studio 使用 GGUF 如果你仍然觉得使用 llama.cpp 有困难，我建议你尝试一下 LM Studio 这个平台，它允许你搜索和运行本地的大规模语言模型。Qwen1.5 已经正式成为 LM Studio 的一部分。祝你使用愉快！ 1.5 Ollama Ollama 帮助您通过少量命令即可在本地运行 LLM。它适用于 MacOS、Linux 和

0 码力 | 56 页 | 835.78 KB | 1 年前
3
Qcon北京2018-《文本智能处理的深度学习技术》-陈运文

达观数据陈运文文本智能处理的深度学习技术达观数据CEO 陈运文博士 • 中国计算机学会高级会员， A C M 和 I E E E 学会会员，复旦大学计算机博士和杰出毕业生 • 原腾讯文学高级总监、盛大文学首席数据官、百度核心技术工程师 • 三十项国家技术 Text 达观专注于人工智能中的文本处理细分领域文本处理任务什么是NLP 概念：Natural Language Processing 自然语言处理目的：让机器理解人类的语言，是人工智能领域的重要分支，用于分析、理解和生成自然语言，方便人机交流应用：智能问答，机器翻译，文本分类，文本摘要，标签提取，情感分析，主题模型 NLP发展简史 1950S 1980s 1990s 1990s 2006~至今以机器翻译为开端，作为早期尝试，但不是很成功基于统计机器学习技术及语料库，使用统计模型，NLP发展产生革新多数自然语言处理系统基于规则，人工修订等方式，包括问答、翻译、搜索等深度学习起步、发展及成熟，同样影响NLP领域，从传统的机器学习逐渐过渡到深度学习 NLP技术层次日常工作中各类常见的文本形式新闻文章企业合同/公文

0 码力 | 46 页 | 25.61 MB | 1 年前
3
机器学习课程-温州大学-11深度学习-序列模型

1.序列模型概述 01 序列模型概述 02 循环神经网络(RNN) 05 深层循环神经网络 4 1.序列模型概述循环神经网络（RNN）之类的模型在语音识别、自然语言处理和其他领域中引起变革。 5 数学符号在这里?<1>表示Harry这个单词，它就是一个第 4075行是1，其余值都是0的向量（上图编号1所示），因为那是Harry在这个词典里的位置。 000维的。 6 循环神经网络解决的问题  卷积神经网络或全连接网络的局限性  同一层节点之间无关联，从而导致获取时序规则方面功能不足  循环神经网络可以解决时序问题  基于语言模型（LM），故可以捕捉时序规则信息  它是如何实现的？ 7 03 长短期记忆(LSTM) 04 双向循环神经网络 2.循环神经网络(RNN) 01 序列模型概述循环神经网络(RNN) RNN的反向传播 11 2.循环神经网络(RNN) 12 2.循环神经网络(RNN) 13 2.循环神经网络(RNN) RNN的类型 14 2.循环神经网络(RNN) 语言模型和序列生成 The apple and pear（pair） salad was delicious. 第一句话的概率是: ?(The apple and pair salad) = 3.2

0 码力 | 29 页 | 1.68 MB | 1 年前
3

共 81 条前往

页

分类

语言

格式