机器学习课程-温州大学-12深度学习-自然语言处理和词嵌入2023年05月 深度学习-自然语言处理和词嵌入 黄海广 副教授 2 03 Word2Vec 04 GloVe 本章目录 01 词汇表征和文本数据处理 02 词嵌入 05 GPT 3 1.词汇表征 01 词汇表征和文本数据处理 03 Word2Vec 04 GloVe 02 词嵌入 05 GPT 4 词汇表征和文本数据处理 8 2.词嵌入 03 Word2Vec 04 GloVe 02 词嵌入 05 GPT 01 词汇表征和文本数据处理 9 2.词嵌入 “Sally Johnson is an orange farmer.” “Robert Lin is an apple farmer.” 10 2.词嵌入 如何用词嵌入做迁移学习的步骤。 如何用词嵌入做迁移学习的步骤。 第一步,先从大量的文本集中学习词嵌入。 第二步,你可以用这些词嵌入模型把它迁移到你的新的只有少量标注训练集的任 务中,比如说用这个300维的词嵌入来表示你的单词。这样做的一个好处就是你 可以用更低维度的特征向量代替原来的10000维的one-hot向量,现在你可以用 一个300维更加紧凑的向量。 第三步,当你在你新的任务上训练模型时,在你的命名实体识别任务上,只有少 量的标记数0 码力 | 44 页 | 2.36 MB | 1 年前3
动手学深度学习 v2.03.2 线性回归的从零开始实现 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 95 3.2.1 生成数据集 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 95 3.2.2 读取数据集 线性回归的简洁实现 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 101 3.3.1 生成数据集 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 101 3.3.2 读取数据集 1 读取数据集 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 299 8.2.2 词元化 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 299 8.2.3 词表0 码力 | 797 页 | 29.45 MB | 1 年前3
第29 期| 2023 年9 月- 技术雷达OpenAI 的 ChatGPT,Google Bard,Meta 的 LLaMA 以及亚马逊的 Bedrock 等)在我们的讨论中占据重要地位。更广泛来说,大语言模型可以应用于从 内容生成(文本、图片和视频)、代码生成到总结概述和翻译等各种问题。通过自然语言的抽象层,这些大模型 成为了强大的工具库,被诸多信息工作者广泛使用。我们讨论了大语言模型的各个方面,包括自托管式大语言 模型,相较云托管的大 模型,相较云托管的大语言模型,它支持更多的定制和管控。随着大语言模型日益复杂,我们正在深思如何在 小型设备上运行大语言模型,特别是在边缘设备和资源受限的环境中。我们还提到有望提高性能的 ReAct 提示 工程,以及利用大语言模型驱动的自主代理开发远超简单的问答交互的动态应用。我们也提到一些向量数据库 (包括 Pinecone)由于大语言模型而重新流行起来。大语言模型的底层能力,包括更专业化和自行托管的能力, 将继续呈爆发性增长。 PR 6. 针对 FAIR 数据的数据产品思维 7. OIDC for GitHub Actions 8. 使用 Terraform 创建监控和告警 9. ReAct 提示工程 10. 检索增强生成 11. 基于风险的故障建模 12. 大语言模型半结构化自然语言输入 13. 追踪健康债务状况 14. 对告警规则的单元测试 15. CI/CD 的零信任保护 评估 16. 通过依赖健康检查化解包幻觉风险0 码力 | 43 页 | 2.76 MB | 1 年前3
机器学习课程-温州大学-01深度学习-引言•图像分类 •目标检测 •图像分割 •目标跟踪 •OCR文字识别 •图像滤波与降噪 •图像增强 •风格迁移 •三维重建 •图像检索 •GAN 12 深度学习-CV典型应用案例 翻译 传统翻译采用人工查词的方式,不但耗时长 ,而且错误率高。图像识别技术(OCR)的出 现大大提升了翻译的效率和准确度,用户通 过简单的拍照、截图或划线就能得到准确的 翻译结果。 体育赛事 计算机视觉还有助于比赛和策略分 ,即对字、词、句、篇章的输入、输出、识别、 分析、理解、生 成等的操作和加工。自然语言处理的具体表现形式包括机器 翻译 、文本摘要、文本分类、文本校对、信息抽取、语音合成、语音识 别等。 可以说,自然语言处理就是要计算机理解自然语言,自然 语言处理机制涉及 两个流程,包括自然语言理解和自然语言生成 ,自然语言理解是让计算机把 输入的语言变成有意思的符号和关 系,然后根据目的再处理;自然语言生成 则是把计算机数据转 付费的专业版。专业版额外增加了一些功能, 如项目模板、远程开发、数据库支持等。个人学习 Python 使用免费的社区版 已足够。 如果有edu邮箱,那么推荐使用专业版,edu邮箱是可以免费使用专业版的。 安装过程照着提示一步步操作就可以了。 注意:安装路径尽量不使用带有 中文或空格 的目录,这样在之后的使用过程 中减少一些莫名的错误。 Python 的环境的安装 55 Python 的主要数据类型 ⚫字符串0 码力 | 80 页 | 5.38 MB | 1 年前3
AI大模型千问 qwen 中文文档针对每种尺寸提供基础模型和 Chat 模型,并确保聊天模型按照人类偏好进行校准; • 对基础模型和 Chat 模型的多语言支持 • 基础模型和聊天模型都支持多种语言; • 支持工具调用、RAG(检索增强文本生成)、角色扮演、AI Agent 等; 想了解更多信息,欢迎访问: • 博客 • GitHub • Hugging Face • ModelScope • Qwen1.5 Collection generate() 方 法 替 代。 这 里 使 用 了 apply_chat_template() 函数将消息转换为模型能够理解的格式。其中的 add_generation_prompt 参数用于在输入中添加生成提示,该提示指向 <|im_start|>assistant\n 。尤其需要注意的是,我们 遵循先前实践,对 chat 模型应用 ChatML 模板。而 max_new_tokens 参数则用于设置响应的最大长度。此 batch_decode() 函数对响应进行解码。关于输入部分,上述的 messages 是一个 示例,展示了如何格式化对话历史记录和系统提示。默认情况下,如果您没有指定系统提示,我们将直接使 用 You are a helpful assistant. 作为系统提示。 1.3.2 流式输出 借助 TextStreamer ,您可以将与 Qwen 的对话切换到流式传输模式。下面是一个关于如何使用它的示例:0 码力 | 56 页 | 835.78 KB | 1 年前3
【PyTorch深度学习-龙龙老师】-测试版20211211 LSTM/GRU 情感分类问题再战 11.12 预训练的词向量 11.13 参考文献 第 12 章 自编码器 12.1 自编码器原理 12.2 MNIST 图片重建实战 12.3 自编码器变种 12.4 变分自编码器 12.5 VAE 实战 12.6 参考文献 第 13 章 生成对抗网络 13.1 博弈学习实例 13.2 GAN 原理 ?: ? → ?,称为自监督学习(Self-supervised Learning)。在训练时,通过计算模型的预测值??(?)与自身?之间的误差来优化网络参数?。 常见的无监督学习算法有自编码器、生成对抗网络等。 强化学习 也称为增强学习,通过与环境进行交互来学习解决问题的策略的一类算法。 与有监督学习、无监督学习不同,强化学习问题并没有明确的“正确的”动作监督信号, 预览版202112 除了有监督学习领域取得了惊人的成果,在无监督学习和强化学习领域也取得了巨大 的成绩。2014 年,Ian Goodfellow 提出了生成对抗网络,通过对抗训练的方式学习样本的 真实分布,从而生成逼近度较高的样本。此后,大量的生成对抗网络模型相继被提出,最 新的图片生成效果已经达到了肉眼难辨真伪的逼真度。2016 年,DeepMind 公司应用深度 神经网络到强化学习领域,提出了 DQN 算法,在 Atari0 码力 | 439 页 | 29.91 MB | 1 年前3
全连接神经网络实战. pytorch 版的讲解方式,但我们对讲解顺序和内容,以及程序代码都做了大量的改进。说了那么多, 总之,我们的目标是写一个最好的最容易上手的 pytorch 入门教程——从全连接网络开始。 书中的示例代码在网站页面可以找到。每节末尾会提示“本节代码见 chapterX.py”。 20211006:完成本书第一版。 5 1. 准备章节 1.1 导入 pytorch 6 1.2 导入样本数据 7 本章节将神经网络训练之前的准 于不同版本的 pytorch 会依赖于不同的 cuda 工具,二是因为官网资料非常齐全,也有很多博客来 介绍,因此没有必要赘述。 1.1 导入 pytorch 首先我们需要明白一个术语:tensor。这个词被翻译为中文叫张量。1 维标量是一种 tensor; 向量也是一种 tensor;而一些微分量,例如梯度、导数等也都是 tensor;矩阵也是张量;多张矩 阵或者多张图像也是张量(3 维张量)。我们在做实验时,可以将 load_state_dict ( torch . load ( path ) ) 其中,path 是保存模型的路径。有时候我们希望能同时保存模型的一些其他信息,比如 epoch 和优化器的类型,这时我们可以生成一个状态字典: # 保 存 模 型 state = { ’ model ’ : model . state_dict () , ’ optimizer ’ : optimizer . state_dict0 码力 | 29 页 | 1.40 MB | 1 年前3
Docker 从入门到实践 0.9.0(2017-12-31)docker commit 意味着所有对镜像的操作都是黑箱操作,生成的镜像也被称为黑 箱镜像,换句话说,就是除了制作镜像的人知道执行过什么命令、怎么生成的镜像,别人根 本无从得知。而且,即使是这个制作镜像的人,过一段时间后也无法记清具体在操作的。虽 然 docker diff 或许可以告诉得到一些线索,但是远远不到可以确保生成一致镜像的地步。 这种黑箱镜像的维护工作是非常痛苦的。 而且 个只有一行的 Dockerfile 构建镜像时, 之前基础镜像的那三行 ONBUILD 就会开始执行,成功的将当前项目的代码复制进镜像、并且 针对本项目执行 npm install ,生成应用镜像。 ONBUILD 为他人作嫁衣裳 98 参考文档 Dockerfie 官方文档:https://docs.docker.com/engine/reference/builder/ go/helloworld:2 . -f Dockerfile.copy rm ./app 现在运行脚本即可构建镜像 $ chmod +x build.sh $ ./build.sh 对比两种方式生成的镜像大小 $ docker image ls REPOSITORY TAG IMAGE ID CREATED SIZE go/helloworld0 码力 | 370 页 | 6.73 MB | 1 年前3
OpenShift Container Platform 4.14 镜像1.7. 容器 OpenShift Container Platform 应用程序的基本单元称为容器。Linux 容器技术是一种轻量型机制,用于 隔离运行中的进程,使它们只能跟指定的资源交互。容器一词被定义为容器镜像的特定运行或暂停实例。 在一个单一的主机上可以包括多个容器来运行多个不同的应用程序实例,且相互间无法看到其他应用程序 的进程、文件、网络等。通常情况下,每个容器提供一项服务,常称为微服务,如 Samples Operator 配置资源包含一个终结器(finalizer),它会在删除时清除以下内容: Operator 管理的镜像流。 Operator 管理的模板。 Operator 生成的配置资源。 集群状态资源。 删除样本资源后,Samples Operator 会使用默认配置重新创建资源。 2.1.1. Cluster Samples Operator 使用管理状态 Cluster SamplesExists 代表 openshift 命名空间中创建了样本。 ImageChangesInProgr ess 如果创建或更新了镜像流,但并非所有标记规范生成与标记状态生成均匹配,此 条件则为 True。 所有生成均匹配,或者导入过程中发生不可恢复的错误时显示为 False,最后看 到的错误位于消息字段中,待处理的镜像流列表位于原因字段中。 OpenShift Container0 码力 | 118 页 | 1.13 MB | 1 年前3
OpenShift Container Platform 4.14 Operator用于添加、更新和删除升级边缘的自定义算法 Composability 基于文件的目录存储在任意目录层次结构中,从而启用目录组成。例如,考虑两个单独的基于文件的 目录目录:catalogA 和 catalogB。目录维护人员可以通过生成新目录 catalogC 并将 catalogA 和 catalogB 复制到其中来创建新的组合目录。 这种可组合性支持分散的目录。格式允许 Operator 作者维护特定于 Operator 的目录,它允许维护人 在其文件系统中包含捆绑包的容器镜像 捆绑包 包 Git 存 存储库 在目录中包含捆绑包的 Git 存储库 Provisioner 在 Kubernetes 集群上安装和管理内容的控制器 捆绑包部署 包部署 生成捆绑包部署的实例 其他 其他资源 源 管理平台 Operator 平台 Operator 的技术预览限制 关于 Operator Lifecycle Manager 1.0 (技术预览) 2 指向 Bundle 对象,并表明它应当处于活动状态。这包括从活跃捆绑包 的旧版本获取。BundleDeployment 对象可能还包括所需捆绑包的嵌入式 spec。 与 pod 生成容器镜像实例一样,捆绑包部署会生成捆绑包部署的版本。捆绑包部署可被视为 pod 概念的 一般化。 捆绑包部署如何根据引用的捆绑包对集群进行更改,具体由配置为监视该捆绑包部署的置备程序定义。 配置 配置为与普通置 与普通置备程序一起工作的0 码力 | 423 页 | 4.26 MB | 1 年前3
共 180 条
- 1
- 2
- 3
- 4
- 5
- 6
- 18













