机器学习课程-温州大学-12深度学习-自然语言处理和词嵌入## 深度学习-自然语言处理和词嵌入 黄海广 副教授 2023年05月 ## 本章目录 01 词汇表征和文本数据处理 02 词嵌入 03 Word2Vec 04 GloVe 05 GPT ### 1. 词汇表征 01 词汇表征和文本数据处理 02 词嵌入 03 Word2Vec 04 GloVe 05 GPT ### 1. 词汇表征和文本数据处理 nts/d/7/b/6/d7b6a575aae04af2687d2aafb8b9809c/p7_1.jpg) ### 2. 词嵌入 01 词汇表征和文本数据处理 02 词嵌入 03 Word2Vec 04 GloVe 05 GPT ### 2. 词嵌入 “Sally Johnson is an orange farmer.” “Robert Lin is an apple farmer e04af2687d2aafb8b9809c/p9_1.jpg) Andrew Ng ### 2. 词嵌入 如何用词嵌入做迁移学习的步骤。 第一步,先从大量的文本集中学习词嵌入。 第二步,你可以用这些词嵌入模型把它迁移到你的新的只有少量标注训练集的任务中,比如说用这个300维的词嵌入来表示你的单词。这样做的一个好处就是你可以用更低维度的特征向量代替原来的10000维的one-hot向量,0 码力 | 44 页 | 2.36 MB | 2 年前3
00 Deepseek官方提示词AI】,回复【deepseek】获取 1. 万能提示词生成模版:根据用户需求,帮助生成高质量提示词 SYSTEM 你是一位大模型提示词生成专家,请根据用户的需求编写一个智能助手的提示词,来指导大模型进行内容生成,要求: 1. 以 Markdown 格式输出 2.贴合用户需求,描述智能助手的定位、能力、知识储备 3. 提示词应清晰、精确、易于理解,在保持质量的同时,尽可能简洁 4. 只输出提示词,不要输出多余解释 USER USER 请帮我生成一个“Linux 助手”的提示词 2. 文案大纲生成:根据用户提供的主题,来生成文案大纲 SYSTEM 你是一位文本大纲生成专家,擅长根据用户的需求创建一个有条理且易于扩展成完整文章的大纲,你拥有强大的主题分析能力,能准确提取关键信息和核心要点。具备丰富的文案写作知识储备,熟悉各种文体和题材的文案大纲构建方法。可根据不同的主题需求,如商业文案、文学创作、学术论文等,生成 一定要押韵,不要太过书面化。只输出宣传标语,不用解释。 USER 请生成“希腊酸奶”的宣传标语 ### 12. 诗歌创作: 让模型根据提示词, 创作诗歌 USER 模仿李白的风格写一首七律.飞机 ### 13. 散文写作:让模型根据提示词创作散文 ## USER 以孤独的夜行者为题写一篇 750 字的散文,描绘一个人在城市中夜晚漫无目的行走的心情与所见所感,以及夜的寂静给予的独特感悟。0 码力 | 4 页 | 7.93 KB | 1 年前3
202402 DataEase 嵌入式版介绍DataEase 嵌入式版介绍 2024 年 2 月 ## 人人可用的 开源数据可视化分析工具 DataEase 可以帮助用户快速分析业务数据并洞察其趋势,从而实现业务的改进与优化。DataEase 支持丰富的数据源连接,能够通过拖拉拽的方式快速制作图表,并且可以方便地与他人进行分享。 嵌入式 BI 可以给 ISV 带来哪些价值? 嵌入式 BI 的应用场景 DataEase 嵌入式 BI 的优势 的优势 DataEase 嵌入式版嵌入流程 ## 什么是嵌入式 BI? 嵌入式 BI 是可以嵌入在商业应用程序中,为应用软件提供或者增强分析功能的专业 BI 软件。 ## “ Embedding analytics and data science functionalities within websites or business applications via APIs reduces change management and increases analytics adoption." ## “ 通过 API 将分析和数据科学功能嵌入到网站或者商业应用中,能够有效减少变更管理并提高数据分析的采纳率。” ## 嵌入式 BI 的业务价值 Which technical features have contributed to an increase in usage and0 码力 | 30 页 | 11.06 MB | 1 年前3
【彩页】202405 DataEase嵌入式版Datasheet# DataEase 嵌入式版: 无缝嵌入客户所需的自助式分析技术 数据可视化需求体现在数字经济时代的方方面面。对于 ISV(Independent Software Vendor,独立软件开发商)和 SI(System Integrator,系统集成商)来说,其软件产品与解决方案在数据应用领域面临着很多挑战。 首先是软件数据堆积造成的隐形浪费问题。软件自身所生产的数据需要被更加充分地利用,发 成定制化数据报告,或者数据大屏。 通常情况下,嵌入式 BI 拥有四大嵌入场景,具体如下: ■ 数据可视化与分析结果嵌入:包含单一图表嵌入、仪表板页面和数据大屏嵌入; ☑ 设计与编辑能力嵌入:包含仪表板 / 数据大屏设计器嵌入、BI 功能模块嵌入; ■ 平台整体嵌入:包含数据接入到可视化分析的全流程支持、代码与接口的开放性支持; ☑ 其他嵌入:与办公软件对接,例如钉钉、企业微信、飞书等,以及 及 OEM 白标定制。 DataEase 嵌入式版的优势体现在以下方面: ☑ 永久授权,高性价比:DataEase 嵌入式版以永久软件授权方式售卖,每套价格为 2 万元人民币,无隐形费用。每套软件授权对应 1 个最终客户的 1 个部署实例; ■ 按月迭代,稳定升级:DataEase 软件产品按月稳定迭代,ISV 可以在授权的大版本范围内免费升级; 简单易用,资源丰富:DataEase 具有0 码力 | 2 页 | 3.02 MB | 1 年前3
DataEase 嵌入式分析 2024年3月DataEase 嵌入式分析 2024年3月 ## 人人可用的 开源数据可视化分析工具 DataEase 可以帮助用户快速分析业务数据并洞察其趋势,从而实现业务的改进与优化。DataEase 支持丰富的数据源连接,能够通过拖拉拽的方式快速制作图表,并且可以方便地与他人进行分享。 ## FIT2CLOUD 飞致云 ## DataEase v2 的不同版本对比 |版本类型|社区版|嵌入式版|企业版| |---|---|---|---| |目标群体|任何用户|ISV / 系统集成商|最终客户| |产品功能|社区版功能|社区版功能 + X-Pack 部分功能(含嵌入式分析能力)注:单数据集限制 10 万行数据。|社区版功能 + X-Pack 所有功能(含嵌入式分析能力)注:数据集无行数限制。| |销售方式|社区分发免费使用|线上销售 / 线下推广标准化合同模板|线下推广线下商务流程| |授权方式|免费永久使 |服务方式|社区支持|原厂企业级技术支持服务(基础级,5×8)|原厂企业级技术支持服务(基础级,5×8;增强级,7×24)| 嵌入式分析可以给 ISV 带来哪些价值? DataEase 嵌入式分析的方案 DataEase 嵌入式分析的优势 在线体验 & 嵌入流程介绍 ## 什么是嵌入式分析? 嵌入式分析是可以嵌入在商业应用程序中,为应用软件提供或者增强分析功能的专业 BI 软件。 ## " Embedding0 码力 | 29 页 | 7.29 MB | 1 年前3
深度学习与PyTorch入门实战 - 46. 时间序列表示0 码力 | 14 页 | 1.16 MB | 2 年前3
机器学习课程-温州大学-13深度学习-Transformer[Image](/uploads/documents/a/b/7/b/ab7b254a5c187d70765c98d89cffb40d/p7_1.jpg) ### 1 \.Transformer介绍 ## 每个词的Attention计算 ## 每个词的Q会跟整个序列中每一个K计算得分,然后基于得分再分配特征 Q: query,要去查询的 K: key,等着被查的 V: value,实际的特征信息  ### 2. Transformer的工作流程 各种向量或张量是怎样在模型的不同部分中,将输入转化为输出的。 像大部分NLP应用一样,我们首先将每个输入单词通过词嵌入算法转换为词向量。  Je ![Im a5c187d70765c98d89cffb40d/p19_3.jpg) étudiant 每个单词都被嵌入为512维的向量,词嵌入过程只发生在最底层的编码器中。所有的编码器都有一个相同的特点,即它们接收一个向量列表,列表中的每个向量大小为512维。在底层(最开始)编码器中它就是词向量,但是在其他编码器中,它就是下一层编码器的输出(也是一个向量列表)。 向量列表大小是我们可以设置的超参数:一般是我们训练集中最长句子的长度。0 码力 | 60 页 | 3.51 MB | 2 年前3
动手学深度学习 v2.0290 8.1.2 训练 ..... 293 8.1.3 预测 ..... 295 8.2 文本预处理 ..... 298 8.2.1 读取数据集 ..... 299 8.2.2 词元化 ..... 299 8.2.3 词表 ..... 300 8.2.4 整合所有功能 ..... 302 8.3 语言模型和数据集 ..... 303 8.3.1 学习语言模型 . . 354 9.4.3 双向循环神经网络的错误应用 ..... 356 9.5 机器翻译与数据集 ..... 357 9.5.1 下载和预处理数据集 ..... 358 9.5.2 词元化 ..... 359 9.5.3 词表 ..... 361 9.5.4 加载数据集 ..... 361 9.5.5 训练模型 ..... 362 9.6 编码器-解码器架构 ... 14 自然语言处理:预训练 ..... 649 14.1 词嵌入 (word2vec) ..... 650 14.1.1 为何独热向量是一个糟糕的选择 ..... 650 14.1.2 自监督的word2vec ..... 651 14.1.3 跳元模型 (Skip-Gram) ..... 651 14.1.4 连续词袋 (CBOW) 模型 ..... 652 14.2 近似训练0 码力 | 797 页 | 29.45 MB | 2 年前3
Hello Agents V1.0.2 (从零开始构建智能体)仿了一位罗杰斯学派的非指导性心理治疗师。 ELIZA的工作方式极其巧妙:它从不正面回答问题或提供信息,而是通过识别用户输入中的关键词,然后应用一套预设的转换规则,将用户的陈述转化为一个开放式的提问。例如,当用户说“我为我的男朋友感到难过”时,ELIZA可能会识别出关键词“我为…感到难过”,并应用规则生成回应:“你为什么会为你的男朋友感到难过?” 魏泽鲍姆的设计思想并非要创造一个真正能够“理解”人类 Matching)与文本替换(Text Substitution),可被清晰地分解为以下四个步骤: 关键词识别与排序:规则库为每个关键词(如 mother,dreamed,depressed)设定一个优先级。当输入包含多个关键词时,程序会选择优先级最高的关键词所对应的规则进行处理。 分解规则:找到关键词后,程序使用带通配符( $ ^{*} $ )的分解规则来捕获句子的其余部分。 规则示例: * my FUNCTION generate_response(user_input): // 1. 将用户输入拆分成单词 words = SPLIT(user_input) // 2. 寻找优先级最高的关键词规则 best_rule = FIND_BEST_RULE(words) IF best_rule is NULL: RETURN a_generic_response() // 例如:"Please0 码力 | 633 页 | 58.72 MB | 1 月前3
2020美团技术年货 算法篇地拥有:Augur 支持同一个服务同时提供 Pigeon(美团内部的 RPC 框架)以及 Thrift 服务,从而满足不同业务的不同需求。 - 不同业务的不同需:Augur 同样支持以 SDK 的方式将能力嵌入到已有的集群当中。但如此一来,分布式能力就无法发挥了。所以,我们一般应用在性能要求高、模型比较小、特征基本可以存在本地的场景下。 其中服务化是被应用最多的方式,为了方便业务方的使用,除了完善的文档 $ ^{[4]} $ 通过神经网络预训练方式来生成词向量(Word Embedding),极大地推动了深度自然语言处理的发展。针对 Word2vec 生成的固定词向量无法解决多义词的问题,2018 年,Allen AI 团队提出基于双向 LSTM 网络的 ELMo $ ^{[5]} $ 。ELMo 根据上下文语义来生成动态词向量,很好地解决了多义词的问题。2017 年底,Google 提出了基于自注意力机制的 M25 等。字面匹配的相关性特征在美团搜索排序模型中起着重要作用,但字面匹配有它的局限,主要表现在: · 词义局限:字面匹配无法处理同义词和多义词问题,如在美团业务场景下“宾馆”和“旅店”虽然字面上不匹配,但都是搜索“住宿服务”的同义词;而“COCO”是多义词,在不同业务场景下表示的语义不同,可能是奶茶店,也可能是理发店。 - 结构局限:“蛋糕奶油”和“奶油蛋糕”虽词汇完全重合,但表达的语义完0 码力 | 317 页 | 16.57 MB | 2 年前3
共 663 条
- 1
- 2
- 3
- 4
- 5
- 6
- 67













