机器学习课程-温州大学-12深度学习-自然语言处理和词嵌入黄海广 副教授 2023年05月 ## 本章目录 01 词汇表征和文本数据处理 02 词嵌入 03 Word2Vec 04 GloVe 05 GPT ### 1. 词汇表征 01 词汇表征和文本数据处理 02 词嵌入 03 Word2Vec 04 GloVe 05 GPT ### 1. 词汇表征和文本数据处理 ## Word representation ts/d/7/b/6/d7b6a575aae04af2687d2aafb8b9809c/p7_1.jpg) ### 2. 词嵌入 01 词汇表征和文本数据处理 02 词嵌入 03 Word2Vec 04 GloVe 05 GPT ### 2. 词嵌入 “Sally Johnson is an orange farmer.” “Robert Lin is an apple farmer /b/6/d7b6a575aae04af2687d2aafb8b9809c/p13_1.jpg) ### 3 \.Word2Vec 01 词汇表征和文本数据处理 02 词嵌入 03 Word2Vec 04 GloVe 05 GPT ### 3 \.Word2Vec ## 语言模型的训练机制就是这样 1. 我们获得了大量文本数据(例如,所有维基百科文章)。然后 2. 我们有0 码力 | 44 页 | 2.36 MB | 2 年前3
搜狗深度学习技术在广告推荐领域的应用/p6_1.jpg) ## 深度学习在搜狗搜索广告的一些应用 |方向|用途|相关技术| |---|---|---| |图像理解|图片物料推荐|CNN| |文本相关性|广告召回、创意生成|Word2Vec、CSR、LSTM| |CTR预估|广告排序、特征挖掘|DNN、MxNet、TensorFlow| 生日蛋糕购买 为您推荐:生日蛋糕图片 水果蛋糕 蛋糕 小蜜蜂生日蛋糕-网上预订,6环内免0 码力 | 22 页 | 1.60 MB | 2 年前3
【PyTorch深度学习-龙龙老师】-测试版202112我们可以使用预训练的 Word Embedding 模型来得到单词的表示方法,基于预训练模型的词向量相当于迁移了整个语义空间的知识,往往能得到更好的性能。 目前应用的比较广泛的预训练模型有 Word2Vec 和 GloVe 等。它们已经在海量语料库训练得到了较好的词向量表示方法,并可以直接导出学习到的词向量表,方便迁移到其它任务。比如 GloVe 模型 GloVe.6B.50d,词汇量为 40 万,每个单词使用长度为 vectors='glove.6B.100d') LABEL.build_vocab(train_data) # 打印预训练编码表 shape [10002, 100] print('word2vec:', TEXT.vocab.vectors.shape) # 创建 Dataloader 对象,设置 batch size 等 train_iterator, test_iterator @embedding_dim: 词向量长度 """ @hidden_dim: RNN 状态向量长度 @pretrained: 是否使用预训练 word2vec super(MyRNN, self).__init__() # Embedding 层: [0-10001] => [100] self.embedding = nn.Embedding(vocab_size0 码力 | 439 页 | 29.91 MB | 2 年前3
《Efficient Deep Learning Book》[EDL] Chapter 4 - Efficient Architecturestable generation by leveraging deep learning to do the grunge work for us! ## A Real World Example: Word2Vec In the real world, we must automate the embedding table generation because of the high costs associated associated with manual embeddings. One example of an automated embedding generation technique is the word2vec family of algorithms $ ^{6} $ (apart from others like GloVe $ ^{7} $ ) which can learn embeddings 4483ff176702ebb4b/p13_1.jpg) Figure 4-10: Using the embedding projector tool to visualize the word2vec embeddings in 3-D. Now that we have trained the embeddings, in the next section, let's learn0 码力 | 53 页 | 3.92 MB | 2 年前3
深度学习在电子商务中的应用匹配转化为数值矢量计算 ➢ 词语矢量化是进一步进行各种深度学习的基础。 ## • 矢量化模型介绍 Mikolov(Google 员工)等人2013发表了两篇关于Word2Vec的文章,成为词语矢量化表示的基础 Word2vec的优点: ✓ 词语矢量考虑了上下文及词语之间的语义关系 ✓ 复杂词语可以通过矢量计算来实现(如 Vec(北京) = vec(东京) - vec(日本) + vec(中国)) 8c5f50dc/p9_2.jpg) CBOW: 通过上下文词语来预测词语本身出现的概率 Skip-gram: 通过词语本身来预测上下文词语出现的概率 ## 基于词语聚类的矢量化模型 Word2vec等工具可以有效地将词语转化为向量 将句子 / 段落 / 文章有效转化为向量则有很大的挑战。 简单平均/加权平均容易失去句子等的语义/结构信息 ➢ 直接以句子为单位进行训练,则训练文本严重不足 用户购物车日志  用户购买日志 Word2vec模型 计算距离最近的矢量 产品类别过滤 产品频率过滤  $ Rouge_L score = rouge.rouge_l(target, references) ## word2vec 为什么不用 doc2vec 呢? 神经网络 $ from gensim.models import word2vec $ model = word2vec.Word2Vec(input_data, size=<..>, min_count=<条文 条文内容 ROUGE RIBES TF-IDF Word2vec 第一条 甲乙双方确认:“秘密信息”是指甲方及其关联公司未曾公开的商业秘密、技术信息和财务信息等,包括但不限于设计、程 ---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---| ## word2vec需要注意的地方 • 最像 “甲方” 的是 “乙方” 0.922 - 普通情况下,可以说这次word2vec投进去的语料和parameter调的还不错。 但是,我们需要考虑到合同文章的“甲”和“乙”利益相反的这一点。  $ Rouge_L score = rouge.rouge_l(target, references) ## word2vec 为什么不用doc2vec呢? 神经网络 $ from gensim.models import word2vec $ model = word2vec.Word2Vec(input_data, size=<..>, min_count=<条文 条文内容 ROUGE RIBES TF-IDF Word2vec 第一条 甲乙双方确认:“秘密信息”是指甲方及其关联公司未曾公开的商业秘密、技术信息和财务信息等,包括但不限于设计、程 ---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---| ## word2vec需要注意的地方 • 最像 “甲方” 的是 “乙方” 0.922 - 普通情况下,可以说这次word2vec投进去的语料和parameter调的还不错。 但是,我们需要考虑合同文章的“甲”和“乙”利益相反的这一点。  ..... 650 14.1.1 为何独热向量是一个糟糕的选择 ..... 650 14.1.2 自监督的word2vec ..... 651 14.1.3 跳元模型 (Skip-Gram) ..... 651 14.1.4 连续词袋 (CBOW) ..... 660 14.3.4 负采样 ..... 661 14.3.5 小批量加载训练实例 ..... 663 14.3.6 整合代码 ..... 664 14.4 预训练word2vec ..... 666 14.4.1 跳元模型 ..... 666 14.4.2 训练 ..... 667 14.4.3 应用词嵌入 ..... 670 14.5 全局向量的词嵌入 文本的其它部分来预测文本的隐藏部分。通过这种方式,模型可以通过有监督地从海量文本数据中学习,而不需要昂贵的标签标注! 本章我们将看到:当将每个单词或子词视为单个词元时,可以在大型语料库上使用word2vec、GloVe或子词嵌入模型预先训练每个词元的词元。经过预训练后,每个词元的表示可以是一个向量。但是,无论上下文是什么,它都保持不变。例如,“bank”(可以译作银行或者河岸)的向量表示在“go0 码力 | 797 页 | 29.45 MB | 2 年前3
华为云深度学习在文本分类中的实践-李明磊Transformer LSTM Elmo DCNN BERT Attention MT-DNN ## 文本分类方法简史-深度学习 ☐ 神经网络NLP里程碑: 神经网络语言模型2003 Word2vec 2013 解决维度灾难  Deployment pb RESTful API ckpt RPC API H5 (Keras) Testing ## Featurizer Pre embedding word2vec Elmo Vocab Sklearn model feature Indexing Countvectorizer Sentence encoder [1, 22, 32, 460 码力 | 23 页 | 1.80 MB | 2 年前3
机器学习课程-温州大学-13深度学习-TransformerTransformer的工作流程 03 Transformer的训练 04 BERT ### 4 \. BERT ## NLP 预训练模型的发展 语言模型 2003年 Bengio word2vec 词嵌入阶段 2013年 Mikolov glove 2014年 Jeffrey + 复杂网络模型 fasttext 2016年 facebook elmo 2018年2月 Allen 预训练模型阶段 openAI-GPT 2018年6月 openAI + 简单mlp BERT 2018年10月google ### 4. BERT ## BERT训练的词向量有什么不同? 在word2vec中,相同词对应的向量训练好后就固定了 但在不同的场景中,‘干什么’的意思会相同吗? 这俩兄弟都叫transformer: 












