深度学习与PyTorch入门实战 - 14. Tensor高阶0 码力 | 8 页 | 501.85 KB | 1 年前3
机器学习课程-温州大学-14深度学习-Vision Transformer (ViT)模型介绍 11 将patch打平, 对每个 patch 进行线性映射,提取特征 2.模型介绍 12 提取特征 2.模型介绍 13 1.将位置编码信息加入提取的特征 2.模型介绍 14 位置编码信息对准确率的影响 2.模型介绍 结论:编码有用,但是怎么编码影响不大,干脆用简单的得了 2D(分别计算行和列的编码,然后求和)的效果还不如1D的每一层都加共享的 位置编码也没啥太大用0 码力 | 34 页 | 2.78 MB | 1 年前3
动手学深度学习 v2.0. . . . 646 13.14.7 对测试集分类并在Kaggle提交结果 . . . . . . . . . . . . . . . . . . . . . . . . . . . 647 14 自然语言处理:预训练 649 14.1 词嵌入(word2vec) . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 11节 中,我们讨论了用于训练深度学习模型的几 种常用优化算法。下一章 12节 将探讨影响深度学习代码计算性能的几个关键因素。在 13节 中,我们展 示了深度学习在计算机视觉中的主要应用。在 14节 和 15节 中,我们展示了如何预训练语言表示模型并 将其应用于自然语言处理任务。 4 目录 代码 本书的大部分章节都以可执行代码为特色,因为我们相信交互式学习体验在深度学习中的重要性。目前,某 dx:y关于x的导数 • ∂y ∂x:y关于x的偏导数 • ∇xy:y关于x的梯度 • � b a f(x) dx: f在a到b区间上关于x的定积分 • � f(x) dx: f关于x的不定积分 14 目录 概率与信息论 • P(·):概率分布 • z ∼ P: 随机变量z具有概率分布P • P(X | Y ):X | Y 的条件概率 • p(x): 概率密度函数 • Ex[f(x)]:0 码力 | 797 页 | 29.45 MB | 1 年前3
深度学习与PyTorch入门实战 - 10. Broadcastingahead ▪ Expand dims with size 1 to same size ▪ Feature maps: [4, 32, 14, 14] ▪ Bias: [32, 1, 1] => [1, 32, 1, 1] => [4, 32, 14, 14] Why broadcasting ▪ 1. for actual demanding ▪ [class, students, scores] 1: ▪ [4, 32, 14, 14] ▪ [1, 32, 1, 1] => [4, 32, 14, 14] Situation 2 ▪ [4, 32, 14, 14] ▪ [14, 14] => [1, 1, 14, 14] => [4, 32, 14, 14] Situation 3 ▪ [4, 32, 14, 14] ▪ [2, 32, 14, 14] ▪ Dim 0 has0 码力 | 12 页 | 551.84 KB | 1 年前3
机器学习课程-温州大学-04机器学习-朴素贝叶斯将输入?分到后验概率最大的类?。 ? = argmax ?? ? ? = ?? ෑ ?=1 ? ? ?? = ?(?)|? = ?? 后验概率最大等价于0-1损失函数时的期望风险最小化。 14 2.朴素贝叶斯原理 ? = argmax ?? ? ? = ?? ෑ ?=1 ? ? ?? = ?(?)|? = ?? 训练数据集? = ?1, ?1 , ?2, ?2 , … , 'election', 'clean', 'close', 'the', 'was', 'forgettable', 'match']。 由于可能的单词数是14,因此应用平滑处理可以得到 ?( game | sports ) = 2+1 11+14 14个单词 24 3.朴素贝叶斯案例 拉普拉斯平滑是一种用于平滑分类数据的技术。引入拉普拉斯平滑法来解决 零概率问题,通过应用此方法,先验概率和条件概率可以写为 (word | Not Sports) a 2 + 1 ÷ 11 + 14 1 + 1 ÷ 9 + 14 very 1 + 1 ÷ 11 + 14 0 + 1 ÷ 9 + 14 close 0 + 1 ÷ 11 + 14 1 + 1 ÷ 9 + 14 game 2 + 1 ÷ 11 + 14 0 + 1 ÷ 9 + 14 ?(?| Sports ) × ?( very | Sports )0 码力 | 31 页 | 1.13 MB | 1 年前3
机器学习课程-温州大学-07机器学习-决策树是 8 中年 否 是 非常好 是 9 中年 否 是 非常好 是 10 老年 否 是 非常好 是 11 老年 否 是 好 是 12 老年 是 否 好 是 13 老年 是 否 非常好 是 14 老年 否 否 一般 否 12 按年龄划分 信息熵 年龄 有工作 有房子 信用 类别 0 青年 否 否 一般 否 1 青年 否 否 好 否 2 青年 是 否 好 是 3 青年 是 是 是 8 中年 否 是 非常好 是 9 中年 否 是 非常好 是 10 老年 否 是 非常好 是 11 老年 否 是 好 是 12 老年 是 否 好 是 13 老年 是 否 非常好 是 14 老年 否 否 一般 否 ? ?|?1 = 青年 = − 2 5 ???2 2 5 − 3 5 ???2 3 5 = 0.971 年龄 数量 是 否 信息熵 青年 5 2 3 0.9710 否 是 非常好 是 9 中年 否 是 非常好 是 10 老年 否 是 非常好 是 11 老年 否 是 好 是 12 老年 是 否 好 是 13 老年 是 否 非常好 是 14 老年 否 否 一般 否 14 ? ?, ? = ? ? − ?(?|?) 信息增益 其中,? ? ? = − ?=1 ? ?? ? ???2 ?? ? ,?是特征?的取值个数 信息增益 ? ?0 码力 | 39 页 | 1.84 MB | 1 年前3
AI大模型千问 qwen 中文文档tool use, role play, playing as AI agent, etc. 最新版本 Qwen1.5 有以下特点: • 6 种模型规模,包括 0.5B、1.8B、4B、7B、14B 和 72B; • 针对每种尺寸提供基础模型和 Chat 模型,并确保聊天模型按照人类偏好进行校准; • 对基础模型和 Chat 模型的多语言支持 • 基础模型和聊天模型都支持多种语言; • run qwen:0.5b • ollama run qwen:1.8b • ollama run qwen:4b • ollama run qwen:7b • ollama run qwen:14b • ollama run qwen:72b 1.5.2 在 Ollama 运行你的 GGUF 文件 有时您可能不想拉取模型,而是希望直接使用自己的 GGUF 文件来配合 Ollama。假设您有一个名为 然后只需通过一行代码运行校准过程: model.quantize(tokenizer, quant_config=quant_config, calib_data=data) 最后,保存量化模型: 14 Chapter 1. 文档 Qwen model.save_quantized(quant_path, safetensors=True, shard_size="4GB") tokenizer0 码力 | 56 页 | 835.78 KB | 1 年前3
【PyTorch深度学习-龙龙老师】-测试版202112变种 预览版202112 13.5 纳什均衡 13.6 GAN 训练难题 13.7 WGAN 原理 13.8 WGAN-GP 实战 13.9 参考文献 第 14 章 强化学习 14.1 先睹为快 14.2 强化学习问题 14.3 策略梯度方法 14.4 值函数方法 14.5 Actor-Critic 方法 14.6 小结 14.7 8 8 19 22 152 28.2 25.8 16.4 11.7 7.3 6.7 3.57 ILSVRC10 ILSVRC11 ILSVRC12 ILSVRC13 ILSVRC14 ILSVRC14 ILSVRC15 ILSVRC挑战赛ImageNet数据集分类任务 网络模型层数 Top-5错误率 图 1.13 网络层数变化趋势 1.3.4 通用智能 过去,为了提升 com/content/one-simple-graphic-researchers-love-pytorch-and-tensorflow/ 预览版202112 第 1 章 人工智能绪论 14 1.5.2 静态图和动态图 虽然深度学习框架数量众多,但是大体上可以分为两类:基于静态图的和基于动态图 的。基于静态图的代表性框架是 TensorFlow 1,特点是建立计算图过程和实际计算过程是0 码力 | 439 页 | 29.91 MB | 1 年前3
keras tutorial.................. 14 Workflow of ANN .......................................................................................................................................... 14 5. Keras ― Deep learning ............................................................................................. 77 14. Keras ― Time Series Prediction using LSTM RNN ................................................... classify input into various categories. A simple CNN can be represented as below: Keras 14 Here, 2 series of Convolution and pooling layer is used and it receives and process the0 码力 | 98 页 | 1.57 MB | 1 年前3
《Efficient Deep Learning Book》[EDL] Chapter 5 - Advanced Compression TechniquesBlock: conv_transpose_block_13 Sparsity: 0.0% Total Weights: 4718592 Block: conv_transpose_block_14 Sparsity: 0.0% Total Weights: 1179648 Block: conv_transpose_block_15 Sparsity: 0.0% Total Weights: obtain are optimal, i.e. the reconstruction error when we decode the encoded representation is minimal14. In such a scenario, we can list all the centroids in a codebook and replace each element in our tensor Number of Centroids ( ) Compression Ratio 2 31.51 4 15.75 8 10.44 16 7.75 32 6.09 64 4.92 14 The reconstruction error can simply be the mean squared error between the original tensor and the decoded0 码力 | 34 页 | 3.18 MB | 1 年前3
共 73 条
- 1
- 2
- 3
- 4
- 5
- 6
- 8













