vLLM v0.5.4 Documentation0 码力 | 152 页 | 1.10 MB | 3 月前3
C++高性能并行编程与优化 - 课件 - 07 深入浅出访存优化## AOSOA:注意,内部 SOA 的尺寸不宜太小 如果内部 SOA 太小,内部循环只有 16 次连续的读取,16 次结束后就会跳跃一段,然后继续连续的读取。这会导致 CPU 预取机制失效,无法预测下一次要读哪里,等发现跳跃时已经来不及了,从而计算的延迟无法隐藏。 |Benchmark|Time|CPU|Iterations| |---|---|---|---| |BM\_aos|48733252 AOS 比较好(AOSOA 也不赖哦) 这是因为使用 SOA 会让 CPU 不得不同时维护很多条预取赛道(mc_x, mc_y, mc_z),当赛道多了以后每一条赛道的长度就变短了,从而能够周转的余地时间比较少,不利于延迟隐藏。而如果把这三条赛道合并成一条(mc),这样同样的经费(缓存容量)能铺出的赛道(预取)就更长,从而 CPU 有更长的周转时间来隐藏他内部计算的延迟。所以本案例中 AOS 比 SOA BENCHMARK(BM_aos); ## AOS、SOA、AOSOA 哪家强:结论 - 如果几个属性几乎总是同时一起用的,比如位置矢量 pos 的 xyz 分量,可能都是同时读取同时修改的,这时用 AOS,减轻预取压力。 - 如果几个属性有时只用到其中几个,不一定同时写入,比如 pos 和 vel,通常的情况都是 pos+=vel,也就是 pos 是读写,vel 是只读,那这时候就用 SOA 比较好,省内存带宽。0 码力 | 147 页 | 18.88 MB | 2 年前3
waitress Documentation v2.1.10 码力 | 113 页 | 270.88 KB | 1 年前3
waitress Documentation v2.1.00 码力 | 52 页 | 57.95 KB | 1 年前3
waitress Documentation v2.1.20 码力 | 115 页 | 272.79 KB | 1 年前3
Oracle VM VirtualBox UserManual_fr_FR.pdf(bogue #12001) • Hôtes Solaris : correction d'un kernel panic potentiel à cause d'une préemption imprévue due à la journalisation. • Hôtes Windows : correction d'un problème où les périphériques contrôle natifs dans l’installeur (bogue #5520) • Hôtes Solaris : correction d'un problème de préemption avec les hôtes Solaris 11 (builds 166 et supérieur) • Hôtes Solaris : meilleur contrôle de l’accès : • Hôtes Mac OS X : correction pour Lion • Hôtes Solaris : correction d'un problème de préemption avec les hôtes Solaris 11 (builds 166 et supérieur) - VBoxManage : configuration plus pratique des0 码力 | 386 页 | 5.61 MB | 1 年前3
2022年美团技术年货 合辑e8febba2ae4abed19/p19_2.jpg) 图 1 YOLOv6 各尺寸模型与其他 YOLO 系列的性能对比图 注:YOLOv6 系列模型均在训练 300 epoch 且不使用预训练模型或额外检测数据集下获得,“ $ ^{*} $ ”表示采用了自蒸馏算法,“ $ ^{*} $ ”表示从官方代码库对发布模型进行重新测评的指标。以上速度指标均在 T4 TRT7.2 环境下测试。 |Method|Input 0%|98|121|10.2 ms|58.5 M|144.0 G| 表 1 YOLOv6 各尺寸模型与其他 YOLO 系列的性能对比结果 注:YOLOv6 系列模型均在训练 300 epoch 且不使用预训练模型或额外检测数据集下获得,“ $ ^{*} $ ”表示采用了自蒸馏算法,“ $ ^{*} $ ”表示从官方代码库对发布模型进行重新测评的指标。以上速度指标均在 T4 TRT7.2 环境下测试。 是样本目标节点 Embedding;Attention 函数是两层前馈神经网络,激活函数为 LeakyReLU。 离线训练时,是基于用户行为序列,对序列中每个 POI 作兴趣子图拓展;而子图生成时采用预采样(Message Passing)+ 联合训练聚合的方式;通过以上三种聚合方式,得到属于行为序列中 POI 对应的向量表示。由于这个过程不仅是扩展了 POI,还将序列信息、候选 POI 信息考虑到0 码力 | 1356 页 | 45.90 MB | 2 年前3
【周鸿祎清华演讲】DeepSeek给我们带来的创业机会-360周鸿祎-202502我们对大模型发展趋势的十大预判 ## DeepSeek出现之前的十大预判之一 传统AGI发展步伐在放慢 需要寻找新方向 全面超越人类的人工智能在逻辑上不成立 Scaling Law边际效应递减 人类训练数据接近枯竭 合成数据无法创造新知识 推理能力难以泛化,成本高昂 ## DeepSeek出现之前的十大预判 之二 慢思考成为新的发展模式 ➢ 大模型发展范式正在从「预训练」转向「后训练」和「推理时计算」 DeepSeek出现之前的十大预判之三 模型越做越专 除了少数科技巨头,大多数公司都专注于做专业大模型 MoE架构盛行,本质是多个专家模型组成一个大模型 Deepmind的Alpha系列产品是这一趋势的最佳诠释 ## DeepSeek出现之前的十大预判之四 模型越做越小 大模型进入「轻量化」时代,上车上终端,蒸馏小模型 先做得更大,然后探索能做多小 ## DeepSeek出现之前的十大预判之五 知识的质量和密度决定大模型能力 DeepSeek出现之前的十大预判 之六 成本越来越低 过去一年,大模型成本「自由落体」 国外:GPT-4等效智能在过去18个月内价格下降240倍 国内:大模型「亏本」卖,可以「白嫖」大模型API能力 ## DeepSeek出现之前的十大预判 之七 多模态越来越重要 由文本生成迈向图像、视频、3D内容与世界模拟 多模态模态在能力变强的同时,规模正在变小 ## DeepSeek出现之前的十大预判 之八 智能体推动大模型快速落地0 码力 | 76 页 | 5.02 MB | 1 年前3
Keras: 基于 Python 的深度学习库如何使用有状态 RNN (stateful RNNs)? ..... 33 3.3.16 如何从 Sequential 模型中移除一个层? ..... 34 3.3.17 如何在 Keras 中使用预训练的模型? ..... 35 3.3.18 如何在 Keras 中使用 HDF5 输入? ..... 35 3.3.19 Keras 配置文件保存在哪里? ..... 36 3.3.20 路透社新闻主题分类 155 12.5 MNIST 手写字符数据集 156 12.6 Fashion-MNIST 时尚物品数据集 156 12.7 Boston 房价回归数据集 157 13 预训练模型 Applications 158 13.1 可用的模型 158 13.2 图像分类模型的示例代码 158 13.2.1 使用 ResNet50 进行 ImageNet 分类 158 Netflix, Uber, Yelp, Instacart, Zocdoc, Square 等众多网站上使用。它尤其受以深度学习作为产品核心的创业公司的欢迎。 Keras 也是深度学习研究人员的最爱,在上载到预印本服务器 arXiv.org 的科学论文中被提及的次数位居第二。Keras 还被大型科学组织的研究人员采用,特别是 CERN 和 NASA。 ### 2.3 Keras 可以轻松将模型转化为产品0 码力 | 257 页 | 1.19 MB | 2 年前3
动手学深度学习 v2.013.14.3 读取数据集 ..... 644 13.14.4 微调预训练模型 ..... 644 13.14.5 定义训练函数 ..... 645 13.14.6 训练和验证模型 ..... 646 13.14.7 对测试集分类并在Kaggle提交结果 ..... 647 14 自然语言处理:预训练 ..... 649 14.1 词嵌入 (word2vec) .... 14.3 用于预训练词嵌入的数据集 ..... 657 14.3.1 读取数据集 ..... 657 14.3.2 下采样 ..... 658 14.3.3 中心词和上下文词的提取 ..... 660 14.3.4 负采样 ..... 661 14.3.5 小批量加载训练实例 ..... 663 14.3.6 整合代码 ..... 664 14.4 预训练word2vec 14.6.2 字节对编码 (Byte Pair Encoding) ..... 675 14.7 词的相似性和类比任务 ..... 678 14.7.1 加载预训练词向量 ..... 679 14.7.2 应用预训练词向量 ..... 681 14.8 来自Transformers的双向编码器表示 (BERT) ..... 683 14.8.1 从上下文无关到上下文敏感 .0 码力 | 797 页 | 29.45 MB | 2 年前3
共 395 条
- 1
- 2
- 3
- 4
- 5
- 6
- 40













