DeepSeek-V2: A Strong, Economical, and Efficient Mixture-of-Experts Language Model
open-source models. The model checkpoints are available at h t t p s : / / g i t h u b . c o m / d e e p s e e k - a i / D e e p S e e k - V 2 . 0 20 40 60 80 100 Activated Parameters (Billions) 55 60 65 70 . 30 C Full Formulas of MLA 31 D Ablation of Attention Mechanisms 31 D.1 Ablation of MHA, GQA, and MQA . . . . . . . . . . . . . . . . . . . . . . . . . . . 31 D.2 Comparison Between MLA and MHA but their performance does not match MHA (we provide the ablation of MHA, GQA and MQA in Appendix D.1). For DeepSeek-V2, we design an innovative attention mechanism called Multi-head Latent Attention0 码力 | 52 页 | 1.23 MB | 1 年前3Dynamic Model in TVM
or its Affiliates. All rights reserved. Dynamic codegen: kernel dispatch (proposal) Relay op: conv2d Default function FTVMStrategy A generic function CPU strategy func GPU strategy func OpStrategy Inc. or its Affiliates. All rights reserved. How to register a strategy? @conv2d_strategy.register("cpu") def conv2d_strategy_cpu(attrs, inputs, out_type, target): strategy = OpStrategy() layout strategy.register_specialized_implement(wrap_compute_conv2d(topi.x86.conv2d_winograd), topi.x86.conv2d_winograd,0 码力 | 24 页 | 417.46 KB | 5 月前3Manus AI:Agent元年开启
R<100'u#xÆS)÷ø,vw60+3C,ôK40[+cC%ã,xŸcCyz 7700[+FW{ã,|/5nFW}$~•> • L€Monica•‚,9€Œ"ƒ<„…Muv,ƒ5†D‡[ˆ%GD‡5†IJÞ--‰Š!ƒD‡5†[ˆGfigma> • 2022Eb,÷‹MonicauŒ>Monica!"#¶‰$•)€GAIŸ ,$ŒÜÝÞLMŽ•áâS),•ÌQŸ%ãR²cA+C•‘W O>Monica 5⃣ ()+•©žx5ª« AI *+3z,¬-•®xC•¯°x> • *˜5ArizecLangSmithcLangfusecHelicone> • 6⃣ ()+I±5š›x²'# AI *+Ðd³,KfJK’3)€> • *˜5LangGraphcAutogencHaystackcSwarmcMulti-agent Orchestrator> • 7⃣ de´.«Model Routing¬5š›6¦ 9Œ{#,-0•ùÈGøï,t:ßg{¹LH IÁ%kðFG¾%x>$Œ|û;¨Ð©<&‰=*–[>?@Cñ%µÁ%>Þ#Œk2D<ÕÂ,L’36¦Á%kðGº»J KP-8Þ#ÕÂ> • û•()RPA>AppAgent•ÌQŸ%ã|4AíGmail™Î,XøBCM,)`D¦ñ%ÄÅE:F+cG†CMcóÈcH‡Cº» GÈIIJ'¶pAPP> • ¶+Jh5 1c'£cœé,KLÄÅ:}Õ0 码力 | 23 页 | 4.87 MB | 5 月前3TVM Meetup: Quantization
operators like TF quantized_conv2d • Underlying calculations are different than FP32 conv2d • Sometimes operators are aggressively fused • TFLite fuses quantized_conv2d, bias, relu and requantize 𝑟𝑒𝑎𝑙_𝑣𝑎𝑙𝑢𝑒 operators that satisfy many framework operators • qnn.quantize, qnn.dequantize, qnn.requantize • qnn.conv2d, qnn.dense • qnn.concatenate • qnn.add, qnn.mul • QNN operators will be lowered to Relay operators its Affiliates. All rights reserved. QNN Conv2D Operator • Calculations are different from FP32 Conv2D https://discuss.tvm.ai/t/tf-lite-quantized-conv2d-operator-conversion/2651/8 𝑟𝑒𝑎𝑙_𝑣𝑎𝑙𝑢𝑒0 码力 | 19 页 | 489.50 KB | 5 月前3人工智能安全治理框架 1.0
(c)鲁棒性弱风险。由于深度神经网络存在非线性、大规模等特点,人 工智能易受复杂多变运行环境或恶意干扰、诱导的影响,可能带来性能下降、 决策错误等诸多问题。- 4 - 人工智能安全治理框架 (d)被窃取、篡改的风险。参数、结构、功能等算法核心信息,面临被 逆向攻击窃取、修改,甚至嵌入后门的风险,可导致知识产权被侵犯、商业机 密泄露,推理过程不可信、决策输出错误,甚至运行故障。 (e)输出不可靠风险。生成式人工智能可能产生 (c)训练数据标注不规范风险。训练数据标注过程中,存在因标注规则 不完备、标注人员能力不够、标注错误等问题,不仅会影响模型算法准确度、 可靠性、有效性,还可能导致训练偏差、偏见歧视放大、泛化能力不足或输出 错误。 (d)数据泄露风险。人工智能研发应用过程中,因数据处理不当、非授 权访问、恶意攻击、诱导交互等问题,可能导致数据和个人信息泄露。 3.1.3 系统安全风险 (a)缺陷、后门被攻击利用风险。人工智能算法模型设计、训练和验证 证机制,导致认证鉴权失效。 (c)不当使用引发信息泄露风险。政府、企业等机构工作人员在业务工 作中不规范、不当使用人工智能服务,向大模型输入内部业务数据、工业信息, 导致工作秘密、商业秘密、敏感业务数据泄露。 (d)滥用于网络攻击的风险。人工智能可被用于实施自动化网络攻击或- 6 - 人工智能安全治理框架 提高攻击效率,包括挖掘利用漏洞、破解密码、生成恶意代码、发送钓鱼邮件、 网络扫描、社会工程学攻击等,降低网络攻击门槛,增大安全防护难度。0 码力 | 20 页 | 3.79 MB | 29 天前3Trends Artificial Intelligence
progress comes from bigger models versus smarter algorithms, based on how much computing power you'd need to reach top performance without any improvements. Source: Epoch AI (3/24) Impact of Improved Adoption = Rising Priority In a historic first for the [USA FDA], FDA Commissioner Martin A. Makary, M.D., M.P.H., today announced an aggressive timeline to scale use of artificial intelligence (AI) internally 26 64 80 114 129 160 223 0 125 250 1995 1999 2003 2007 2011 2015 2019 2023 Government R&D funding has been a key part of AI development budgets, especially in healthcare: - FY21-FY25 Federal0 码力 | 340 页 | 12.14 MB | 4 月前3Google 《Prompt Engineering v7》
attached screenshot of me entering text in the name field. Notice the JavaScript alert box that I inv0k3d. But for the rest it's a great website. I enjoy reading it. Feel free to leave the bug in the website semantics but keep the same meaning. Output 1. I’d like to purchase a Metallica t-shirt in size small. 2. Can I order a small-sized Metallica t-shirt? 3. I’d like to buy one Metallica t-shirt in small. 4 4. One Metallica shirt, size small, please. 5. I want one Metallica t-shirt in size small. 6. I’d like to place an order for one Metallica t-shirt in small. 7. Small Metallica t-shirt, one please. 8. I’m0 码力 | 68 页 | 6.50 MB | 6 月前3清华大学 DeepSeek+DeepResearch 让科研像聊天一样简单
3 年 7 月 D e e p S e e k 成 立 2 0 2 3 年 1 1 月 2 日 首个开源代码大模型 DeepSeek Coder发布 2 0 2 3 年 1 1 月 2 9 日 推出670亿参数的通用大模型 D e e p S e e k L L M , 包 括 7 B 和67B的base及chat版本 发 布 新 一 代 推 理 模 型 D e e p S e p e n A I 的 o 1 正 式 版 持平,并开源 2 0 2 5 年 1 月 2 0 日 2 0 2 4 年 1 2 月 2 6 日 发 布 总 参 数 达 6 7 1 0 亿 的 D e e p S e e k - V 3 , 采 用 创 新 MoE架构和FP8混合精度训练, 训练成本大幅降低 DeepSeek是一家专注通用人工智能(AGl)的中国科技公司,主攻大模型研发与应用。 DeepSeek的成功促使AI行业重新审视技术应用与发展方向。其低成本、高性能的模型为AI技术的普及提供了实际 范例,推动了AI技术在训练成本、模型效能和开源生态方面的新标准的形成。 创新技术路径 D e e p S e e k 通 过 算 法 优 化 与 架构创新(如MLA、MoE结 构 ) , 将 训 练 成 本 降 至 行 业 1/10,打破了传统AI巨头依 赖“规模法则”的垄断局面。0 码力 | 85 页 | 8.31 MB | 7 月前3TVM@Alibaba AI Labs
compute and how to compute. w What you want to compute @autotvm.register top compute(conv2d,pvr, [direct]) def conv2d_pvr(cfg, data, kernel, strides, padding, dilation, layout, out_dtype): #Describe algorithm How to compute. @autotvm.register_ topi_schedule(schedule_conv2d_nchw,pvr, [direct]) convolution def schedule_conv2d_nchw_pvr(cfg, outs):0 码力 | 12 页 | 1.94 MB | 5 月前3普通人学AI指南
1.1 AIGC AIGC 是指使用人工智能模型生成内容的技术。这些内容可以包括图像、音频、 文本、视频、3D 模型等。具体来说,AIGC 技术可以生成如下类型的内容: • 图像:如照片、原创艺术作品 • 音频:如视频游戏中的配音、音乐 • 文本:如代码、广告文案、小说 • 3D 模型:如角色、场景 目前,AIGC 技术处于早期阶段,最常见的产品形态是基于文本的,通过用 户输入来控制内 run -d --name lobe-chat -p 10084:3210 -e ACCESS_CODE=lobe66 lobehub/lobe-chat:latest 22 解释下这条命令,它用于以守护进程模式(后台)运行一个名为 lobe-chat 的 Docker 容器,并设置一些特定参数: docker run : 启 动 并 运 行 一 个 新 的 Docker 容 器。 -d: 在0 码力 | 42 页 | 8.39 MB | 7 月前3
共 22 条
- 1
- 2
- 3