TokuDB索引结构TokuDB索引结构 网易杭州研究院---胡争(博客:openinx.github.io) TokuDB简介 • 基于分形树实现的MySQL存储引擎 • Tokutek公司2007年研发,2013年开源 • 2015年Percona公司收购Tokutek公司 • TokuDB内部的K-V存储引擎为ft-index • TokuMx: ft-index + MongoDB Server层代码 4M vs InnoDB 16K) 更高性能,更低成本! 分形树索引结构(一) 分形树结构(二) • msg_buffer – 先进先出队列 • BasementNode(OMT) – 弱平衡二叉树 – 增删改查期望复杂度O(logN) • 页大小默认4M。 • 扇出fanout默认[4,16]区间。 分形树结构(三) 分形树Insert/Update/Delete • 步骤:0 码力 | 19 页 | 1.97 MB | 1 年前3
Java 应用与开发 - Java EE 体系结构大纲 软件开发现状 Java EE 概述 Java EE 容器 Java EE 组件 组件间通信协议 Java 应用与开发 Java EE 体系结构 王晓东 wangxiaodong@ouc.edu.cn 计算机科学与技术系 November 6, 2018 大纲 软件开发现状 Java EE 概述 Java EE 容器 Java EE 组件 组件间通信协议 参考书目 1. 吕海东,张坤编著,Java 软件系统是由许多小的组件构建和装配起来的 采用标准规范开发 J2EE, MS.NET 全面采用框架技术 Struts、Spring、Hibernate、AJAX、 WebWork 软件系统采用分层结构和设计模式 MVC 工厂化流水线开发模式 CVS 可视化软件建模 UML、RUP、ROSE 大纲 软件开发现状 Java EE 概述 Java EE 容器 Java EE 组件 组件间通信协议 软件系统是由许多小的组件构建和装配起来的 采用标准规范开发 J2EE, MS.NET 全面采用框架技术 Struts、Spring、Hibernate、AJAX、 WebWork 软件系统采用分层结构和设计模式 MVC 工厂化流水线开发模式 CVS 可视化软件建模 UML、RUP、ROSE 大纲 软件开发现状 Java EE 概述 Java EE 容器 Java EE 组件 组件间通信协议0 码力 | 40 页 | 1.89 MB | 1 年前3
QCon2018北京-基于深度学习的视频结构化实践-姚唐仁《基于深度学习的视频结构化实践》 七牛云 AI实验室首席架构师/姚唐仁� • 围绕海量数据提供创新的云服务,帮助客户缩短想法到产品的距离 • 创立6年,每年超过300%的业绩增长 • 已完成5轮融资,累计超过20亿 • 长期服务70多万企业用户和开发者 • 文件数超过2000亿,每日新增文件20亿 • 覆盖全球300个节点 • 覆盖金融、公安、广电媒体、互联网等行业 视觉-最重要的信息感知 2017中国网络视频用户情况 ����2017������������� 传统视频摘要 vs AI视频结构化 内容不完整 依赖经验 实时性差 时效性差 识别范围广 效率高 可迭代 创新基础 传统手工摘要 AI视频结构化 视频结构化场景 视频分解 基础模型要素 ��1�01:02:03-01:10:05� ��1����� �� �� 2 ������ ��PA� ������ 3 4 5 6 ���L ������ ��PA� ����� ���L ��������� ������L 大规模视频训练框架 结构化策略 ���� ������ ���� ���� 主题分类-特征提取 DPN SENet ResNeXt NASNet 主题分类-模型训练 模型融合 a) Early0 码力 | 39 页 | 38.01 MB | 1 年前3
MoonBit月兔编程语言 现代编程思想 第四课 多元组, 结构体,枚举类型现代编程思想 多元组,结构体与枚举类型 Hongbo Zhang 1 基础数据类型:多元组与结构体 2 回顾:多元组 多元组:固定⻓度的不同类型数据的集合 定义: (<表达式>, <表达式>, ...) 类型: (<表达式类型>, <表达式类型>, ...) 例如: 身份信息: ("Bob", 2023, 10, 24): (String, Int, Int, Int) 成员访问: ⼀个多元组类型的元素即是每个组成类型的元素构成的有序元素组 集合的笛卡尔积,⼜称积类型 例:扑克牌的所有花⾊:{ } 4 结构体 元组的问题在于,难以理解其所代表的数据 (String, Int) :⼀个⼈的姓名和年龄?姓名和⼿机号?地址和邮编? 结构体允许我们赋予名称 struct PersonalInfo { name: String; age: Int } struct ContactInfo 5 结构体的定义 结构体的定义形如 struct <结构体名称> { <字段名>: <类型> ; ... } struct PersonalInfo { name: String; age: Int} 定义结构体的值时,形如 { <字段名>: <值> , ... } let info: PersonalInfo = { name: "Moonbit", age: 1, } 结构体的值的定义不在意顺序:0 码力 | 26 页 | 435.86 KB | 1 年前3
C++高性能并行编程与优化 - 课件 - 10 从稀疏数据结构到量化数据类型从稀疏数据结构到量化数据类型 by 彭于斌( @archibate ) 往期录播: https://www.bilibili.com/video/BV1fa411r7zp 课程 PPT 和代码: https://github.com/parallel101/course 本课涵盖:稀疏矩阵、 unordered_map 、空间稀 疏网格、位运算、浮点的二进制格式、内存带宽优 化 面向人群:图形学、 是负数,则得到的模也是负数。 Python 的 % 就没问题 • 7 % 4 = 3 • -7 % 4 = 1 • Python 的模运算 a % b 的值始终是 [0, b) 区间内的正数,非常方便。 对稀疏数据结构造成的问题 • 如果这里的 x 是负数,则 x % B 也是负数,会造成对 m_block 的越界访问。 • 因此 % 会返回负数对 CFD 用户来说是个很大的坑点,很多人想当然地用 % 做循环边界, 是正数,则是向下取整。 Python 的 // 就没问题 • 7 // 4 = 1 • -7 // 4 = -2 • Python 的整除运算 a // b 的值始终是向下取整,非常方便。 对稀疏数据结构造成的问题 • 也就是说,如果 x 是 [-3,0] 则 x / B 会是 0 ,如果 x 是 [0,3] 则 x / B 也是 0 。导致两个 同时跑到一个 block 上去,会出错。 高效的解决:位运算0 码力 | 102 页 | 9.50 MB | 1 年前3
MoonBit月兔编程语言 现代编程思想 第七课 命令式编程:命令,可变数据结构,循环赋值操作是⼀个命令 在⽉兔中,结构体的字段默认不可变,我们也允许可变的字段,需要⽤ mut 标识 1. struct Ref[T] { mut val : T } 2. 3. fn init { 4. let ref: Ref[Int] = { val: 1 } // ref 本身只是⼀个数据绑定 5. ref.val = 10 // 我们可以修改结构体的字段 6. println(ref println(ref.val.to_string()) // 输出 10 7. } 8 变量 我们可以将带有可变字段的结构体看作是引⽤ 1 var x = 1 x = 2 x 2 x let ref = { val : 1 } ref.val = 10 ref ref 1 10 val val mut ref = { val : 1 } ref = { val : 10 } } ref ref 1 1 val val 10 val 9 别名 指向相同的可变数据结构的两个标识符可以看作是别名 1. fn alter(a: Ref[Int], b: Ref[Int]) { 2. a.val = 10 3. b.val = 20 4. } 5. 6. fn init { 7. let x: Ref[Int] = { val : 1 } 80 码力 | 23 页 | 780.46 KB | 1 年前3
2022年美团技术年货 合辑大规模异构图召回在美团到店推荐广告的应用 102 美团搜索粗排优化的探索与实践 116 美团外卖推荐情境化智能流量分发的实践与探索 129 大众点评搜索相关性技术探索与实践 152 美团 SemEval2022 结构化情感分析跨语言赛道冠军方法总结 174 检索式对话系统在美团客服场景的探索与实践 188 端智能在大众点评搜索重排序的应用实践 216 对话摘要技术在美团的探索(SIGIR) 238 DSTC10 开放领域对话评估比赛冠军方法总结 368 KDD 2022 | 美团技术团队精选论文解读 382 ACM SIGIR 2022 | 美团技术团队精选论文解读 391 CVPR 2022 | 美团技术团队精选论文解读 404 ACM MM & ECCV 2022 | 美团视觉 8 篇论文揭秘内容领域的智能科技 413 前端 427 知识图谱可视化技术在美团的实践与探索 方面 仍有很大的提升的空间。基于此,我们通过研究并借鉴了业界已有的先进技术,开发 了一套新的目标检测框架——YOLOv6。该框架支持模型训练、推理及多平台部署 等全链条的工业应用需求,并在网络结构、训练策略等算法层面进行了多项改进和优 化,在 COCO 数据集上,YOLOv6 在精度和速度方面均超越其他同体量算法,相关 结果如下图 1 所示: 算法 2 > 2022年美团技术年货 图0 码力 | 1356 页 | 45.90 MB | 1 年前3
2024 中国开源开发者报告O(n²)的理论计算复杂度,这里的 n 指的是大模型输入 序列的 token 数量,但其前任语言模型担当 RNN 只有 O(n)的理论计算复杂度。 最近,以 Mamba、RWKV 为代表的类 RNN 结构死灰复燃,公开挑战 transformer 地位。 更有最新研究【13】从理论上表明,RNN 对比 Transformer 的表达力,只差一个 in-context-retrieval。 在这个 科技博主“傅聪 Cong”。 前阿里巴巴算法专家,目前就职于 Shopee(新加坡)任资深算法专家。 在顶会和期刊 TPAMI、KDD、VLDB、IJCAI、EMNLP、CIKM 等发表 十余篇论文,同时也是 Tpami、TKDE、KDD、ICLR、AAAI、IJCAI、 EMNLP、ICLR 等会议的审稿人。 35 / 111 AI 的三岔路口:专业模型和个人模型 文/李博杰 2024 机网络与协议实验室助理科学家、首届“天才少年”。2019 年,在中 国科学技术大学与微软亚洲研究院的联合培养项目中取得博士学位。在 SIGCOMM、SOSP、NSDI、PLDI 等顶级会议上发表多篇论文,曾获 ACM 中国优秀博士学位论文奖和“微软学者”奖学金。 39 / 111 2024 年 AI 编程技术与工具发展综述 文/朱少民 2024 年 8 月下旬,一款 AI 代码编辑器——Cursor 火爆全球,火到一位0 码力 | 111 页 | 11.44 MB | 8 月前3
机器学习课程-温州大学-12深度学习-自然语言处理和词嵌入(下图左边为CBOW,右边为Skip-Gram) CBOW对小型数据库比较合适,而Skip-Gram在大型语料中表现更好。 17 3.Word2Vec 我们实际构建和训练模型的数据集将如下所示: 这被称为连续词袋结构,并在word2vec论文 one of the word2vec papers 中进行过描述。 18 3.Word2Vec 负采样 计算的角度来看,SkipGram非常消耗资源:尤其是我们将在 数据 更易于并行化,所需训练时间明显更少 ◼ Transformer通过成功地将其应用于具有大量和有限训练数据的分 析,可以很好地推广到其他任务 ✓ 2017年,在Ashish Vaswani et.al 的论文《Attention Is All You Need》 中,考虑到主导序列转导模型基于编码器-解码器配置中的复杂递归或卷积 神经网络,性能最好的模型被证明还是通过注意力机制(attention 文本量性完全由不同的编码控制的状态。 对话式文本生成适用于智能客服等任务型和闲聊型机器人等 非任务型人机交互场景,可分类为管道模式及端对端模式。 结构性的文本生成,首先通过注意力机制、多层感知器等系 统进行语句内容预选,对数值、时间等类型数据进行推理。 增强数据间的结构信息。其次通过Transformer等模式结合 上下文进行推导,生成最终文本。 ◼ Transformer架构可分为自回归系列(例如0 码力 | 44 页 | 2.36 MB | 1 年前3
【PyTorch深度学习-龙龙老师】-测试版202112的英文原文,供读者参考,同时也方便读者日后阅读相关英文文献时,不至于感到陌生。 尽管每天都有深度学习相关算法论文的发布,但是作者相信,深度学习的核心思想和基 础理论是共通的。本书已尽可能地涵盖其中基础、主流并且前沿的算法知识,但是仍然有很 多算法无法涵盖,读者学习完本书后,可以自行搜索相关方向的研究论文或资料,进一步学 习。 深度学习是一个非常前沿和广袤的研究领域,鲜有人士能够对每一个研究方向都有深刻 启了深度学习的第三次复兴之路。 1.2.1 浅层神经网络 1943 年,心理学家 Warren McCulloch 和逻辑学家 Walter Pitts 根据生物神经元(Neuron) 结构,提出了最早的神经元数学模型,称为 MP 神经元模型。该模型的输出?(?) = ℎ(?(?)),其中?(?) = ∑ ?? ? , ?? ∈ {0,1},模型通过?(?)的值来完成输出值的预测,如图 感知机模型 预览版202112 1.2 神经网络发展简史 5 图 1.6 Frank Rosenblatt 和 Mark 1 感知机① 图 1.7 Mark 1 感知机网络结构② 1969 年,美国科学家 Marvin Minsky 等人在出版的《Perceptrons》一书中指出了感知 机等线性模型的主要缺陷,即无法处理简单的异或 XOR 等线性不可分问题。这直接导致0 码力 | 439 页 | 29.91 MB | 1 年前3
共 850 条
- 1
- 2
- 3
- 4
- 5
- 6
- 85













