索引粒度 - IT文库_程序员IT互联网编程电子书和文档免费下载，助您码力十足！

首页文库资料文章资讯上传文档发布文章登录账户

TokuDB索引结构

TokuDB索引结构网易杭州研究院---胡争（博客：openinx.github.io） TokuDB简介 • 基于分形树实现的MySQL存储引擎 • Tokutek公司2007年研发，2013年开源 • 2015年Percona公司收购Tokutek公司 • TokuDB内部的K-V存储引擎为ft-index • TokuMx: ft-index + MongoDB Server层代码插入性能大大高于InnoDB（分形树vs B+树） • 查询性能略低于InnoDB • 在线执行DDL操作（不阻塞写操作） • 超高压缩率（TokuDB 4M vs InnoDB 16K）更高性能，更低成本！分形树索引结构（一）分形树结构（二） • msg_buffer – 先进先出队列 • BasementNode（OMT） – 弱平衡二叉树 – 增删改查期望复杂度O(logN) • 页大小默认4M。

0 码力 | 19 页 | 1.97 MB | 1 年前
3
索引与切片

索引与切片主讲人：龙良曲 Indexing ▪ dim 0 first select first/last N select by steps select by specific index … select by mask ▪ .masked_select() select by flatten index 下一课时 Tensor变换 Thank You.

0 码力 | 10 页 | 883.44 KB | 1 年前
3
2022年美团技术年货合辑

异通过高优参数扰动生成，在最优局部进行参数组网格局部扰动。模型融合方 56 > 2022年美团技术年货法一般 Blending、Stacking 或简单 Mean Pooling 等，融合前进行需要进行模型粒度剪枝（去除效果较差的模型避免影响融合效果）与正则化。 3.4 AutoML 框架近期实战：MDD Cup 2021 美团外卖图谱推荐比赛冠军方案在 2021 年 8-9 月美团举行的内部算法比赛 Spatial-temporal Gated DNN 更注重时空融合信息对于预测值的影响，由于需要预测的时间序列问题，更侧重于不同的时间、空间信息有能够将差异性建模充分。而在美团业务中的时空网络注重于细粒度刻画空间信息，源于不同的球面距离，不同的区块位置影响大，需要多重信息深度建模。更多详情，大家可参考团队的 CIKM 论文：Trilateral Spatiotemporal Attention 团队在搜索、推荐、广告、配送等业务的长期落地实践中，总结实践经验，自主设计研发了图神经网络框架 Tulong 以及配套的图学习平台，较好地解决了上述问题。 ● 首先，我们对当前流行的图神经网络模型进行了细粒度的剖析，归纳总结出了一系列子操作，实现了一套通用的模型框架。简单修改配置即可实现许多现有的图神经网络模型。 ● 针对基于子图采样的训练方式，我们开发了图计算库“MTGraph”，大幅优化

0 码力 | 1356 页 | 45.90 MB | 1 年前
3
2. ClickHouse MergeTree原理解析-朱凯

互联数据资源、为组织数字资产管理运营、数据探索、分析赋能！数据汇聚专业的数据资源管理自助分析价值挖掘多维探索灵活快速自助洞察预警消息交互 Agenda. 数据分区 01 / 一级索引&二级索引 02 / 数据存储 03 / 数据标记 04 / 表引擎表引擎，是ClickHouse设计实现中的一大特色。可以说正是由表引擎，决定了一张数据表最终的性格，它拥有何种特性、数据以何种形式被存储以及如何被加载。 geTree)最为强大，在生产环境绝大部分场景中都应该使用此系列的表引擎。只有合并树系列的表引擎才支持主键索引、数据分区、数据副本和数据采样这些特性，同时也只有此系列的表引擎支持ALTER相关操作。合并树家族其中MergeTree作为家族中最基础的表引擎，提供了主键索引、数据分区、数据副本和数据采样等所有的基本能力，而家族中其他的表引擎则在MergeTree的基础之上各有所长。 [SETTINGS name=value, 省略...] 分区键排序键主键 index_granularity = 8192 索引粒度 MergeTree的存储结构数据以分区的形式被组织 , PARTITION BY 各列独立存储, 按ORDER BY 排序一级索引, 按PRIMARY Key 排序数据分区数据的分区规则 l 不指定分区键如果不使用分区键，既不使用PARTITION

0 码力 | 35 页 | 13.25 MB | 1 年前
3
美团点评2018技术年货

..... 境外业务性能优化实践 91 ...................................................................... 美团广告实时索引的设计与实现 106 ...................................................................... 大众点评账号业务高可用进阶之路 123 件存储索引、数据文件节点过多以及随机 IO 恶化的问题。新版消息文件存储为了同时兼顾读写性能，引入了二级索引存储方案，对同一个应用的 IP 节点进行合并，并且保证一定的顺序存储。下图是索引结构的最小单元，每个索引文件由若干个最小单元组成。每个 CAT 3.0 开源发布，支持多语言客户端及多项性能提升 - 美团技术团队单元分为 4×1024 个桶，第一个桶作为我们的一级索引 Header，存储 Header，存储 IP、消息序列号与分桶的映射信息。剩余 4×1024 - 1 个桶作为二级索引，存储消息的地址。新版消息文件存储文件节点数与应用数量成正比，有效减少随机 IO，消息实时存储的性能提升显著。以下为美团点评内部 CAT 线上环境单机消息存储的数据对比：未来规划未来规划技术栈升级拥抱主流技术栈，降低学习和开发成本，使用开源社区主流技术工具（Spring、Mybatis等），建设

0 码力 | 229 页 | 61.61 MB | 1 年前
3
C++高性能并行编程与优化 - 课件 - 06 TBB 开启的并行编程之旅

每个任务包含 8 个元素 tbb::static_partitioner ，指定区间的粒度创建了 2 个线程 2 个任务每个任务包含 16 个元素 tbb::simple_partitioner 创建了 4 个线程 32 个任务每个任务包含 1 个元素 tbb::simple_partitioner ，指定区间的粒度创建了 4 个线程 8 个任务每个任务包含 4 个元素 tbb::auto_partitioner 记录历史，下次根据经验自动负载均衡 tbb::simple_partitioner 粒度为 1 太细了，效果不好 tbb::static_partitioner 粒度自动变成 n / 4 ，效果好 tbb::simple_partitioner 粒度手动设为 n / 8 ，效果稍微更好一点 tbb::auto_partitioner 自动判断合适的粒度，效果也不错例子：矩阵转置使用合适的 grain 大小，大小， simple_partitioner 比 auto_partitioner 快 3.31 倍原因 • tbb::simple_partitioner 能够按照给定的粒度大小（ grain ）将矩阵进行分块。块内部小区域按照常规的两层循环访问以便矢量化，块外部大区域则以类似 Z 字型的曲线遍历，这样能保证每次访问的数据在地址上比较靠近，并且都是最近访问过的，从而已经在缓存里可以

0 码力 | 116 页 | 15.85 MB | 1 年前
3
2020美团技术年货算法篇

效果、优势与不足，希望对大家有所帮助或者启发。搜索优化问题，是个典型的 AI 应用问题，而 AI 应用问题首先是个系统问题。经历近 10 年的技术积累和沉淀，美团搜索系统架构从传统检索引擎升级转变为 AI 搜索引擎。当前，美团搜索整体架构主要由搜索数据平台、在线检索框架及云搜平台、在线 AI 服务及实验平台三大体系构成。在 AI 服务及实验平台中，模型训练平台 Poker 和在线预估框架上最大的连接人和服务的入口，覆盖了团购、外卖、电影、酒店、买菜等各种生活服务。随着用户量快速增长，越来越多的用户在不同场景下都会通过搜索来获取自己想要的服务。理解用户 Query，将用户最想要的结果排在靠前的位置，是搜索引擎最核心的两大步骤。但是，用户输入的 Query 多种多样，既有商户名称和服务品类的 Query，也有商户别名和地址等长尾的 Query，准确刻画 Query 与 Doc 之间的深度语义相关性至关重要。基于任务（文本分类、序列标注、句间关系判断和机器阅读理解等）。美团 AI 平台搜索与 NLP 部算法团队基于美团海量业务语料训练了 MT-BERT 模型，已经将 MT- BERT 应用到搜索意图识别、细粒度情感分析、点评推荐理由、场景化分类等业务场景中 [2]。作为 BERT 的核心组成结构，Transformer 具有强大的文本特征提取能力，早在多项 NLP 任务中得到了验证，美团搜索也基于

0 码力 | 317 页 | 16.57 MB | 1 年前
3
Greenplum 精粹文集

分布式存储和分布式计算理论刚刚被提出来，Google 的两篇著名论文发表后引起业界的关注，一篇是关于 GFS 分布式文件系统，另外一篇是关于 MapReduce 并行计算框架的理论，分布式计算模式在互联网行业特别是收索引擎和分词检索等方面获得了巨大成功。 Big Date2.indd 1 16-11-22 下午3:38 2 由此，业界认识到对于海量数据需要一种新的计算模式来支持，这种模式就是可以支持还研发了非常多的高级数据分析管理功能和企业级管理模块，如下这些功能都是 Postgresql 没有提供的： ·外部表并行数据加载 ·可更新数据压缩表 ·行、列混合存储 ·数据表多级分区 ·Bitmap 索引 ·Hadoop 外部表 ·Gptext 全文检索 ·并行查询计划优化器和 Orca 优化器 ·Primary/Mirror 镜像保护机制 ·资源队列管理 ·WEB/Brower 监控按照文件切片方式分布式存储（无模式）。 ·两者采用的数据分布机制不同，MPP 采用 Hash 分布，计算节点和存储紧密耦合，数据分布粒度在记录级的更小粒度（一般在 1k 以下）；Hadoop FS 按照文件切块后随机分配，节点和数据无耦合，数据分布粒度在文件块级（缺省 64MB）。 ·MPP 采用 SQL 并行查询计划，Hadoop 采用 Mapreduce 框架。基于以上不同

0 码力 | 64 页 | 2.73 MB | 1 年前
3
TiDB v8.0 中文手册

· · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · 61 2.3.2 索引和约束 · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · 89 3.3.4 创建、查看和删除索引 · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · 248 4.5.4 创建二级索引· · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · ·

0 码力 | 4805 页 | 101.28 MB | 1 年前
3
TiDB v8.1 中文手册

· · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · 46 2.3.2 索引和约束 · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · 75 3.3.4 创建、查看和删除索引 · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · 233 4.5.4 创建二级索引· · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · ·

0 码力 | 4807 页 | 101.31 MB | 1 年前
3

共 796 条前往

页

分类

语言

格式