分布式 KV 存储系统 Cellar 演进之路Cellar日请求量达万亿级,美团点评最大NoSQL存储 Cellar起源 Cellar起源—Tair架构 路由表 Cellar起源—Tair架构 HASH Key 桶号 存储节点 固定HASH算 法 固定数目 数据分片 桶->存储节点 对照表 Cellar起源—Tair架构 服务层 请求 mdb 响应 ldb fdb rdb 引擎层 迁移 复制 • 中心化集群问题 • 可用性问题 • 性能问题 升级后的节点缺少升级期间的写入 Cellar—节点高可用 Cellar—节点高可用 • 秒级容灾 无数据迁移 • 节点静默升级 中心节点 A节点 1分片主 2分片备 B节点 1分片备 2分片主 分片1复制 回写增量log 分片2复制 分片2复制 分片1复制 客户端 分片1&2 log Cellar—异地容灾 • 多机房建设 网络延迟大 专线稳定性差 • 异地容灾需求 跨集群数据同步 Cellar—异地容灾0 码力 | 34 页 | 1.66 MB | 1 年前3
美团点评2018技术年货Hash机制,对全量 数据做分片处理,在原有LruCache的基础上形成HashLruCache,以降低查询耗时。 HashLruCache引入某种哈希算法,将缓存数据分散到N个LruCache上。最简单的哈希算法即使用取模算 法,将广告信息按照其ID取模,分散到N个LruCache上。查询时也按照相同的哈希算法,先获取数据可 能存在的分片,然后再去对应的分片上查询数据。这样可以增加LruCache的读写操作的并行度,减小同 Cache的读写操作的并行度,减小同 步等待的耗时。 下图是使用16分片的HashLruCache结构前后,且命中率高于95%的情况下,针对持续增长的QPS得出的 数据获取平均耗时(ms)对比图: 引入HashLruCache前后平均耗时 根据平均耗时图可以得出以下结论: 1. 使用HashLruCache后,平均耗时减少将近一半,效果比较明显。 2. 对比不使用HashLruCac 对比不使用HashLruCache的平均耗时可以发现,使用HashLruCache的平均耗时对QPS的增长不敏感,没有明显增 长。 下图是使用16分片的HashLruCache结构前后,且命中率高于95%的情况下,针对持续增长的QPS得出的 数据获取Top999耗时(ms)对比图: LruCache在美团DSP系统中的应用演进 - 美团技术团队 引入HashLruCache前后TP999耗时 根据Top999耗时图可以得出以下结论:0 码力 | 229 页 | 61.61 MB | 1 年前3
唯品会调度系统的前世今生功能单一,只支持Java,不支持 Shell(PHP)和消息驱动的作业调度 对任务超时、任务执行情况、监控逻辑 支持粒度功能较单一或缺乏 没有容器化选型? 调度产品的定位 简易开发、简单维护 高可用、分片并发处理、资源调度动态平衡 支持Java、Shell以及本地模式(VIP还支持消息模式) 统一配置、统一监控、统一管理 VIP弹性调度系统 -- Saturn 开源地址: Github.com/vipshop/Saturn 安全管理平台 Salus 有女初张成 唯品会弹性调度系统的架构与功 能窥探 域 应用包 作业 执行节点 1 1 * 1 * * 创建 Binding 调度器 物理机 1 1 分片 1 * * 领域模型 Ready Running Stopping Stopped 启用 触发(手工, 时间或消息) 停用 执行完成 停用 执行完成 作业状态变迁 内部系统集成 释放 容器 资源 域 作业 Executor 容器 Task/App Saturn DC/OS 1 * * 1 * 1 创建 创建 协调者 Binding 分片 1 * 镜像(程 序包) 1 * 作业实 现包 1 * 物理机 1 1 作业名 1 * 模型结合 开发/测试 生产 GIT Check-in代码 Jenkins Pull代码0 码力 | 58 页 | 5.40 MB | 1 年前3
PaddleDTX 1.0.0 中文文档续集成更多纵向联邦学 习、横向联邦学习算法。 1.2 去中心化存储网络 数据持有节点将自己的隐私数据进行加密、切分、副本复制后分发到存储节 点,存储节点通过应答数据持有节点的挑战证明自己持有数据分片。通过这些 机制,实现了在不泄漏隐私的前提下充分且安全地利用存储资源。 训练样本和预测数据集往往是归属于不同机构的隐私数据。这些机构可以作为 数据持有节点加入到去中心化存储网络中,通过多方安全计算网络发挥数据的 件的形式存储于中心化存储网 络,在发布训练任务或者预测任务的时候,由计算需求节点指定。 模型 算法和训练样本确定模型。通过模型可以对预测数据集的标签值进行预测。 PaddleDTX中的模型,以“分片”的形式存储在参与训练的任务执行节点的本 地,在预测时,任务执行节点使用各自的模型进行计算,再汇总得到最终结 果。 正在进行中 我们即将支持的主要功能如下: 1. 支持更多的机器学习算法和对应的分布式改造,主要包括神经网络、决策 敏感数据使用需要得到严格的授权或监管,以备后续审计。 因此,亟需一个去中心化存储系统解决敏感数据的隐私保护、安全使用和监管 审计问题。 特点和优势 XuperDB 具备高安全、高可用、可审计的特点: 高安全:数据加密分片存储,有权限的用户才能恢复原始数据,且可以抵 御存储节点串谋和单副本攻击; 高可用:通过副本保持证明机制保证数据被安全存储,通过健康监控和文 件迁移机制保证文件随时可恢复,且可以抵御单节点故障; 可0 码力 | 53 页 | 1.36 MB | 1 年前3
PaddleDTX 1.0.0 中文文档向联邦学习、横向联邦学习算法。 1.2.2 1.2 去中心化存储网络 数据持有节点将自己的隐私数据进行加密、切分、副本复制后分发到存储节点,存储节点通过应答数据持有 节点的挑战证明自己持有数据分片。通过这些机制,实现了在不泄漏隐私的前提下充分且安全地利用存储资 源。 训练样本和预测数据集往往是归属于不同机构的隐私数据。这些机构可以作为数据持有节点加入到去中心化 存储网络中,通过多方安全计算网络发挥数据的最大价值。 储于中心化存储网络,在发布训练任务或者预测 任务的时候,由计算需求节点指定。 2.6 模型 算法和训练样本确定模型。通过模型可以对预测数据集的标签值进行预测。PaddleDTX 中的模型,以“分片” 的形式存储在参与训练的任务执行节点的本地,在预测时,任务执行节点使用各自的模型进行计算,再汇总 得到最终结果。 4 Chapter 2. 基本概念 CHAPTER3 正在进行中 我们即将支持的主要功能如下: 据的隐私保护、安全使用和监管审计问题。 41 PaddleDTX Documentation 11.2 特点和优势 XuperDB 具备高安全、高可用、可审计的特点: • 高安全:数据加密分片存储,有权限的用户才能恢复原始数据,且可以抵御存储节点串谋和单副本攻 击; • 高可用:通过副本保持证明机制保证数据被安全存储,通过健康监控和文件迁移机制保证文件随时可 恢复,且可以抵御单节点故障;0 码力 | 57 页 | 624.94 KB | 1 年前3
Nacos架构&原理
模式模式,启动不同的模块。 ⼀致性协议:解决不同数据,不同⼀致性要求情况下,不同⼀致性要求,是 Nacos 做到 AP 协 议的关键。 存储模块:解决数据持久化、非持久化存储,解决数据分片问题。 插件 Nameserver:解决 Namespace 到 ClusterID 的路由问题,解决用户环境与 Nacos 物理环境 映射问题。 CMDB:解决元数据存储,与三方 CMDB Zookeeper 强绑定,再加上希望可以和 Raft 算法库的支持团队 随时沟通交流,因此选择了 JRaft,选择 JRaft 也是因为 JRaft 支持多 RaftGroup,为 Nacos 后 面的多数据分片带来了可能。 Nacos 架构 < 30 而 Distro 协议是阿里巴巴自研的⼀个最终⼀致性协议,而最终⼀致性协议有很多,比如 Gossip、 Eureka 内的数据同步算法。而 Distro 架构 这种机制保证了 Distro 协议可以作为⼀种 AP 协议,对于读操作都进行及时的响应。在网络分区 的情况下,对于所有的读操作也能够正常返回;当网络恢复时,各个 Distro 节点会把各数据分片的 数据进行合并恢复。 小结 Distro 协议是 Nacos 对于临时实例数据开发的⼀致性协议。其数据存储在缓存中,并且会在启动 时进行全量数据同步,并定期进行数据校验。 在 Distro0 码力 | 326 页 | 12.83 MB | 10 月前3
PaddleDTX 1.1.0 中文文档续集成更多纵向联邦学 习、横向联邦学习算法。 1.2 去中心化存储网络 数据持有节点将自己的隐私数据进行加密、切分、副本复制后分发到存储节 点,存储节点通过应答数据持有节点的挑战证明自己持有数据分片。通过这些 机制,实现了在不泄漏隐私的前提下充分且安全地利用存储资源。 训练样本和预测数据集往往是归属于不同机构的隐私数据。这些机构可以作为 数据持有节点加入到去中心化存储网络中,通过多方安全计算网络发挥数据的 件的形式存储于中心化存储网 络,在发布训练任务或者预测任务的时候,由计算需求节点指定。 模型 算法和训练样本确定模型。通过模型可以对预测数据集的标签值进行预测。 PaddleDTX中的模型,以“分片”的形式存储在参与训练的任务执行节点的本 地,在预测时,任务执行节点使用各自的模型进行计算,再汇总得到最终结 果。 模型评估 PaddleDTX中的模型评估同样经过分布式改造。如果用户指定执行模型评估, 敏感数据使用需要得到严格的授权或监管,以备后续审计。 因此,亟需一个去中心化存储系统解决敏感数据的隐私保护、安全使用和监管 审计问题。 特点和优势 XuperDB 具备高安全、高可用、可审计的特点: 高安全:数据加密分片存储,有权限的用户才能恢复原始数据,且可以抵 御存储节点串谋和单副本攻击; 高可用:通过副本保持证明机制保证数据被安全存储,通过健康监控和文 件迁移机制保证文件随时可恢复,且可以抵御单节点故障; 可0 码力 | 57 页 | 1.38 MB | 1 年前3
PaddleDTX 1.1.0 中文文档向联邦学习、横向联邦学习算法。 1.2.2 1.2 去中心化存储网络 数据持有节点将自己的隐私数据进行加密、切分、副本复制后分发到存储节点,存储节点通过应答数据持有 节点的挑战证明自己持有数据分片。通过这些机制,实现了在不泄漏隐私的前提下充分且安全地利用存储资 源。 训练样本和预测数据集往往是归属于不同机构的隐私数据。这些机构可以作为数据持有节点加入到去中心化 存储网络中,通过多方安全计算网络发挥数据的最大价值。 储于中心化存储网络,在发布训练任务或者预测 任务的时候,由计算需求节点指定。 2.6 模型 算法和训练样本确定模型。通过模型可以对预测数据集的标签值进行预测。PaddleDTX 中的模型,以“分片” 的形式存储在参与训练的任务执行节点的本地,在预测时,任务执行节点使用各自的模型进行计算,再汇总 得到最终结果。 4 Chapter 2. 基本概念 PaddleDTX Documentation 据的隐私保护、安全使用和监管审计问题。 49 PaddleDTX Documentation 11.2 特点和优势 XuperDB 具备高安全、高可用、可审计的特点: • 高安全:数据加密分片存储,有权限的用户才能恢复原始数据,且可以抵御存储节点串谋和单副本攻 击; • 高可用:通过副本保持证明机制保证数据被安全存储,通过健康监控和文件迁移机制保证文件随时可 恢复,且可以抵御单节点故障;0 码力 | 65 页 | 687.09 KB | 1 年前3
从百度文件系统看大型分布式系统设计中的定式与创新- The Baidu File System - 持久化存储 百度文件系统架构 设计一个分布式系统要考虑的 • 数据与计算的分片 • 分区故障容忍 • 数据一致性 • 系统扩展性 • 延迟与吞吐 • 成本与资源利用率 • … 数据与计算的分片 • 哈希分片 - 简单、均衡 - 扩容复杂、易用性差 - 一致性哈希、虚拟节点 • 按范围、数据量分 - 使用简单 - 需要管理元数据 -0 码力 | 24 页 | 937.45 KB | 1 年前3
2020美团技术年货 算法篇4.2 完善预估系统:性能、接口与周边设施 4.2.1 高效的模型预估过程 OP 和 Transformer 构建了框架处理特征的基本能力。实际开发中,为了实现高性 能的预估能力,我们采用了分片纯异步的线程结构,层层 Call Back,最大程度将线 程资源留给实际计算。因此,预估服务对机器的要求并不高。 为了描述清楚整个过程,这里需要明确特征的两种类型: ● ContextLevel ContextLevel 特征计算完毕。对于 Doc 维度,由于对每一个 Doc 都 要加载和计算对应的特征,所以在 Doc 加载阶段会对 Doc 列表进行分片,并发完成 特征的加载,并且各分片在完成特征加载之后就进行打分阶段。也就是说,打分阶段 本身也是分片并发进行的,各分片在最后打分完成后汇总数据,返回给调用方。 期间 还会通过异步接口将特征日志上报,方便算法同学进一步迭代。 在这个过程中,为了使整个流程 的需求,用户还是只需 配置一个表达式,但是此表达式会去调用相应维度的 Augur 服务,获取相应 的模型和特征数据供主维度的 Augur 服务处理。虽然多了一层 RPC,但是相 对于纯线性的处理流程,分片异步后,还是有不少的性能提升。 美团搜索内部,已经通过 LocalModelFeature 的方式,实现了 BERT as a Fea- ture。在几乎没有新的使用学习成本的前提下,同时在线上取得了明显的指标提升。0 码力 | 317 页 | 16.57 MB | 1 年前3
共 62 条
- 1
- 2
- 3
- 4
- 5
- 6
- 7













