实现PostgreSQL逻辑复制实战
Conference China 2016 中国用户大会 实现PostgreSQL逻辑复制实战 王青松 神州飞象(北京)数据科技有限公司 Your Logo 2016Postgres中国用户大会 Postgres Conference China 2016 中国用户大会 简介 逻辑复制的功能是从PG的WAL日志中,读取数 据库更新信息,然后“翻译”(Decode)成逻 辑的形式,可发送到远程从库做数据同步。 PG WAL Other DB 2016Postgres中国用户大会 Postgres Conference China 2016 中国用户大会 为什么要选择逻辑复制? 2016Postgres中国用户大会 Postgres Conference China 2016 中国用户大会 数据库总体架构 PostgreSQL 主库 数据库中间件 应用 逻辑复制 2016Postgres中国用户大会 Postgres Conference China 2016 中国用户大会 SQL语句 数据 MYSQL PG ORACLE LOGICAL Broker M1 M2 M3 Mn Master 逻辑解码 产生SQL+数据 MQ消息队列 DB重放语句 逻辑复制架构图0 码力 | 17 页 | 1.90 MB | 1 年前3兼容龙蜥的云原生大模型数据计算系统:πDataCS
--πDataCS简介 兼容龙蜥的云原生大模型数据计算系统 拓数派产品市场总监 吴疆 吴疆 深耕云计算和数据库行业十余年 拓数派(Openpie)产品市场总监 毕业于清华大学计算机系,先后在IBM,EMC, Pivotal,VMWare参与多个云平台和数据库项目 01 拓数派简介 πDataCS简介 02 πDataCS与龙晰 03 01. 拓数派简介 海 外 研 发 独创的云原生数据库旗舰产品以及之上的算法和数学模型,建立下一代云原生数据平台的前沿标准, 驱动企业实现从"软件公司"到"数据公司"再到"数学公司"的持续进阶。 拓数派旗下大模型数据计算系统(PieDataComputing System,缩写πDataCS),以云原生技术 重构数据存储和计算,一份存储,多引擎数据计算,全面升级大数据系统至大模型时代,使得自主可 控的大模型数据计算系统保持全球领先,成为A 与东吴证券在数仓虚拟化和信创领域展开试点合作 12月 创始人冯雷再度荣登数字商业周刊“年度智造中国商业领袖” 4月 冯雷被评为杭州市所有的独角兽和准独角兽企业 中唯一“年度创业人物” 打造大模型时代 立身中国的世界级团队 首家以虚拟数仓通过信通院/可信AP数据库评测 7月 拓数派数据计算引擎PieCloudDB虚拟数仓再获信创认可 8月 拓数派入选中国信通院“铸基计划”「高质量数字0 码力 | 29 页 | 7.46 MB | 1 年前3大模型时代下向量数据库的设计与应用
大模型时代下向量数据库的设计与应用 个人简介 目前在拓数派负责向量数据库PieCloudVector产品,聚焦于大模型 与大数据领域。拥有多年数据库内核研发和配套解决方案架构经验, 在加入拓数派前曾就职于开源大数据平台Greenplum团队,担任外部 数据源访问框架,对象存储访问扩展,ETL工具等产品模块的研发, 并曾参与PostgreSQL多个版本的代码贡献,拥有丰富的存储模块核心 开发和性能优化等实践经验。 邱培峰 拓数派向量数据库负责人 拓数派:大模型数据计算系统先行者 • 拓数派( OpenPie)是立足于国内的基础数据计算领域高科技 创新机构; • 拥有强大的数据库内核研发团队、数据科学团队和数字化转型团 队; • 国内虚拟数仓和eMPP技术提出者,不断在数据计算引擎方向进 行创新,全面拥抱AI技术趋势。 目录 • 大模型应用和RAG • 向量近似搜索和向量数据库 • • PieCloudVector架构设计与挑战 • 案例介绍 大模型 检索增强生成(RAG) 使用大模型可以构造问答,聊天等应用,但同时也存在以下问题 • 数据时效 - LLM训练数据有截止日期,不包含最新信息,无法准确回答相关信息 • 私域数据 - LLM训练数据多来源于公开渠道,无法接触到私域数据,对特定领域的生成任务质量不高。 • 长期记忆 - LLM本身却没有长期记忆能力,对长时间交互的上下文0 码力 | 28 页 | 1.69 MB | 1 年前3SelectDB案例 从 ClickHouse 到 Apache Doris
表中抽取字段。 加速层:在数仓中构建的大宽表导入到加速层中,Clickhouse 作为分析引擎, Elasticsearch 作为搜索/圈选引擎。 应用层:根据场景创建 DataSet,作为逻辑视图从大宽表选取所需的标签与指标,同 时可以二次定义衍生的标签与指标。 存在的问题: 数仓层:不支持部分列更新,当上游任一来源表产生延迟,均会造成大宽表延迟, 进而导致数据时效性下降。 具有以下的优势: Apache Doris 的优势: Doris 架构极简易用,部署只需两个进程,不依赖其他系统,运维简单;兼容 MySQL 协议,并且使用标准 SQL。 支持丰富的数据模型,可满足多种数据更新方式,支持部分列更新。 支持对 Hive、Iceberg、Hudi 等数据湖和 MySQL、Elasticsearch 等数据库的联邦查 询分析。 导入方式多样,支持从 术支持团队,在使用过程中遇到问题均能快速得到响应解决。 同时我们也利用 Doris 的特性,解决了架构 1.0 中较为突出的问题。 数仓层:Apache Doris 的 Aggregate 数据模型可支持部分列实时更新,因此我们去 掉了 DWM 集市层的构建,直接增量到 Doris / ES 中构建宽表,解决了架构 1.0 中 上游数据更新延迟导致整个宽表延迟的问题,进而提升了数据的时效性。数据(指0 码力 | 12 页 | 1.55 MB | 1 年前3Greenplum机器学习⼯具集和案例
generate_series(1,30:: bigint) AS ID) foo DISTRIBUTED BY (id); 2017.thegiac.com 2017.thegiac.com • 适合模型应用于数据子集的场景,并行执行效率非常高 • 如果节点间数据通讯,使用 适⽤用场景 2017.thegiac.com MADlib 2017.thegiac.com 强⼤大的分析能⼒力力 PostgreSQL, HAWQ) 底层抽象层 (数组操作、类型转换、数值计算库等) 数据库内建函 数 ⽤用户接⼝口 ⾼高层抽象层 (迭代控制器器) 内循环函数 (实现机器器学习逻辑) Python SQL C++ MADlib 架构 2017.thegiac.com • 是一种由搜索引擎根据网页之间相互的超链接计算的技术,而作为网页排名的要素之一,以Google 2017.thegiac.com ⽤用户案例例 1 Greenplum + MADlib 助⼒力力邮件营销 2017.thegiac.com 问题 ● 邮件⼴广告点击预测 模型不不够精准,需 要更更好的邮件营销 策略略 ● 现有数据分析流程 繁琐,速度慢,有 很多⼿手动步骤,易易 出错 客户 数据科学解决⽅方案 ● 某⼤大型跨国多元 化传媒和娱乐公0 码力 | 58 页 | 1.97 MB | 1 年前3TiDB v8.5 中文手册
· · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · 1294 10.2.5 乐观事务模型下写写冲突问题排查· · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · 1297 10 · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · 2347 13.7.9 逻辑导入模式· · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · 2630 14.3.15 TiFlash Pipeline Model 执行模型 · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · 2631 140 码力 | 5095 页 | 104.54 MB | 9 月前3TiDB v8.4 中文手册
· · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · 1039 10.2.5 乐观事务模型下写写冲突问题排查· · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · 1043 10 · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · 2088 13.7.9 逻辑导入模式· · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · 2612 14.3.15 TiFlash Pipeline Model 执行模型 · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · 2613 140 码力 | 5072 页 | 104.05 MB | 9 月前3TiDB v5.2 中文手册
· · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · 338 8.10 乐观事务模型下写写冲突问题排查· · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · 无法被加载到缓存的问题 #23295 – 对 SHOW BINDINGS 结果按照 (original_sql, update_time) 有序输出 #26139 – 改进使用 binding 优化查询的逻辑,减少对查询的优化次数 #26141 – 支持标记为删除状态的 binding 进行自动垃圾回收 #26206 – 在 EXPLAIN VERBOSE 的结果中显示查询优化是否使用了某个 binding N 2.3.10 数据导入和导出 数据导入和导出 5.2 5.1 5.0 4.0 快速导入 (TiDB Lightning) Y Y Y Y mydumper 逻辑导出 已废弃 已废弃 已废弃 已废弃 Dumpling 逻辑导出 Y Y Y Y 事务 LOAD DATA Y Y Y N 数据迁移工具 Y Y Y Y TiDB Binlog Y Y Y Y Change data capture0 码力 | 2259 页 | 48.16 MB | 1 年前3TiDB v5.1 中文手册
· · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · 329 8.10 乐观事务模型下写写冲突问题排查· · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · Table Expression,简称 CTE)。 CTE 为 TiDB 带来递归或非递归查询层次结构数据的能力,满足了人力资源、制造业、金融市场和教育在 内的多种应用领域需要使用树形查询实现业务逻辑的需求。 在 TiDB 中,你可以通过 WITH 语句使用公共表表达式。用户文档,#17472 • 新增 MySQL 8 中的动态权限 (Dynamic Privileges)。 动态权限用于限制 TiCDC 进行初次扫描的内存使用量 #10133 * 提升了悲观事务中 TiCDC Old Value 的缓存命中率 #10089 – Dumpling * 改善从 TiDB v4.0 导出数据的逻辑避免 TiDB OOM #273 * 修复备份失败却没有错误输出的问题 #280 – TiDB Lightning * 提升导入速度。优化结果显示,导入 TPC-C 数据速度提升在 30% 左右,导入索引比较多(50 码力 | 2189 页 | 47.96 MB | 1 年前3Apache ShardingSphere 中文文档 5.1.0
. 56 4.8.4 核心概念 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 56 逻辑列 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 56 密文列 . . . . )、流量变形(数 据加密、数据脱敏)、流量鉴权(安全、审计、权限)、流量治理(熔断、限流)以及流量分析(服 务质量分析、可观察性)等透明化增量功能; • 可插拔:项目采用微内核 + 三层可插拔模型,使内核、功能组件以及生态对接完全能够灵活的方式 进行插拔式扩展,开发者能够像使用积木一样定制属于自己的独特系统。 ShardingSphere 已于 2020 年 4 月 16 日成为 Apache 访问量带来的问题,但无法根治。如果垂 直拆分之后,表中的数据量依然超过单节点所能承载的阈值,则需要水平分片来进一步处理。 水平分片 水平分片又称为横向拆分。相对于垂直分片,它不再将数据根据业务逻辑分类,而是通过某个字段(或 某几个字段),根据某种规则将数据分散至多个库或表中,每个分片仅包含数据的一部分。例如:根据主 键分片,偶数主键的记录放入 0 库(或表),奇数主键的记录放入 1 库(或表),如下图所示。0 码力 | 406 页 | 4.40 MB | 1 年前3
共 91 条
- 1
- 2
- 3
- 4
- 5
- 6
- 10