TiDB 可观测性的设计与实现 陈霜TiDB 可观测性 的设计与实现 – 陈霜 About me ● 陈霜, TiDB Insight R&G Engineer, PingCAP ● chenshuang@pingcap.com ● Github: crazycs520 Agenda ● TopSQL: Bind SQL With CPU Resources ● System Table0 码力 | 39 页 | 3.97 MB | 1 年前3
云时代下多数据计算引擎的设计与实现reserved. OpenPie Confidential @2024 OpenPie. All rights reserved. OpenPie Confidential 云时代下多数据计算引擎的设计与实现 郭罡 CTO 拓数派(OpenPie) @2024 OpenPie. All rights reserved. OpenPie Confidential 关 于 拓 数 派 • 成立于2021年,以“Data Confidential @2024 OpenPie. All rights reserved. OpenPie Confidential janm 格式 行列混存(PAX) 为极致的数据计算而设计和优化 解析性能极致 (vs Parquet, etc) @2024 OpenPie. All rights reserved. OpenPie Confidential JANM: 大数据计算系 产品子功能 太多分支? • 抽象的⽂件协议接⼝ • 抽象的⽂件格式接⼝ • 抽象的计算功能接⼝(e.g. data skipping) • 抽象的元数据存储接⼝ • …… 抽象和灵活的考虑贯穿所有的设计. Apache Arrow作为不少组件内存中间桥梁. @2024 OpenPie. All rights reserved. OpenPie Confidential Postgres 执行计算引擎0 码力 | 15 页 | 3.09 MB | 1 年前3
云原生虚拟数仓 PieCloudDB ETL 方案设计与实现ETL方案设计与实现 邱培峰 拓数派 技术专家 云原生虚拟数仓PieCloudDB 大连理工大学软件工程本科 pgsql@qiupf.dev 邱培峰 拓数派技术专家 ETL解决方案及内核组件研发 PieCloudDB 分布式架构简介 ETL 简述 PieCloudDB ETL方案设计 Postgres -> PieCloudDB 增量数据实时 cdc 演示 01 02 030 码力 | 29 页 | 5.24 MB | 1 年前3
云原生数据库 PieCloudDB eMPP架构设计与实现…. pyH� un lytlcD r.p ur re 。 Rock.s 2014 2018 2022 云原⽣数据库 PieCloudDB eMPP架构设计与实现 郭罡 拓数派CTO 关于拓数派(OpenPie) • 成⽴于2021年,以“Data Computing for New Discoveries”「数据计算, 只为新发现」为使命。 2022.10.24 发布。 • 产品已经在⼀些⾦融、医疗等⾏业开始使⽤。 关于我 • 毕业于中国科技⼤学,AI相关专业 • 毕业 1 年后到现在⼀直从事底层基础软件开发,10多年开发经验 • 领域涉及到: • 代码级/算法级/系统级性能优化 • Linux/Unix内核和系统开发、虚拟化(芯⽚KVM⽀持实现)和云计算架 构、⾼速⺴络开发(内核和应⽤层如DPDK) • 分布式系统(SQL/NoSQL/存储) 临时状态存储(如lock等) 也放在FoundationDB • 依赖于FoundationDB的KV特性、可串⾏化事务、watcher机制 • 多个集群(虚拟数仓)可以共享⼀份元数据 • FoundationDB⾼可⽤设计、备份恢复保证元数据的可靠性和可 ⽤性 元数据管理缓存 • ⺫的: • 减轻FoundationDB集群负担 • 加速查询优化(⺴络延迟远⾼于内存延迟) • 以Postgres原⽣的元数据缓存概念为基础,优化重构实现适⽤于0 码力 | 31 页 | 1.43 MB | 1 年前3
大模型时代下向量数据库的设计与应用大模型时代下向量数据库的设计与应用 个人简介 目前在拓数派负责向量数据库PieCloudVector产品,聚焦于大模型 与大数据领域。拥有多年数据库内核研发和配套解决方案架构经验, 在加入拓数派前曾就职于开源大数据平台Greenplum团队,担任外部 数据源访问框架,对象存储访问扩展,ETL工具等产品模块的研发, 并曾参与PostgreSQL多个版本的代码贡献,拥有丰富的存储模块核心 拓数派( OpenPie)是立足于国内的基础数据计算领域高科技 创新机构; • 拥有强大的数据库内核研发团队、数据科学团队和数字化转型团 队; • 国内虚拟数仓和eMPP技术提出者,不断在数据计算引擎方向进 行创新,全面拥抱AI技术趋势。 目录 • 大模型应用和RAG • 向量近似搜索和向量数据库 • PieCloudVector架构设计与挑战 • 案例介绍 大模型 检索增强生成(RAG) 使用大模型可以构造问答,聊天等应用,但同时也存在以下问题 • 数据时效 - LLM训练数据有截止日期,不包含最新信息,无法准确回答相关信息 • 私域数据 - LLM训练数据多来源于公开渠道,无法接触到私域数据,对特定领域的生成任务质量不高。 • 长期记忆 - LLM本身却没有长期记忆能力,对长时间交互的上下文 Query LLM Response 检索增强生成(RAG) • 将辅助增强数据通过embeddi0 码力 | 28 页 | 1.69 MB | 1 年前3
πDataCS赋能工业软件创新与实践,简称“OpenPie” 企业简介 l OpenPie是立⾜于国内的基础数据计算领域⾼科技创新机构; l 拥有强⼤的数据库内核研发团队、数据科学团队和数字化 转型团队; l 国内虚拟数仓和eMPP技术提出者,不断在数据计算引擎⽅ 向进⾏创新,全面拥抱AI技术趋势。 企业⽂化 使命:数据计算,只为新发现 愿景:成为立⾜中国基础数据计算领域的全球顶级⾼科技创新机构 价值观:以⼈为本、开放创新、拥抱变化、诚信正直 均已加⼊拓数派。成员毕业自 CMU、北⼤、清华和科⼤少年班 等顶级学术机构,并有成员获有 奥赛奖牌。 郭罡(Paul Guo) 合 伙 ⼈ & C T O • 中国科技⼤学少年班 • 18年+底层基础软件领域开发经验 • 原Greenplum首席内核架构师 • Apache HAWQ PMC成员 陆公瑜(Brian Lu) 合伙⼈&COO • 英国约克⼤学 • 15年+产品⽣态建设和运营管理经验 国的云原⽣数据库世界级智⼒⾼地 11月 4月 获得元⽲重元和东吴证券Pre-A轮投资 标 志着企业进⼊快速成长期 拓数派 正式成立 成立杭州总部、北京研发中⼼、 上海全球品牌战略与⽣态发展中⼼ 蓬勃发展的拓数派 驱动数据计算时代的到来 9月 成立加拿⼤研发中⼼ 7月 PieCloudDB云原⽣数据库存算分离等关键技术打造完成 引领数据库⾏业全面⾛向云时代 8月 成立⼴州研发中⼼ 10月 2022拓数派产品发布会0 码力 | 36 页 | 4.25 MB | 1 年前3
兼容龙蜥的云原生大模型数据计算系统:πDataCS基础数据计算领域的高科技创新机构。 作 为 国 内 云 上 数 据 库 和 数 据 计 算 领 域 的 引 领 者 , 拓 数 派 以 “Data Computing for New Discoveries”「数据计算,只为新发现」为使命,致力于在数字原生时代,运用突破性计算理论、 独创的云原生数据库旗舰产品以及之上的算法和数学模型,建立下一代云原生数据平台的前沿标准, 驱动企业实现从"软 与核心团队在PaaS云第一股Pivotal(PVTL)的成功基础上,在腾讯投资天使轮投资支持下成立 拓数派,打造了国内科技领域屈指可数的Day-1准独角兽企业。(36氪首发报道) • 由于拓数派在云上数据库和数据计算领域的卓越表现,冯雷在杭州万物生长大会上被评为杭州市所有的 独角兽和准独角兽企业中唯一“年度创业人物”。 拓数派引领数据计算领域新发展。(中国网报道) • 原Pivotal中国领团队和原Greenplum产品及社区 我们秉承硅谷创新文化和普及数字化公益等社会责任。在公司成长的过程中,不遗余力为人才提供一个成为业内明星的平 台和通道。 郭罡(Paul Guo) 合 伙 人 & C T O • 中国科技大学少年班 • 18年+底层基础软件领域开发经验 • 原Greenplum/HAWQ首席内核架构师 陆公瑜(Brian Lu) 合 伙 人 & C O O • 英国约克大学 • 15年+产品生态建设和运营管理经验 • 原Greenplum中国社区发起人0 码力 | 29 页 | 7.46 MB | 1 年前3
Mybatis 3.3.0 中文用户指南是否允许单一语句 返回多结果集(需 要兼容驱动)。 true | false true useColumnLabel 使用列标签代替列 名。不同的驱动在 这方面会有不同的 表现, 具体可参考 相关驱动文档或通 过测试这两种不同 的模式来观察所用 驱动的结果。 true | false true useGeneratedKeys 允许 JDBC 支持自 动生成主键,需要 驱动兼容。 如果设 置为 true true 则这个设 置强制使用自动生 成主键,尽管一些 驱动不能兼容但仍 可正常工作(比如 Derby)。 true | false False autoMappingBehavior 指定 MyBatis 应如 何自动映射列到字 段或属性。 NONE 表示取消自动映 射;PARTIAL 只会 自动映射没有定义 嵌套结果集映射的 结果集。 FULL 会 自动映射任意复杂 的结果集(无论是 否嵌套)。 statements); BATCH 执行器将重 用语句并执行批量 更新。 SIMPLE REUSE BATCH SIMPLE defaultStatementTimeout 设置超时时间,它 决定驱动等待数据 库响应的秒数。 Any positive integer Not Set (null) safeRowBoundsEnabled 允许在嵌套语句中 使用分页 (RowBounds)。0 码力 | 98 页 | 2.03 MB | 1 年前3
Greenplum 精粹文集Startup 公司,创始人家门口有 一棵青梅 ——greenplum,因此而得名)召集了十几位业界大咖(据 说来自 google、yahoo、ibm 和 TD),说干就干,花了一年多的时间 完成最初的版本设计和开发,用软件实现了在开放 X86 平台上的分布 式并行计算,不依赖于任何专有硬件,达到的性能却远远超过传统高 昂的专有系统。 Big Date2.indd 2 16-11-22 下午3:38 Postgresql 是单实例数据库,怎么能在多个 X86 服务器上运行多 个实例且实现并行计算呢?为了这,Interconnnect 大神器出现了。在 那一年多的时间里,大咖们很大一部分精力都在不断的设计、优化、 开发 Interconnect 这个核心软件组件。最终实现了对同一个集群中多 个 Postgresql 实例的高效协同和并行计算,Interconnect 承载了并行 查询计划生产和 Dispatch 这个问题大致引申出两个问题: 1) 为什么不从数据库底层进行重新设计研发? 所谓术业有专攻,就像制造跑车的不会亲自生产车轮一样,我们只 要专注在分布式技术中最核心的并行处理技术上面,协调我们下面 的轮子跑的更快更稳才是我们的最终目标。而数据库底层组件就像 车轮一样,经过几十年磨砺,数据库引擎技术已经非常成熟,大可 不必去重新设计开发,而且把数据库底层交给其它专业化组织来开 发(对应到 Postgresql0 码力 | 64 页 | 2.73 MB | 1 年前3
云原生虚拟数仓PieCloudDB Database产品白皮书Datasphere)呈指数级递增, IDC预测全球数据圈将于 2025年增长值175ZB,而中国的数据圈有望于2025年爆炸式增长为世界第一 。数据被称为数字经济时代的“石 油”,如同石油驱动了工业化时代的进步,大数据将推动智能化与数字化时代的发展。 数据量的爆发式增长 为了挖掘数据的价值,企业面临着海量数据的存储与分析需求,业务也面临着更多热点及突发流量所带来的挑战。面 未来会扩展其他 API 接口,支持常见的数仓的 数据分析和人工智能、数据科学等功能。 PieCloudDB 产品概述 拓数派旗下旗舰产品PieCloudDB,是以对行业顶级数据库的抽象思考和设计原则复用为技术路线,可将物理数仓整合 到云原生数据计算平台,根据数据授权动态创建虚拟数仓,按需灵活计算,打破数据孤岛,支撑更大模型所需的数据 和计算。在云上,数据计算资源按需扩缩容,提升数仓的敏 上运行,从而避免了企业受制于供应商,帮助企业在控制业务风险的同时推动创 新。 PieCloudDB 采取存算分离的 eMPP(弹性大规模并行计算)设计架构。存储侧支持标准对象存储,可以充分利用云计 算平台的优势,让对象存储接近无限的容量,计算侧在设计上充分考虑无状态实现,计算节点可以充分利用云环境海 量的计算节点池,按需扩容和缩容。 PieCloudDB 能够根据业务需求进行横向、纵0 码力 | 17 页 | 2.02 MB | 1 年前3
共 96 条
- 1
- 2
- 3
- 4
- 5
- 6
- 10













