兼容龙蜥的云原生大模型数据计算系统:πDataCS--πDataCS简介 兼容龙蜥的云原生大模型数据计算系统 拓数派产品市场总监 吴疆 吴疆 深耕云计算和数据库行业十余年 拓数派(Openpie)产品市场总监 毕业于清华大学计算机系,先后在IBM,EMC, Pivotal,VMWare参与多个云平台和数据库项目 01 拓数派简介 πDataCS简介 02 πDataCS与龙晰 03 01. 拓数派简介 海 外 研 发 独创的云原生数据库旗舰产品以及之上的算法和数学模型,建立下一代云原生数据平台的前沿标准, 驱动企业实现从"软件公司"到"数据公司"再到"数学公司"的持续进阶。 拓数派旗下大模型数据计算系统(PieDataComputing System,缩写πDataCS),以云原生技术 重构数据存储和计算,一份存储,多引擎数据计算,全面升级大数据系统至大模型时代,使得自主可 控的大模型数据计算系统保持全球领先,成为A 与东吴证券在数仓虚拟化和信创领域展开试点合作 12月 创始人冯雷再度荣登数字商业周刊“年度智造中国商业领袖” 4月 冯雷被评为杭州市所有的独角兽和准独角兽企业 中唯一“年度创业人物” 打造大模型时代 立身中国的世界级团队 首家以虚拟数仓通过信通院/可信AP数据库评测 7月 拓数派数据计算引擎PieCloudDB虚拟数仓再获信创认可 8月 拓数派入选中国信通院“铸基计划”「高质量数字0 码力 | 29 页 | 7.46 MB | 1 年前3
大模型时代下向量数据库的设计与应用大模型时代下向量数据库的设计与应用 个人简介 目前在拓数派负责向量数据库PieCloudVector产品,聚焦于大模型 与大数据领域。拥有多年数据库内核研发和配套解决方案架构经验, 在加入拓数派前曾就职于开源大数据平台Greenplum团队,担任外部 数据源访问框架,对象存储访问扩展,ETL工具等产品模块的研发, 并曾参与PostgreSQL多个版本的代码贡献,拥有丰富的存储模块核心 开发和性能优化等实践经验。 邱培峰 拓数派向量数据库负责人 拓数派:大模型数据计算系统先行者 • 拓数派( OpenPie)是立足于国内的基础数据计算领域高科技 创新机构; • 拥有强大的数据库内核研发团队、数据科学团队和数字化转型团 队; • 国内虚拟数仓和eMPP技术提出者,不断在数据计算引擎方向进 行创新,全面拥抱AI技术趋势。 目录 • 大模型应用和RAG • 向量近似搜索和向量数据库 • • PieCloudVector架构设计与挑战 • 案例介绍 大模型 检索增强生成(RAG) 使用大模型可以构造问答,聊天等应用,但同时也存在以下问题 • 数据时效 - LLM训练数据有截止日期,不包含最新信息,无法准确回答相关信息 • 私域数据 - LLM训练数据多来源于公开渠道,无法接触到私域数据,对特定领域的生成任务质量不高。 • 长期记忆 - LLM本身却没有长期记忆能力,对长时间交互的上下文0 码力 | 28 页 | 1.69 MB | 1 年前3
Apache ShardingSphere ElasticJob 中文文档 2023 年 11 月 01 日. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 6 5 概念 & 功能 7 5.1 调度模型 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 7 5.2 弹性调度 • 作业依赖 (TODO) – 基于有向无环图(DAG)的作业间依赖 – 基于有向无环图(DAG)的作业分片间依赖 • 作业开放生态 – 可扩展的作业类型统一接口 – 丰富的作业类型库,如数据流、脚本、HTTP、文件、大数据等 – 易于对接业务作业,能够与 Spring 依赖注入无缝整合 • 可视化管控端 – 作业管控端 – 作业执行历史数据追踪 – 注册中心管理 3 3 环境要求 // 创建作业配置 // ... } } 4.3. 作业配置 6 5 概念 & 功能 本章节阐述 ElasticJob 相关的概念与功能,更多使用细节请阅读用户手册。 5.1 调度模型 ElasticJob 是面向进程内的线程级调度框架。通过它,作业能够透明化的与业务应用系统相结合。它能够 方便的与 Spring 、Dubbo 等 Java 框架配合使用,在作业中可自由使用 Spring0 码力 | 98 页 | 1.97 MB | 1 年前3
并行不悖- OLAP 在互联网公司的实践与思考6 数据仓库体系架构 数据流转过程 • 1 业务数据的产生 —— OLTP • 2 业务数据的中转 —— ETL服务器 • 3 数据的存储和计算 —— OLAP集群 • 4 结果数据的展现 —— 数据集市 • 5 访问接口的封装 —— API接口服务器 • 6 最终数据的显示 —— 前端界面 • 7 结果数据的交互 —— OLTP,趋势分析 • 8 OLAP数据流转 —— dbsync平台 继续建设多样化的postgresql数据集市,满足不同需求 • 优化现有业务的调度实现 Ø 时间周期的考量 Ø 并发与功能实现的权衡 Ø 增强任务可控性和可度量性 • 支持符合条件的新业务 Ø 抽象业务模型,整合使用分类 Ø 简化上线模型,优化上线方式 40 Greenplum扩展规划 新业务上线流程 • 把握三个方面,解决三个问题 Ø 确认数据来源与传输,解决原始数据从那里来的问题 Ø 确认数据如何计算,解决数据存储和计算加工的问题0 码力 | 43 页 | 9.66 MB | 1 年前3
Greenplum 新一代数据管理和数据分析解决方案开放式系统:在通用系统和开放源软件的基础上创建 前提条件 – 硬件:基于开放式标准硬件 – 软件:Postgres和Greenplum – 体系架构:海量并行处理体系,针对商务智能/数据仓库 进行了优化,解决了所有数据流瓶颈问题 Greenplum数据引擎 全球最强大的分析数据仓库 海量并行查询 • 可以比以往更快地获取 查询结果 • 在数据增长的同时确保 高性能分析 统一的分析处理功能 • 为数据仓库、市场、 网络互连 并行查询规划和调度 区段服务器 (处理和存储) SQL 查询和 MapReduce程序 MPP (海量并行处理) “完全不共享”体系 Greenplum体系:并行数据流 21 • 通用并行数据流引擎可以通过本地方 式执行 SQL和MapReduce • 采用了针对商用硬件优化的MPP“完 全不共享”体系 • 可以在很多100s服务器上扩展到 1000s商用处理内核 将所有处理操作尽量移动到数据附近 计算内核 Greenplu m并行数 据流引擎 对本地磁盘进行直 接的高性能访问 gNet 互连 • 第一个支持互联网级分析技术(由Google普及)的产品 • 采用新的编程模型,在商用硬件上并行处理和执行 • 可以使客户洞察力和数据货币化程度达到前所未有的高度 MapReduce Greenplum MapReduce的优势 • 处理在任何地点存储的任何类型的数 据0 码力 | 45 页 | 2.07 MB | 1 年前3
6. ClickHouse在众安的实践X-Brain AI 开放平台 计算框架 Hadoop, JStorm, Spark Streaming, Flink 离线/实时任务监控 数据、模型存储 Hive, HBase, Clickhouse, Kylin 数据接入 消 息 中 间 件 模型、 算法 模版 机器学习平台 Antron 机器人平台 X-Insight 数据洞察平台 X-Zatlas 数据可视化平台 模板 大数据、流数据建模 | 数据/模型生命周期管理 资源调度 业务系统 开 发 工 具 基 础 设 施 模型 反馈 智能应用 开放与敏捷 • 大数据、流数据统一建模管理 • 垂直方向行业模板,简化开发过程 • 多语言多runtime支持,Bring your own model • 数据流转、建模、机器学习任务的全生命周 期管理 • 大规模在线任务监控、自动模型性能监测、 重训练与发布 重训练与发布 • 追溯数据血缘,数据、算法模型版本管理 • 支持算法模型结果的可重现、可审计 • 缓解AI/机器学习带来的潜在伦理与法律担忧 全生命周期管理 追溯与可重现 洞察平台架构 Why Clickhouse? Clickhosue 性能 高效的数据导入和查询性能 开源 低成本,免费 压缩比 高度的数据压缩比,存储成本更小 面向列 真正的面向列存储, 支持高维度表 易观开源OLAP引擎测评报告0 码力 | 28 页 | 4.00 MB | 1 年前3
Greenplum 精粹文集来交换数据,效率很低,MapReduce 要求每个步骤间的数据都要序列 化到磁盘,这意味着 MapReduce 作业的 I/O 成本很高,导致交互分 析和迭代算法开销很大,MPP 数据库采用 Pipline 方式在内存数据流 中处理数据,效率比文件方式高很多。 总结以上几点,MPP 数据库在计算并行度、计算算法上比 Hadoop 更加 SMART,效率更高;在客户现场的测试对比中,Mapreduce 对 于单表的计算 Append-only 的特性,SQL-On-Hadoop 大多不 支持数据局部更新和删除功能 (update/delete);例如 Spark 计算时, 需要预先将数据装载到 DataFrames 模型中; 基本上都缺少索引和存储过程等特征 除 HAWQ 外,大多对于 ODBC/JDBC/DBI/OLEDB/.NET 接口的支持 有限,与主流第三方 BI 报表工具的兼容性不如 MPP 数据库 的任务和用于少数次 的访问,而且主要用于 Batch(不需要交互式),对计算性能不是 很敏感,那 Hadoop 也是不错的选择,因为 Hadoop 不需要你花费 较多的精力来模式化你的数据,节省数据模型设计和数据加载设计 方面的投入。这些系统包括:历史数据系统、ETL 临时数据区、数 据交换平台等等。 切记,千万不要为了大数据而大数据(就好像不要为了创新而创新一 个道理),否则,你项目最后的产出与你的最初设想可能0 码力 | 64 页 | 2.73 MB | 1 年前3
Doris的数据导入机制以及原子性保证2009 • 随百度业务飞速发展,对 Doris的性能、可用性、拓 展性进行了全面升级 • 承担百度所有统计报表业务 2012 01 Doris简介 04 05 06 • 全新的数据模型,查询存储 效率大幅提升 • MPP框架,支持分布式计算 2013 • 精简架构、统一用户客户端, 实现高可用 • 正式开始对外提供服务 2015 • 正式开源 • 希望能帮助更多人、让更多 导入方式 同步/异步 场景 接口 Broker Load 异步 HDFS、BOS对象存储 MySQL Routine Load 异步 Kafka MySQL Stream load 同步 本地文件,数据流 HTTP Insert into 同步 命令行 MySQL Spark Load 异步 Spark MySQL 最佳实践 04 使用案例 • 根据数据源所在位置选择导入方式。 选择合适的导入方式0 码力 | 33 页 | 21.95 MB | 1 年前3
TiDB v6.5 中文手册· · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · 873 10.2.5 乐观事务模型下写写冲突问题排查· · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · 877 10 列属性 GA,兼容 MySQL。 • FLASHBACK CLUSTER TO TIMESTAMP 特性新增对 TiCDC 和 PITR 的兼容性支持,该特性已 GA。 • 优化器引入的更精准的代价模型Cost Model Version 2 GA,同时优化器增强索引合并INDEX MERGE 功能对 AND 连接的表达式的支持。 • 支持下推 JSON_EXTRACT() 函数至 TiFlash。 34 – 通过TiFlash 面板,你可以直观地了解 TiFlash 集群的请求类型、延迟分析和资源使用概览。 – 通过CDC 面板,你可以直观地了解 TiCDC 集群的健康状况、同步延迟、数据流和下游写入延迟等信 息。 更多信息,请参考用户文档。 2.2.1.4 性能 • 索引合并INDEX MERGE 功能支持 AND 连接的表达式 #39333 @guo-shaoge @time-and-fate0 码力 | 4049 页 | 94.00 MB | 1 年前3
TiDB v7.1 中文手册· · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · 929 10.2.5 乐观事务模型下写写冲突问题排查· · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · 933 10 __str__(self): 152 return f"Player(name={self.name}, coins={self.coins}, goods={self.goods})" 更多信息参考 peewee 模型与字段。 插入数据 #### 插入单个对象 Player.create(name="test", coins=100, goods=100) #### 插入多个对象 data = [ {"name": DateTimeField(auto_now_add=True) updated_at = models.DateTimeField(auto_now=True) 158 更多信息参考 Django 模型。 插入数据 #### 插入单个对象 player = Player.objects.create(name="player1", coins=100, goods=1) #### 批量插入多个对象0 码力 | 4369 页 | 98.92 MB | 1 年前3
共 77 条
- 1
- 2
- 3
- 4
- 5
- 6
- 8













