大数据 - IT文库_程序员IT互联网编程电子书和文档免费下载，助您码力十足！

兼容龙蜥的云原生大模型数据计算系统：πDataCS

## 兼容龙蜥的云原生大模型数据计算系统 ## --πDataCS简介 ## 吴疆拓数派产品市场总监 ![Image](/uploads/documents/7/b/a/7/7ba7d687363b394535b9914cff1a0499/p2_2.jpg) ## 吴疆拓数派(Openpie)产品市场总监深耕云计算和数据库行业十余年毕业于清华大学计算机系，先后在IBM，EM C，Pivotal，VMWare参与多个云平台和数据库项目 01 拓数派简介 02 πDataCS简介 03 πDataCS与龙晰 ### 01. 拓数派简介 # 全球数据计算系统引领者杭州拓数派科技发展有限公司（又称"OpenPie"）是立足于国内,基础数据计算领域的高科技创新机构。作为国内云上数据库和数据计算领域的引领者，拓数派以“Data Computing for for New Discoveries”「数据计算，只为新发现」为使命，致力于在数字原生时代,运用突破性计算理论、独创的云原生数据库旗舰产品以及之上的算法和数学模型,建立下一代云原生数据平台的前沿标准，驱动企业实现从"软件公司"到"数据公司"再到"数学公司"的持续进阶。拓数派旗下大模型数据计算系统（PieDataComputing System

0 码力 | 29 页 | 7.46 MB | 2 年前
3
大模型时代下向量数据库的设计与应用

## 大模型时代下向量数据库的设计与应用 msup $ ^{®} $ | ARCHNOTES 架構 ## 个人简介 ![Image](/uploads/documents/7/9/1/2/7912e0d0aa09fcfba65b32c964ce9cad/p2_1.jpg) 邱培峰拓数派向量数据库负责人目前在拓数派负责向量数据库PieCloudVector产品，聚焦于大模型与大数据领域。拥有多年数据库内核研发和配套解决方案架构经验，在加入拓数派前曾就职于开源大数据平台Greenplum团队，担任外部数据源访问框架，对象存储访问扩展，ETL工具等产品模块的研发，并曾参与PostgreSQL多个版本的代码贡献，拥有丰富的存储模块核心开发和性能优化等实践经验。 ## 拓数派：大模型数据计算系统先行者 - 拓数派（OpenPie）是立足于国内的基础数据计算领域高科技创新机构；拥有强大的数据库内核研发团队、数据科学团队和数字化转型团队； - 国内虚拟数仓和eMPP技术提出者，不断在数据计算引擎方向进行创新，全面拥抱AI技术趋势。 # 虚拟数仓拓数派/数仓虚拟化 PieCloudDB产品技术数企虚拟化由拓数派（杭州拓数派科技发展有限公司，又称“OpenPie”）于2023年3月正式提出。数仓虚拟化 $ ^{[1]} $ 可将物理数仓整合到云原生数据计算平台

0 码力 | 28 页 | 1.69 MB | 2 年前
3
阿里云容器服务大促备战

## 全民双十一基于容器服务的大促备战 ![Image](/uploads/documents/4/7/3/a/473a77ef3e79496ce57ea869b48b9312/p1_1.jpg) 李斌阿里云容器服务 ![Image](/uploads/documents/4/7/3/a/473a77ef3e79496ce57ea869b48b9312/p1_2.jpg) ## 我是谁安全加固离线计算开发运维一体化极致性能故障演练大数据边缘计算全链路压测全站上云高可用人工智能 [Image](/uploads/documents/4/7/3/a/473a77ef3e79496ce57ea869b48b9312/p9_11.jpg) 云日志限流，熔断，降级，系统保护日志类数据采集、消费、投递及查询分析功能挂卷 ![Image](/uploads/documents/4/7/3/a/473a77ef3e79496ce57ea869b48b9312/p9_12

0 码力 | 17 页 | 17.74 MB | 1 年前
3
开源中国 2023 大模型(LLM)技术报告

李涛，APUS董事长兼CEO 2023年12月发布设计：张琪 ## LLM 技术报告大语言模型（LLM）技术作为人工智能领域的一项重要创新在今年引起了广泛的关注。 LLM 是利用深度学习和大数据训练的人工智能系统，专门设计来理解、生成和回应自然语言。这些模型通过分析大量的文本数据来学习语言的结构和用法，从而能够执行各种语言相关任务。以 GPT 系列为代表，LLM 以其在自然语言处 ## LLM Tech Map ## 大模型 ➢ 备案上线的中国大模型知名大模型知名大模型应用 LLMOps 大模型聚合平台 ## 工具和平台 ➢ 开发工具插件、IDE、终端代码生成工具 ## AI 编程 ## 算力 ## 基础设施向量数据库数据库向量支持 ➢ 大模型框架、微调 (Fine Tuning) ➢ 大模型训练平台与工具 ## LLM Agent Agent ## 编程语言 ## LLM Tech Map 大模型技术图谱 ![Image](/uploads/documents/f/4/8/5/f485f799dcd761b82375003f4bef3b91/p3_2.jpg) ## 基础设施 AquilaDB Annoy marqo MongoDB Faiss Weaviate Qdrant ScanN ROCKSET

0 码力 | 32 页 | 13.09 MB | 2 年前
3
AI大模型千问 qwen 中文文档

information. #### 1.4.4 PPL 评测 llama.cpp 为我们提供了评估 GGUF 模型 PPL 性能的方法。为了实现这一点，你需要准备一个数据集，比如 “wiki 测试”。这里我们展示了一个运行测试的例子。第一步，下载数据集： wget https://s3.amazonaws.com/research.metamind.io/wikitext/wikitext-2-raw-v1 pip install -e . 假设你已经基于 Qwen1.5-7B 模型进行了微调，并将其命名为 Qwen1.5-7B-finetuned，且使用的是你自己的数据集，比如 Alpaca。若要构建你自己的 AWQ 量化模型，你需要使用训练数据进行校准。以下，我们将为你提供一个简单的演示示例以便运行： from awq import AutoAWQForCausalLM from transformers →safetensors=True) 接下来，您需要准备数据以进行校准。您需要做的就是将样本放入一个列表中，其中每个样本都是一段文本。由于我们直接使用微调数据来进行校准，所以我们首先使用 ChatML 模板对其进行格式化。例如： data = [] for msg in messages: msg

0 码力 | 56 页 | 835.78 KB | 2 年前
3
陈宗志：大容量redis存储方案--Pika

## 大容量redis存储方案--Pika 陈宗志 360基础架构组技术经理 ## 简介 ## • 13年入职360 基础架构组 – Bada – Pika – Zeppelin – Mario, Pink, slash, floyd • https://github.com/Qihoo360 ## 概要 - 存在问题 - 分析问题 - 解决问题 - Pika vs redis Pika 是DBA 和基础架构团队一起设计开发的大容量redis的解决方案 - 完全兼容redis 协议, 用户不需要修改任何代码进行迁移 ## Pika User • Redis实例数量：6000+个 • 日访问量：5000+亿 • Pika数据数量：1000+个 • 日访问量：1000+亿 • 覆盖率：80%以上业务线 • 单份数据体积：6.8T ## UserList ![I Redis 在大容量场景下的问题 ## Redis 问题 - 恢复时间长 - 一主多从, 主从切换代价大 - 缓冲区写满问题 - 成本问题 ## Redis 问题 ## • 恢复时间长 – 50G redis 回复时间70分钟 – 同时开启aof 和 rdb ## Redis 问题 ## • 一主多从, 主从切换代价大 ## – 主库挂掉后升级从库, 所有的从库全部重传数据 ## Redis

0 码力 | 47 页 | 2.18 MB | 2 年前
3
数据迁移

## 数据迁移 ## 存量 MySQL 迁移到 TiDB 服务 UDTS 产品支持 MySQL(5.5/5.6/5.7/8.0) 到 TiDB 的全量数据迁移，及增量数据同步。可协助用户在不停机的情况下轻松将业务从 MySQL 切换至 TiDB。 ## 自建 TiDB 迁移到 TiDB 服务 UDTS 产品支持 TiDB 全量数据迁移至 TiDB 服务。用户在源 TiDB 开启 Pump, Drainer 可进行数据增量同步。UDTS 与源端 Pump, Drainer 一起可协助用户在不停机的情况下轻松将业务从自建 TiDB 切换至 TiDB 服务。 ## 为 TiDB 服务建立 MySQL 从库 UDTS 产品支持 TiDB 全量数据迁移至 MySQL 数据库。用户在 TiDB 服务上开启 Binlog 可将数据增量同步至下游 MySQL。UDTS 与 TiDB Binlog Binlog 服务一起可协助用户轻松建立 MySQL 从库。 ## 为 TiDB 服务建立 TiDB 从库 UDTS 产品支持 TiDB 全量数据迁移至 TiDB 数据库。用户在源 TiDB 服务上开启 Binlog 可将数据增量同步至下游 TiDB。UDTS 与 TiDB Binlog 服务一起可协助用户轻松建立 TiDB 从库。

0 码力 | 2 页 | 42.01 KB | 1 年前
3
3 基于Azure的Python机器学习王大伟

[Image](/uploads/documents/e/4/f/6/e4f61af16f650f1e38c1d341f3e7a639/p1_2.jpg) ## 基于Azure的Python机器学习平安金融壹账通大数据研究院微软MVP 王大伟 ## 目录 >> Azure与Python >> 如何用Azure完成机器学习 >> Azure与自动机器学习 >> ![Image](/uploads/documents/e/4/f/6/e4f61af16f650f1e38c1d341f3e7a639/p11_3.jpg) ## Retail 通过基于数据的客户见解，提供出色的个性化无缝体验。 ![Image](/uploads/documents/e/4/f/6/e4f61af16f650f1e38c1d341f3e7a639/p11_4.jpg) com/#home ![Image](/uploads/documents/e/4/f/6/e4f61af16f650f1e38c1d341f3e7a639/p13_1.jpg) 应用程序服务 SQL 数据库 Azure Database for PostgreSQL Azure Monitor 监视应用和基础结构 ![Image](/uploads/documents/e/4/f/6/e

0 码力 | 31 页 | 3.69 MB | 2 年前
3

SQLite 数据转 Mysql

# SQLite 数据转 Mysql #### I nsMsgServer 3.7.6 ## 当前 InHgServer 环境以下过程在 win7 sp1 x64 系统下完成, 如果您的系统不能运行以下相关程序, 请将服务器的 db/ 目录下的 IMBase.dat 文件复制到 win7 sp1 x64 系统下完成 ![Image](/uploads/documents/8/3/a/e/ p1_2.jpg) ## 利用 InHgServer 生成 Mysql 数据库确保 mysql 数据库中没有 IM 相关库 ![Image](/uploads/documents/8/3/a/e/83ae2e54cc4ee64710cafd653e8413de/p2_1.jpg) 调整使用 Mysql 作为数据库，并点击启动 ![Image](/uploads/documents /8/3/a/e/83ae2e54cc4ee64710cafd653e8413de/p2_2.jpg) 确认启动后数据库正确建立

InsMsgServer Start(2017-12-17 05:59:25)
General	Data	Network 0 码力 \| 17 页 \| 1.40 MB \| 2 年前 3 Flink如何实时分析Iceberg数据湖的CDC数据 Flink如何实时分析Iceberg数据湖的CDC数据阿里巴巴李劲松/胡争 FLINK FORWARD #ASIA 2020 #1 #2 #3 #4 常见的CDC 为何选择 Flink 如何实时写未来规划分析方案 + Iceberg 入读取 FLINK FORWARD #ASIA 2020 ## #1 常见的CDC分析方案 ## 离线 HBase 集群分析 CDC 数据 ↓ ## MySQL 3、通过RegionServer定位HFile，Server的优化和缓存完全用不上。 4、数据格式绑定HFile，不方便拓展到Parquet、Avro、Orc等。 FLINK FORWARD #ASIA 2020 ## Apache Kudu 维护 CDC 数据集 ## MySQL ## 方案评估优点 1、支持实时更新数据，时效性佳。 2、列存加速，适合OLAP分析。 ## 缺点 1、独立的Kudu集群，比较小众。维护成本高。等割裂。数据独立，且存储成本不如 S3 / OSS。 3、Kudu的批量扫描不如parquet。 4、不支持增量拉取。 FLINK FORWARD #ASIA 2020 ## MySQL → GQOOP → HVE ## 方案评估优点 1、流程能工作 2、Hive存量数据不受增量数据影响。 ## 缺点 1、数据不是实时写入； 2、每次数据导致都要 MERGE 存量数据。T+1 0 码力 \| 36 页 \| 781.69 KB \| 2 年前 3 共 1000 条 1 2 3 4 5 6 100 前往页相关搜索词 πDataCS 云原生大模型数据计算龙蜥操作系统弹性扩缩容向量数据库大模型 K-Nearest Neighbor 嵌入式 PieCloudVector 容器服务弹性伸缩高可用性全链路监控混合云架构大语言模型微调训练平台工具和平台 Qwen大模型 AWQ 模型部署多语言支持上下文窗口 Pika Redis 大容量持久化存储主从切换 UDTS 数据迁移增量同步 TiDB MySQL Azure Machine Learning SDK for Python 自动机器学习特征工程资源管理 SQLite 数据导出 SQL Maestro 数据导入 Flink Iceberg数据湖 CDC数据增量拉取实时分析关于我们文库协议联系我们意见反馈免责声明本站文档数据由用户上传或本站整理自互联网，不以营利为目的，供所有人免费下载和学习使用。如侵犯您的权益，请联系我们进行删除。 IT文库 ©1024 - 2026 \| 站点地图 Powered By MOREDOC AI v3.5.0-beta.10

搜索

分类

语言

格式