-
## 兼容龙蜥的云原生大模型数据计算系统
## --πDataCS简介
## 吴疆
拓数派产品市场总监

## 吴疆
拓数派(Openpie)产品市场总监
深耕云计算和数据库行业十余年
毕业于清华大学计算机系,先后在IBM,EM C,Pivotal,VMWare参与多个云平台和数据库项目
01
拓数派简介
02
πDataCS简介
03
πDataCS与龙晰
### 01. 拓数派简介
# 全球数据计算系统引领者
杭州拓数派科技发展有限公司(又称"OpenPie")是立足于国内,基础数据计算领域的高科技创新机构。作为国内云上数据库和数据计算领域的引领者,拓数派以“Data Computing for for New Discoveries”「数据计算,只为新发现」为使命,致力于在数字原生时代,运用突破性计算理论、独创的云原生数据库旗舰产品以及之上的算法和数学模型,建立下一代云原生数据平台的前沿标准,驱动企业实现从"软件公司"到"数据公司"再到"数学公司"的持续进阶。
拓数派旗下大模型数据计算系统(PieDataComputing System
0 码力 |
29 页 |
7.46 MB
| 1 年前 3
-
## 大模型时代下向量数据库的设计与应用
msup $ ^{®} $ | ARCHNOTES 架構
## 个人简介

邱培峰
拓数派向量数据库负责人
目前在拓数派负责向量数据库PieCloudVector产品,聚焦于大模型与大数 据领域。拥有多年数据库内核研发和配套解决方案架构经验,在加入拓数派前曾就职于开源大数据平台Greenplum团队,担任外部数据源访问框架,对象存储访问扩展,ETL工具等产品模块的研发,并曾参与PostgreSQL多个版本的代码贡献,拥有丰富的存储模块核心开发和性能优化等实践经验。
## 拓数派:大模型数据计算系统先行者
- 拓数派(OpenPie)是立足于国内的基础数据计算领域高科技创新机构;
拥有强大的数据库内核研发团队、数据科学团队和数字化转型团队;
- 国内虚拟数仓和eMPP技术提出者,不断在数据计算引擎方向进行创新,全面拥抱AI技术趋势。
# 虚拟数仓
拓数派/数仓虚拟化
PieCloudDB产品技术
数企虚拟化由拓数派(杭州拓数派科技发展有限公司,又称“OpenPie”)于2023年3月正式提出。
数仓虚拟化 $ ^{[1]} $ 可将物理数仓整合到云原生数据计算平台
0 码力 |
28 页 |
1.69 MB
| 1 年前 3
-
## 全民双十一 基于容器服务的大促备战

李斌
阿里云容器服务

## 我是谁 安全加固
| 离线计算 | 开发运维一体化 | 极致性能 | 故障演练 |
| 大数据 | 边缘计算 | 全链路压测 | 全站上云 |
| 高可用 | 人工智能 |
[Image](/uploads/documents/4/7/3/a/473a77ef3e79496ce57ea869b48b9312/p9_11.jpg)
云日志
限流,熔断,
降级,系统保护
日志类数据采集、
消费、投递及查询
分析功能
挂卷
技术作为人工智能领域的一项重要创新在今年引起了广泛的关注。
LLM 是利用深度学习和大数据训练的人工智能系统,专门设计来理解、生成和回应自然语言。这些模型通过分析大量的文本数据来学习语言的结构和用法,从而能够执行各种语言相关任务。以 GPT 系列为代表,LLM 以其在自然语言处
## LLM Tech Map
## 大模型
➢ 备案上线的中国大模型
知名大模型
知名大模型应用
LLMOps
大模型聚合平台
## 工具和平台
➢ 开发工具
插件、IDE、终端代码生成工具
## AI 编程
## 算力
## 基础设施
向量数据库
数据库向量支持
➢ 大模型框架、微调 (Fine Tuning)
➢ 大模型训练平台与工具
## LLM Agent Agent
## 编程语言
## LLM Tech Map 大模型技术图谱

## 基础设施
AquilaDB
Annoy
marqo
MongoDB
Faiss
Weaviate
Qdrant
ScanN
ROCKSET
0 码力 |
32 页 |
13.09 MB
| 2 年前 3
-
## 数据迁移
## 存量 MySQL 迁移到 TiDB 服务
UDTS 产品支持 MySQL(5.5/5.6/5.7/8.0) 到 TiDB 的全量数据迁移,及增量数据同步。可协助用户在不停机的情况下轻松将业务从 MySQL 切换至 TiDB。
## 自建 TiDB 迁移到 TiDB 服务
UDTS 产品支持 TiDB 全量数据迁移至 TiDB 服务。用户在源 TiDB 开启 Pump, Drainer 可进行数据增量同步。UDTS 与源端 Pump, Drainer 一起可协助用户在不停机的情况下轻松将业务从自建 TiDB 切换至 TiDB 服务。
## 为 TiDB 服务建立 MySQL 从库
UDTS 产品支持 TiDB 全量数据迁移至 MySQL 数据库。用户在 TiDB 服务上开启 Binlog 可将数据增量同步至下游 MySQL。UDTS 与 TiDB Binlog Binlog 服务一起可协助用户轻松建立 MySQL 从库。
## 为 TiDB 服务建立 TiDB 从库
UDTS 产品支持 TiDB 全量数据迁移至 TiDB 数据库。用户在源 TiDB 服务上开启 Binlog 可将数据增量同步至下游 TiDB。UDTS 与 TiDB Binlog 服务一起可协助用户轻松建立 TiDB 从
库。
0 码力 |
2 页 |
42.01 KB
| 1 年前 3
-
## 大容量redis存储方案--Pika
陈宗志
360基础架构组技术经理
## 简介
## • 13年入职360 基础架构组
– Bada
– Pika
– Zeppelin
– Mario, Pink, slash, floyd
• https://github.com/Qihoo360
## 概要
- 存在问题
- 分析问题
- 解决问题
- Pika vs redis Pika 是DBA 和 基础架构团队一起设计开发的大容量redis的解决方案
- 完全兼容redis 协议, 用户不需要修改任何代码进行迁移
## Pika User
• Redis实例数量:6000+个
• 日访问量:5000+亿
• Pika数据数量:1000+个
• 日访问量:1000+亿
• 覆盖率:80%以上业务线
• 单份数据体积:6.8T
## UserList
![I Redis 在大容量场景下的问题
## Redis 问题
- 恢复时间长
- 一主多从, 主从切换代价大
- 缓冲区写满问题
- 成本问题
## Redis 问题
## • 恢复时间长
– 50G redis 回复时间70分钟
– 同时开启aof 和 rdb
## Redis 问题
## • 一主多从, 主从切换代价大
## – 主库挂掉后升级从库, 所有的从库全部重传数据
## Redis
0 码力 |
47 页 |
2.18 MB
| 2 年前 3
-
information.
#### 1.4.4 PPL 评测
llama.cpp 为我们提供了评估 GGUF 模型 PPL 性能的方法。为了实现这一点,你需要准备一个数据集,比如 “wiki 测试”。这里我们展示了一个运行测试的例子。
第一步,下载数据集:
wget https://s3.amazonaws.com/research.metamind.io/wikitext/wikitext-2-raw-v1 pip install -e .
假设你已经基于 Qwen1.5-7B 模型进行了微调,并将其命名为 Qwen1.5-7B-finetuned,且使用的是你自己的数据集,比如 Alpaca。若要构建你自己的 AWQ 量化模型,你需要使用训练数据进行校准。以下,我们将为你提供一个简单的演示示例以便运行:
from awq import AutoAWQForCausalLM
from transformers →safetensors=True)
接下来,您需要准备数据以进行校准。您需要做的就是将样本放入一个列表中,其中每个样本都是一段文本。由于我们直接使用微调数据来进行校准,所以我们首先使用 ChatML 模板对其进行格式化。例如:
data = []
for msg in messages:
msg
0 码力 |
56 页 |
835.78 KB
| 2 年前 3
-
[Image](/uploads/documents/e/4/f/6/e4f61af16f650f1e38c1d341f3e7a639/p1_2.jpg)
## 基于Azure的Python机器学习
平安金融壹账通大数据研究院
微软MVP 王大伟
## 目录
>> Azure与Python
>> 如何用Azure完成机器学习
>> Azure与自动机器学习
>>

## Retail
通过基于数据的客户见解,提供出色的个性化无缝体验。
 com/#home

应用程序服务
SQL 数据库
Azure Database for PostgreSQL
Azure Monitor
监视应用和基础结构

## 利用 InHgServer 生成 Mysql
数据库
确保 mysql
数据库中没有 IM 相关库

调整使用 Mysql 作为
数据库,并点击启动

确认启动后
数据库正确建立
| InsMsgServer Start(2017-12-17 05:59:25) |
| General | Data | Network | 0 码力 |
17 页 |
1.40 MB
| 2 年前 3
-
Flink如何实时分析Iceberg数据湖的CDC数据
阿里巴巴 李劲松/胡争
FLINK FORWARD #ASIA 2020
#1
#2
#3
#4
常见的CDC
为何选择 Flink
如何实时写
未来规划
分析方案
+ Iceberg
入读取
FLINK FORWARD #ASIA 2020
## #1 常见的CDC分析方案
## 离线 HBase 集群分析 CDC 数据
↓
## MySQL 3、通过RegionServer定位HFile,Server的优化和缓存完全用不上。
4、数据格式绑定HFile,不方便拓展到Parquet、Avro、Orc等。
FLINK FORWARD #ASIA 2020
## Apache Kudu 维护 CDC 数据集
## MySQL
## 方案评估
优点
1、支持实时更新数据,时效性佳。
2、列存加速,适合OLAP分析。
## 缺点
1、独立的Kudu集群,比较小众。维护成本高。 等割裂。数据独立,且存储成本不如 S3 / OSS。
3、Kudu的批量扫描不如parquet。
4、不支持增量拉取。
FLINK FORWARD #ASIA 2020
## MySQL → GQOOP → HVE
## 方案评估
优点
1、流程能工作
2、Hive存量数据不受增量数据影响。
## 缺点
1、数据不是实时写入;
2、每次数据导致都要 MERGE 存量数据。T+1
0 码力 |
36 页 |
781.69 KB
| 2 年前 3