大数据生态 - IT文库_程序员IT互联网编程电子书和文档免费下载，助您码力十足！

首页文库资料文章资讯上传文档发布文章登录账户

4.GPT 与数据库的生态整合

GPT 与数据库的生态整合王琦智 PingCAP TiDB 开发者生态高级工程师目录自然语言到 SQL 01 自然语言到图表 02 GPTs 调用数据库 API 03 总结 04 自然语言到SQL OSS Insight 自然语言到图表 Thoughts to insights made easy(with AI) GPTs 调用数据库 API Thank You

0 码力 | 21 页 | 3.33 MB | 1 年前
3
3 基于Azure的Python机器学习王大伟

基于Azure的Python机器学习平安金融壹账通大数据研究院微软MVP 王大伟目录 CONTENTS Azure与Python 如何用Azure完成机器学习 Azure与自动机器学习 Azure的相关学习资料 Azure与Python 日渐流行的Python TIOBE给出的排行榜是具有权威性质的，是判断语言流行趋势的指标。 TIOBE排行榜的网址是：https://tiobe 什么是自动机器学习？机器学习的一般步骤包括：问题定义、数据收集、特征工程、模型选择、模型评估、模型应用。而算法工程师的工作一般是从特征工程开始。自动机器学习的自动体现在：自动特征工程、自动模型选择、自动超参数优化等。手动特征工程效率低、可移植性差、受到创造力的限制。自动特征工程自动超参数优化自动模型选择添加标题如何有效选择对应于特定数据集的模型至关重要。大量超参数如何自动

0 码力 | 31 页 | 3.69 MB | 1 年前
3
05-MoonBit 编程语言（WASM 技术）服务端应用展望以及对Kubernetes生态的影响

MoonBit 编程语言（WASM 技术）服务端应用展望以及对Kubernetes生态的影响沙渺（MoonBit 语言社区开发者）本分享包含大量目前尚处在早期开发阶段甚至概念阶段，尚未获得广泛应用的技术。仅为前景展望，不推荐用于当前立项开发的实际工程。敬请注意内容 • WASM 技术栈现状和 WASM 后端应用的构想 • MoonBit 语言介绍 • MoonBit 不可或缺 • 但各个运行时的实现，成熟度不一 • 使用扩展特性，基本需要限定运行时 WASM 扩展特性 • 基本接口已在 WASM 1.0 标准化 • 但只能交换简单数据类型 • 交换缓冲区和高级数据结构的方法各有不一 WASM 外部语言接口（FFI） • WASI (WebAssembly System Interface) • 用于允许 WASM 代码调用操作系统的能力 crun 运行时（可选） WASM Image WASM 运行时（可选） WASM Image WASM Image WASM Image Kubernetes 用于 WASM 生态的价值 • 复用当前生态 • 大多数概念可以复用 • 个别概念对 WASM 镜像更加有用（例如节点亲和性）对 Kubernetes 的挑战 • 层数过度设计 • 抽象粒度与 WASM 惯例的差异 •

0 码力 | 30 页 | 3.41 MB | 9 月前
3
C++高性能并行编程与优化 - 课件 - 10 从稀疏数据结构到量化数据类型

从稀疏数据结构到量化数据类型 by 彭于斌（ @archibate ）往期录播： https://www.bilibili.com/video/BV1fa411r7zp 课程 PPT 和代码： https://github.com/parallel101/course 本课涵盖：稀疏矩阵、 unordered_map 、空间稀疏网格、位运算、浮点的二进制格式、内存带宽优化面向人群：图形学、希的压力。但意味着键值在空间上需要具有一定的局域性，否则会浪费分块中一部分空间。然而我们这里是要用他记录粒子经过的点，因此具有一定空间局域性，能够被分块优化。实际上空间局域性正是稀疏网格能够实现的一大前提，稍后详细讨论。在 16x16 分块的基础上，只用一个 bit 存储图片解释稀疏的好处传统稠密二维数组无边界稀疏分块哈希表有了无边界的稀疏网格，再也不用担心二维数组要分配多大了。，反之则是未激活 (inactive) 。这就是稀疏的好处，按需分配，自动扩容。分块则是利用了我们存储的数据常常有着空间局域性的特点，减轻哈希表的压力，同时在每个块内部也可以快乐地 SIMD 矢量化， CPU 自动预取之类的。第 2 章：位运算稀疏的好处：坐标可以是负数这样即使坐标为负数，或者可以是任意大的坐标，都不会产生越界错误。但是分块存储时负数却导致出错了为什么 segf 了？按理说不会越界才对？

0 码力 | 102 页 | 9.50 MB | 1 年前
3
基于Go的大数据平台-党合萱

基于Go的⼤大数据平台七⽜牛云—党合萱什什么是Pandora 简单 · 可信赖 Pandora架构图 Export Service API / Portal / 消息消息计算计算消息导出任务导出任务导出任务导出任务导出任务计算消息对象存储服务 HTTP MongoDB 时序数据库⽇日志检索服务 XSpark Report Studio 简单 · 可信赖内容提要 • 系统设计分析与架构 • 多种上下游适配 • ⾼高吞吐/低延迟问题探究 • ⾼高可⽤用与⽔水平扩展 • ⾃自动化运维 • Go的应⽤用简单 · 可信赖系统设计分析与架构构建系统的挑战 export service系统全貌简单 · 可信赖数据预取 • export server在向下游推数据的时候预先从上游拉数据回来，保证⽹网络最⼤大的利利⽤用率，同时也减⼩小了了等待时间，提升导出效率。 • 预取时如果⽆无数据可取，则休眠1s再取数据，既然没有数据则休眠时间加倍……⼀一直到32s为⽌止，过程中如果取到数据，则休眠时间重置为 1s，有效减少对底层存储的请求数量量。简单 · 可信赖数据推送协议优化 • 优化export

0 码力 | 34 页 | 1.26 MB | 1 年前
3
Go在数据库中间件的应用

Go在数据库中间件的应用基础架构组/刘延允 liuyun827@foxmail.com 2017年9月 1 关于我 • 刘延允——酷狗音乐，基础架构组 • 数据库变更通知服务 • 酷狗消息队列 • 酷狗数据库中间件 • 主要工作：分布式存储、高可用、数据库 • 两年通信设备开发经验，四年互联网 • 五年C/C++使用经验，一年Golang 2 CONTENTS • 程序开发的需求分表路由 • 故障切换 • 平滑扩容 • 系统运维 3 程序开发的需求 • 语言特性精炼，容易入门 • 开发效率高，代码逻辑清晰 • 运行性能强，节省机器资源 • 部署维护方便 • 生态圈完善 4 Golang特性 • Go语法简练；没有学习压力 • 开发效率高；语言描述能力接近于脚本语言 • 性能高；接近于C/C++，充分利用资源 • 容易部署；可执行程序，编译时解决上线部署、运行时的依赖 • 强大的标准库、丰富的第三方库、go test、pprof • 自动内存管理；内存泄漏与野指针是C/C++语言开发者的噩梦 • Go routine + channel；简单的并发与简易的数据同步 5 系统整体方案 mysql-group proxy proxy mysqld(M) mysqld(S) mysqld(S) mysql-group mysql-group mysql-group

0 码力 | 17 页 | 4.02 MB | 1 年前
3
如何消除程序中的数据竞争-周光远

如何消除程序中的数据竞争周光远华为从一些问题说起 1 2 3 什么是数据竞争 Go语言中的数据竞争（data race）： data race occurs when two goroutines access the same variable concurrently and at least one of the accesses is a write. 数据竞争（data 且至少其中一次访问是写操作。 data Thread1 Thread2 data goroutine1 goroutine2 从微观看数据竞争时间上：多个并发的读写操作被观察到的顺序无法预知。空间上：并发读写时观察到非预期的数据。 a:1 b:2 a:2 b:1 a:1 b:2 a:2 b:1 a:1 b:1 a:2 b:2 Thread 1 Thread 2 接收完成（同一个数据）; • 对于无缓冲channel：开始接收 → 发送完成（同一个数据）; 开始发送接收完成其他的对于init函数，锁，协程，原子操作，sync包里的功能，还有许多保证，更详细可以看： https://golang.org/ref/mem https://go101.org/article/memory-model.html 消除数据竞争的原理消除数据竞争，实质就

0 码力 | 30 页 | 1.92 MB | 1 年前
3
1.每秒百万数据点 Go 应用监控系统演进

每秒百万数据点 Go 应用监控系统演进张平 AfterShip 高级 SRE 关于 AfterShip 拥抱云原生和开源系统目录监控架构概览 01 如何监控 Go 应用？ 02 Metrics 系统架构演进 03 Why VictoriaMetrics so good？ 04 总结与展望 05 监控架构概览第一部分监控系统架构概览 -- 数据源监控系统架构概览 1Mil+ 2020 年指标数据业务指标数量每秒写入数据点 Active Time Series 2018-2020 年架构 2020 年底面临的问题 ● 无法查询超过 30 天的数据 ● 查询慢，平均时间超过 2 分钟 ● 跨集群指标无法聚合 ● Prometheus 集群经常崩溃 ● 维护时 Prometheus 会丢数据 ● 成本高，需要大容量 SSD 磁盘 2021-2022 S3 2022 年中指标数据 14K+ 0.6Mil 30Mil+ 业务指标数量每秒写入数据点 Active Time Series Thanos 架构优化 Querier Query-Frontend Store Gateway S3 Store Gateway Store Gateway Redis 2022 年底面临的问题 ● 超 100+ 倍数据点增长导致查询缓慢 ●

0 码力 | 42 页 | 2.32 MB | 1 年前
3
高可用分布式流数据存储设计-李玥

⾼高可⽤用分布式流数据存储设计李玥京东集团技术架构部架构师⾃自我介绍⾃自我介绍李李玥京东集团技术架构部架构师负责主导设计新⼀一代京东消息中间件系统，专注于流数据的⼀一致性分发和可靠存储、分布式实时计算和⾼高可⽤用分布式系统架构等技术领域。从事互联⽹网研发、架构10余年年，曾在浪潮集团、当当⽹网等公司从事架构相关⼯工作。2017年年加⼊入京东，期间提升京 What 如何定位？如何融入生态系统？ How 如何实现？如何优化？ WHY 为什什么需要流数据存储？单体应⽤用烟筒式 SOA 微服务那些年年的服务 MySQL ES HDFS KV HBase Hive 这些年年的数据 Services Data MySQL ES HDFS KV HBase Hive 统⼀一的流数据存储平台我们的愿景 Services ns 1 ms = 1, 000, 000 ns JournalQ有多快？ 32, 961, 776 TPS 测试服务器器：32C/256G/4TB SSD/万兆以太⽹网测试每条消息⼤大⼩小为：1KB LZ4 压缩单节点存储结构设计 0 10 50 55 80 Journal 0 10 50 55 80 Index 0 134217342 268433156 402653853

0 码力 | 36 页 | 6.02 MB | 1 年前
3
刘用涛 CnosDB时序数据库的Rust实践

第三届中国Rust开发者大会 CnosDB时序数据库的Rust实践 Yongtao Liu CnosDB 研发工程师 Rust China Conf 2023 CnosDB 是一款基于 Rust 开发的开源的分布式时序数据库 1. CnosDB 架构与选型 2. 为何从 Go 切换到 Rust 3. 使用 Rust 经验分享 4. 反哺社区 • 平衡存储性能与成本 • 查询引擎支持矢量化查询 • 兼容多种时序协议 • 可观测性 • 支持云原生 • 原生支持多租户 • 租户Quota可动态配置 • 云边端协同 • 云上生态融合整体架构 1.2 存储引擎 version_set Vnode IndexEngine DataEngine cache imcache Vnode Vnode summary Optimizer Pluggable Scheduler Logical transform Physical transform 1.4基于DataFusion的高性能查询引擎 • 扩展数据源 • 扩展 SQL 语句 • 扩展流处理引擎 • 扩展优化规则 • 扩展时序函数 1.5 分布式 1. Shared nothing 2. Leaderless NRW

0 码力 | 26 页 | 3.28 MB | 1 年前
3

共 707 条前往

页

分类

语言

格式