日志文件 - IT文库_程序员IT互联网编程电子书和文档免费下载，助您码力十足！

首页文库资料文章资讯上传文档发布文章登录账户

Greenplum分布式事务和两阶段提交协议

Widom《数据库系统实现》查询编译器/ 优化器事务管理器 DDL编译器执行引擎日志和恢复并发控制索引/文件/ 记录管理器缓冲区管理器缓冲区锁表存储管理器存储查询计划对索引、文件和记录的请求页命令事务命令查询、更新用户/ 应用 DDL命令数据库管理员数据、元数据、索引日志页读、写页元数据、统计数据元数据 9 存储介质的类型事务提交时，数据页不需要刷回持久存储，为了保证持久性，先把Redo Log写入日志文件。Redo log记录修改数据对象的新值(After Image, AFIM) ■ Steal → Undo Log 允许Buffer Pool未提交事务所修改的脏页刷回到持久存储，为了保证原子性，先把Undo Log写入日志文件。Undo Log记录修改数据对象的旧值(Before Image, BFIM) Force) 恢复时，从后往前，对于未提交的事务的日志做undo操作。日志 Redo log(记录新值) (No-Steal / No-Force) 恢复时，从前往后，对提交的事务的日志做redo操作。日志

0 码力 | 42 页 | 2.12 MB | 1 年前
3
Greenplum Database 管理员指南 6.2.1

........................................................................... - 34 - 编辑 pg_hba.conf 文件 ....................................................................................... - 35 - 限制并发连接数量 ...................... - 85 - 创建文件空间 ............................................................................................................ - 86 - 转移临时文件或事务文件的位置 .............................. ............................... - 90 - 查看现有的表空间和文件空间 ................................................................................ - 91 - 删除表空间和文件空间 ..............................................

0 码力 | 416 页 | 6.08 MB | 1 年前
3
Greenplum 编译安装和调试

将本机的hostname与127.0.0.1的map写到/etc/hosts中。例如 127.0.0.1 yydzero yydzero.local ● 修改/etc/sysctl.conf文件，并重启： kern.sysv.shmmax=2147483648 kern.sysv.shmmin=1 kern.sysv.shmmni=64 kern .sh # step 2. 交换集群中所有机器的ssh密钥, 我们这里只有一台机器 $ gpssh-exkeys -h `hostname` # step 3. 生成三个配置文件： env.sh, hostfile, gpinitsystem_config $ cat env.sh source $HOME/gpdb.master/greenplum_path 可以发现并解决大部分问题。 2.2.2 查看日志常用的日志文件有两类，一种是 gpinitsystem 的日志，一种是数据库的日志。它们分别保存在不同的目录下： ● gpinitsystem 的日志文件。默认路径为 ~/gpAdmin/gpinitsystem_*** ● 数据库的日志文件：进入 master （segment 的日志类似）的日志目录（例如 /data/master/gpseg-1/pg_log/)

0 码力 | 15 页 | 2.07 MB | 1 年前
3
Pivotal Greenplum 最佳实践分享

> $i;done echo never > /sys/kernel/mm/transparent_hugepage/enabled 一般不建议直接修改/boot/grub/grub.conf文件或者/boot/grub/menu.lst 常用数据库参数参数名 Master节点值 Segment节点值 checkpoint_segments 32 32 max_connections 些参数  Vacuum Full/REORGANIZE：立即释放垃圾空间还给操作系统 Vacuum Full相当于碎片整理； Reorganize相当于重建表，数据表对应的文件名（pg_class -> relfilenode)将会发生改变。 Vacuum Full的处理性能非常低，一般情况下不建议采用，可以用Reorganize代替、或者使用AO表； –F效率低，数据库实例修复如果增量同步失败，我们一般会建议使用gprecoverseg –F进行全量同步，全量同步是在两个节点之间全量拷贝文件，超过10 0000个对象，在数据目录下地文件数会可能达到上百万个档，这些文件的拷贝需要花费很长时间 – 使用gpexpand扩容节点时，对象数多，对应到每个实例下的文件数非常多，将这些目的档重分布到新扩展的节点时间会很长 – 系统表（pg_class,pg_attribute）太大，影响系统工作效率

0 码力 | 41 页 | 1.42 MB | 1 年前
3
PostgreSQL和Greenplum 数据库故障排查

iptables chkconfig --level 0123456 iptables off 2)临时目录/tmp（安装日志） 3)服务器日志（PostgreSQL server error log） 2018年PostgreSQL中国技术大会微信号：laohouzi999 服务器日志（PostgreSQL server error log） -bash-4.1$ locate pg_ctl postgres 336 Dec 8 11:30 postgresql-Sat.log -bash-4.1$ 2018年PostgreSQL中国技术大会微信号：laohouzi999 2.日志的配置 2018年PostgreSQL中国技术大会微信号：laohouzi999 -bash-4.1$ cat postgresql.conf |egrep -i "Log_directo #log_statement_stats = off #session_preload_libraries = '' 2018年PostgreSQL中国技术大会微信号：laohouzi999 如果看不到日志，直接前台运行 /usr/lib/postgresql/9.3/bin/postgres -D /var/lib/postgresql/9.3/main -c config_file=/etc/postgresql/9

0 码力 | 84 页 | 12.61 MB | 1 年前
3
Greenplum 精粹文集

SMP（对称多处理）架构难于扩展，并且在 CPU 计算和 IO 吞吐上不能满足海量数据的计算需求。分布式存储和分布式计算理论刚刚被提出来，Google 的两篇著名论文发表后引起业界的关注，一篇是关于 GFS 分布式文件系统，另外一篇是关于 MapReduce 并行计算框架的理论，分布式计算模式在互联网行业特别是收索引擎和分词检索等方面获得了巨大成功。 Big Date2.indd 1 16-11-22 MPP（海量并行处理）计算框架，最终还是需要软件来实现，Greenplum 正是在这一背景下产生的，借助于分布式计算思想，Greenplum 实现了基于数据库的分布式数据存储和并行计算（GoogleMapReduce 实现的是基于文件的分布式数据存储和计算，我们会在后面比较这两种方法的优劣性）。话说当年 Greenplum（当时还是一个 Startup 公司，创始人家门口有一棵青梅 ——greenplum，因此而得名）召集了十几位业界大咖（据供了编译后的模块开箱即用，如：oraface、postgis、pgcrypt 等，对于其它模块，用户可以自行将 contrib 下的代码与 Greenplum 的 include 头文件编译后，将动态 so 库文件部署到所有节点就可进行测试使用了。有些模块还是非常好用的，例如：oraface，基本上集成了 Oracle 常用的函数到 Greenplum 中，曾经在一次 PoC 测试中，用户提供的

0 码力 | 64 页 | 2.73 MB | 1 年前
3
深度揭秘Greenplum开源数据库透明加密

总结我们所面临的问题什么是Greenplum数据库一款开源的HTAP数据库: • MPP架构 • 完整的事务+ACID+标准SQL支持 • 支持上千个节点的部署 • 支持PB级文件 • 丰富的ETL和外部组件 • 支持Python/R/Java直接访问处理数据库数据 • https://github.com/greenplum-db/gpdb GPDB GPDB的数据安全可以访问数据库二进制文件 • 可以访问数据库数据文件 • 可以访问预写日志文件潜在风险（二） GPDB的数据安全 System Admin • 管理集群 • 数据备份恢复运维模式 • 原厂服务，主机厂或者第三方运维数据文件为明文二进制文件 • 直接通过Linux自带工具（strings, hexdump）访问 • pg_waldump可以直接读取并显示预写日志潜在风险（三）支持上千个节点的部署 • 支持PB级文件 • 丰富的ETL和外部组件 • 支持Python/R/Java直接访问处理数据库数据 • https://github.com/greenplum-db/gpdb Recall pgcypto的问题一款开源的HTAP数据库: • MPP架构 • 完整的事务+ACID+标准SQL支持 • 支持上千个节点的部署 • 支持PB级文件 • 丰富的ETL和外部组件

0 码力 | 48 页 | 10.19 MB | 1 年前
3
Greenplum 新一代数据管理和数据分析解决方案

Greenplum愿景：企业数据集合 13 • 在企业内创建统一的数据运算平台 • 企业所有者可以直接控制其数据实例 • 通过实体整合提供企业级数据访问功能 • 灵活的扩展和配置降低了投资的平均风险源文件源数据源数据源文件数据仓库和分析应用程序 Greenplum数据架构商用硬件集群分析数据市场企业数据仓库企业数据集合：主要的优势 • 实体整合 • 提高服务器使用率 • 降低总硬件成本 – 客户投产环境：客户11月份月度处理时，完成本项任务需要65小时。结论：如果采用DWA替代现有环境，获得超过80倍的性能提升。案例分享：阿里巴巴 • 业务用例 • 通过分析用户的网络点击日志，进行产品关联分析，让客户可以快速的找到相近产品 • Existing Solution • Oracle • Facts • 6台华为-赛门铁克T3500服务搭建数据库阵列 • 每台T3500服务器可以自带24TB硬盘每台T3500服务器可以自带24TB硬盘 • 每台服务器含有两个四核的CPU(8 Intel X5560) • 每台机器含有32GB内存 • 每台机器配置6个千兆网口 • Raid10 • Solaris 10 网站日志交易数据详细数据 Greenplum •海量基础数据 •大数据量查询 Oracle 加工数据 •门户网站 •高并发查询。。。。。。用户信息 Hardware Architecture

0 码力 | 45 页 | 2.07 MB | 1 年前
3
Greenplum机器学习⼯具集和案例

(Hyper-Q) 2017.thegiac.com Greenplum ⼤大数据平台 • 一次打包，到处运行：裸机、私有云、公有云 • 各种数据源：Hadoop、S3、数据库、文件、Spark、Ka,a • 各种数据格式：结构化、半结构化（JSON/XML/Hstore)、非结构化 • 强大内核: MPP、优化器、多态存储、灵活分区、高速加载、PG内核 • 强大代码更更精简，更更便便于维护的代码 X 原始模型预测效果不不理理想 ✓ 新模型能够更更精准地预测⽬目标客户商业影响 2017.thegiac.com 用户案例例2 基于API日志的⾦金金融产品⽤用户分析 2017.thegiac.com 问题 ● 更更好地理理解不不同种类的⽤用户 ● 更更好地了了解⽤用户与 APP的交互 ● 对实时API请求进⾏行行分类和安全检测数据 - API 访问⽇日志 - 客户数据 • 45 天区域数据 • 50亿条数据 • 上百万订购者平台建模⼯工具 PL/R, PL/PYTHON, PDLTools 可视化数据和技术概览 2017.thegiac.com 会话识别 API 请求⽇日志抽取会话特征根据原始特征对用户聚类

0 码力 | 58 页 | 1.97 MB | 1 年前
3
Greenplum备份恢复浅析

邮箱：zhuodao.zwj@alibaba-inc.com 公司：阿里云 2017 年象行中国（杭州站）第一期 Greenplum数据备份恢复： 1. 数据量较大 2. 不能完全使用Xlog日志备份 3. 需要保证数据完整性和一致性 2017 年象行中国（杭州站）第一期 Greenplum提供了： 1. 非并行备份和恢复： --pg_dump和pg_dumpall（pg_restore） [--rsyncable] 2017 年象行中国（杭州站）第一期 gpcrondump⽤法(2/3) gpcrondump命令使用-K 来指定唯一时间戳来标示某个备份集文件，其中如果当前备份目录中存在更未来的备份集，则备份报错。 gpcrondump命令使用-t 或者--table-file，-T或者--exclusive-table-file，-s或者--sch 以将备份产生的所有文件都列举出来，分为两类，分别是： 1. Pipes files 包括每个segment的数据文件（可以流式输出）、master产生的post_data文件包含indexes, triggers, primary key constraints等数据库对象，master产生的全局对象包含角色和表空间等 2. Regular files 包括各类辅助文件，例如存储着create

0 码力 | 17 页 | 1.29 MB | 1 年前
3

共 22 条前往

页

分类

语言

格式