ClickHouse on Kubernetes
0 码力 | 34 页 | 5.06 MB | 2 年前文档主要介绍了在Kubernetes上运行ClickHouse的相关内容。ClickHouse是一种高性能的列式数据库,适用于数据分析场景。文档讨论了在Kubernetes上运行ClickHouse的挑战,包括配置复杂性、持久化存储、网络管理以及透明度问题。为了解决这些问题,Altinity推出了ClickHouse Operator,这是一个用于简化Kubernetes上ClickHouse集群管理的工具。Operator通过自动化部署、扩展和监控,提供了更高效和可靠的ClickHouse运行环境。文档还展示了如何使用Kubernetes API和YAML文件来配置ClickHouse集群,并提到了一些高级功能,如自动创建架构、监控集成以及容灾备份等。
ClickHouse on Kubernetes
0 码力 | 29 页 | 3.87 MB | 2 年前文档介绍了如何在Kubernetes上运行ClickHouse,重点介绍了ClickHouse Operator的作用,该工具简化了数据仓库的配置管理。文档讨论了在Kubernetes上运行ClickHouse的优势,包括与其他应用的兼容性、便携性和快速部署。同时,提到了部署架构,包括Load Balancer Service、Stateful Set和Persistent Volume等组件。文档还指出了当前的挑战,如供应、持久性和网络问题,并提到了现有的功能如监控和自动架构创建,以及未来的改进方向,如多区域部署和存储管理。
8. Continue to use ClickHouse as TSDB
0 码力 | 42 页 | 911.10 KB | 2 年前文档主要介绍了青云QingCloud选择并继续使用ClickHouse作为时间序列数据库(TSDB)的原因、当前的实施方式以及未来的计划。ClickHouse作为一种高效的数据存储和查询引擎,通过其列式存储模型和MergeTree引擎,能够有效处理时间序列数据。文档强调了ClickHouse在处理时间序列数据时的优势,并展望了未来的优化方向。
7. UDF in ClickHouse
0 码力 | 29 页 | 1.54 MB | 2 年前文档主要介绍了ClickHouse中的用户定义函数(UDF)及其在机器学习系统中的应用。文档详细阐述了UDF的类型,包括标量函数、聚合函数和表函数,并展示了其在数据预处理、特征工程和连接识别等场景中的实际应用。此外,文档还介绍了Zora框架,这是一个高性能算法实现框架,支持与ClickHouse、NumPy和Pandas的无缝集成。Zora框架通过C++实现,提供了针对机器学习管道的定制算法组件,包括数据结构、图算法和统计操作等。文档还讨论了ClickHouse的性能优势,包括高效的内存使用和快速的数据处理能力,并通过示例展示了如何在ClickHouse中使用UDF进行复杂的数据处理和分析。
5. ClickHouse at Ximalaya for Shanghai Meetup 2019 PDF
0 码力 | 28 页 | 6.87 MB | 2 年前文档介绍了喜马拉雅公司在其业务中应用ClickHouse进行OLAP分析的情况。ClickHouse被用于用户行为分析、用户属性分析以及监控等方面,特别是在处理大规模数据时表现出色。文档还讨论了ClickHouse的性能评估、集成与优化,以及其在提升业务ROI和应用监控中的作用。
3. Sync Clickhouse with MySQL_MongoDB
0 码力 | 38 页 | 7.13 MB | 2 年前文档详细介绍了如何将Clickhouse与MySQL和MongoDB同步。主要内容包括:通过配置文件快速同步多个数据源,处理分片表合并,解决Clickhouse在处理频繁更新/删除操作时的Mutation卡顿问题,以及通过MySQL Engine实现数据同步。文档还提到了使用Binlog和Oplog进行数据变更操作,并提供了针对大数据量场景的优化建议。
1. Machine Learning with ClickHouse
0 码力 | 64 页 | 1.38 MB | 2 年前文档介绍了如何在ClickHouse中进行机器学习,包括存储训练好的模型、使用聚合函数进行线性回归训练、导入实验数据集(如NYC出租车和Uber数据)以及应用CatBoost模型进行预测。文档还列出了未来改进的方向,如支持更多损失函数和优化模型训练功能。
0. Machine Learning with ClickHouse
0 码力 | 64 页 | 1.38 MB | 2 年前文档介绍了在ClickHouse中管理和训练机器学习模型的方法,重点讨论了如何使用聚合函数进行线性回归模型的训练和存储。文档还提到了ClickHouse对CatBoost模型的支持,并详细说明了如何通过SQL查询进行模型训练和管理。此外,文档列出了未来计划实现的功能,包括支持更多损失函数、 shuffle minibatches、数据采样功能以及多个特征和损失函数的支持。
ClickHouse in Production
0 码力 | 100 页 | 6.86 MB | 2 年前文档主要介绍了ClickHouse在生产环境中的实际应用,包括其核心特点、在大规模数据处理中的优势以及在分布式架构下的性能表现。文档通过Yandex.Metrika、Cloudflare和Badoo等公司的使用案例,展示了ClickHouse在处理高并发请求、大规模数据存储和实时数据分析方面的强大能力。同时,文档也指出了ClickHouse的适用场景和一些不擅长的操作类型。
共 9 条
- 1













