大数据分析 - IT文库_程序员IT互联网编程电子书和文档免费下载，助您码力十足！

首页文库资料文章资讯上传文档发布文章登录账户

Volcano加速金融行业大数据分析平台云原生化改造的应用实践

## Volcano加速金融行业大数据分析平台云原生化改造的应用实践汪洋，华为云 Volcano 社区核心贡献者 ## 大数据平台云原生面临的挑战传统大数据平台云原生化改造成为必然趋势大数据分析、人工智能等批量计算场景深度应用于金融场景 ## 云原生大数据平台传统服务大数据人工智能 ![Image](/uploads/documents/0/2/b/0/02b046 ## containerd ![Image](/uploads/documents/0/2/b/0/02b0467e95dcdae1446896d0ddd54e9c/p2_6.jpg) ## 大数据、AI等批量计算场景云原生化面临的挑战 ## 作业管理缺失 Pod级别调度，无法感知上层应用 • 缺少作业概念、缺少完善的生命周期的管理 • 缺少任务依赖、作业依赖支持 ## 调度策略局限 JobOrderFn TaskOrderFn PreemptableFn Gang plugin JobOrderFn PreemptableFn JobReadyFn ## 用户案例：荷兰ING银行大数据平台云原生化改造 ![Image](/uploads/documents/0/2/b/0/02b0467e95dcdae1446896d0ddd54e9c/p7_1.jpg) ![Image

0 码力 | 18 页 | 1.82 MB | 2 年前
3
大数据集成与Hadoop - IBM

大数据集成与 Hadoop 可最大限度降低Hadoop计划风险并提高ROI的最佳实践 ![Image](/uploads/documents/6/0/d/1/60d1a1fc09146b40702b2ad5e7fd30d7/p1_1.jpg) IBM $ ^{®} $ ## 简介 Apache Hadoop技术通过支持新的流程和架构，不断改进大数据措施的经济性和活力，这样不仅有助于削减称为MapReduce）。但是，Hadoop基础架构本身并没有提供完整的大数据集成解决方案，摆在人们面前的既有挑战，也有机遇，只有处理好这些问题，才能安享各项优势，最大限度提高投资回报率（ROI）。 ## 大数据集成对于Hadoop措施的重要性 Hadoop的迅速崛起推动企业在如何抽取、管理、转换、存储和分析大数据方面实现了范式转变。无论是要更深入的分析，还是希望获得更出色的洞察、新产品、据来实现大数据与Hadoop项目。实现所有这些目标需要运用富有弹性的端到端信息集成解决方案，该解决方案不仅可实现大规模扩展，还能提供支持Hadoop项目所需的基础架构、功能、流程和行为准则。 “在很大程度上，80%的大数据项目开发精力用于数据集成，只有20%的精力投入到数据分析中。” —Intel Corporation, “使用 Apache Hadoop 抽取、转换和加载大数据” $ ^{1}

0 码力 | 16 页 | 1.23 MB | 2 年前
3
大数据时代的Intel之Hadoop

## 大数据时代的Intel之Hadoop 系统方案架构师：朱海峰英特尔 $ ^{®} $ 中国云计算创新中心 2013.4 北京 ## 法律声明本文所提供之信息均与英特尔 $ ^{®} $ 产品相关。本文不代表英特尔公司或其它机构向任何人明确或隐含地授予任何知识产权。除相关产品的英特尔销售条款与条件中列明之担保条件以外，英特尔公司不对销售和/或使用英特尔产品做出其它任何明确或隐含的担不提供任何担保或保证。本列表和/或这些设备可随时更改，恕不另行通知。版权所有 $ ^{©} $ 2012英特尔公司。所有权保留。 ## 提纲 • 大数据时代的新挑战 • 大数据时代的Intel • 关注产业应用，产研相互促进 ## 大数据时代的数据 ![Image](/uploads/documents/6/e/5/1/6e51d0ecc4e60eef9dfe8d45e965aa37/p4_1 a37/p5_1.jpg) ## 大数据时代的数据传统数据数据量 GB $ \rightarrow $ TB 速度数据量稳定，增长不快多样化主要为结构化数据价值统计和报表大数据 TB -> PB以上持续实时产生数据，年增长率超过60% 半结构化，非结构化，多维数据数据挖掘和预测性分析 “大数据”指数据集的大小超过了现有典型的数据

0 码力 | 36 页 | 2.50 MB | 2 年前
3
TensorFlow on Yarn：深度学习遇上大数据

## 深度学习 + 大数据 TensorFlow on Yarn ## 李远策 2017年4月17日 ![Image](/uploads/documents/3/c/8/6/3c8605215c91326185ac873f441c0df8/p1_1.jpg) ![Image](/uploads/documents/3/c/8/6/3c8605215c91326185ac873f441c0df8/p1_2 Yarn技术细节揭秘 ➢ 深度学习平台演进及SparkFlow介绍 ## 背景坐标：360-系统部-大数据团队专业：Yarn、Spark、MR、HDFS … 挑战：深度学习空前火爆，各种深度学习框架层出不穷，业务部门拥抱新兴技术。平台怎么应对？机遇：Maybe 深度学习 + 大数据 ![Image](/uploads/documents/3/c/8/6/3c8605215c9132 [Image](/uploads/documents/3/c/8/6/3c8605215c91326185ac873f441c0df8/p28_2.jpg) ## SparkFlow介绍 SparkFlow: 360系统部大数据团队设计的TensorFlow on Spark解决方案 ![Image](/uploads/documents/3/c/8/6/3c8605215c91326185ac873f441c0df8/p29_2

0 码力 | 32 页 | 4.06 MB | 2 年前
3
使用 TiDB 进行实时数据分析-马晓宇

## 使用 TiDB 进行实时数据分析 ## 马晓宇@PingCAP ## 极客邦科技会议推荐2019 ![Image](/uploads/documents/7/3/2/5/732572a49722effd68a1810843a60285/p2_1.jpg) ## QCon ## 全球软件开发大会大会：5月6–8日培训：5月9–10日 ## QCon 北京广州 ## 大会：11月21–22日培训：11月23–24日 ## About Me • 分析产品负责人@PingCAP 曾就职于网易杭研，担任 BigData Infra Team Lead - 主要关注大数据，分布式数据库，SQL on Hadoop 等领域 ## 实时场景技术选型 ## 案例分析我希望做一个实时分析系统，提供运营人员实时查询当前经营数据 - 我需要一个存储系统当做 Data Sink ☐ Binlog 实时同步，存储系统需要能高频更新 TiDB 的协议兼容让同步 MySQL 数据库尤其方便 ☐ 多维度复杂查询，需要索引和完整的 SQL 支持 ☐ 使用 Spark 进行复杂数据分析 ☐ 全局实时汇聚，展现一个统一的逻辑视图 ## 实时数仓 - 易果生鲜 ![Image](/uploads/documents/7/3/2/5/732572a49722effd68a1810843a60285/p34_2

0 码力 | 36 页 | 9.32 MB | 2 年前
3
尚硅谷大数据技术之Hadoop（入门）

# 尚硅谷大数据技术之 Hadoop（入门） (作者：尚硅谷大数据研发部) 版本：V3.3 ## 第 1 章 Hadoop 概述 ### 1.1 Hadoop 是什么 ![Image](/uploads/documents/2/7/e/4/27e4356c1f5e2bb3e1e2aef1145f7159/p1_2.jpg) ## Hadoop是什么尚硅谷 1）Hadoop是一个 4）学习和模仿Google解决这些问题的办法：微型版Nutch。 5）可以说Google是Hadoop的思想之源（Google在大数据方面的三篇论文） GFS --->HDFS Map-Reduce --->MR BigTable --->HBase 让天下没有难学的技术更多 Java - 大数据 - 前端 - python 人工智能资料下载，可百度访问：尚硅谷官网 ## Hadoop发展历史 Apache 基金会。 8）2006年3月份，Map-Reduce和Nutch Distributed File System（NDFS）分别被纳入到Hadoop项目中，Hadoop就此正式诞生，标志着大数据时代来临。 9）名字来源于Doug Cutting儿子的玩具大象 ![Image](/uploads/documents/2/7/e/4/27e4356c1f5e2bb3e1e2aef1145f7159/p2_3

0 码力 | 35 页 | 1.70 MB | 2 年前
3
基于Go的大数据平台-党合萱

## QINIU ## 基于Go的大数据平台七牛云－党合萱 ## 什么是Pandora ![Image](/uploads/documents/7/1/6/b/716b45ba07ae342152eb1f7952269e99/p2_2.jpg) ![Image](/uploads/documents/7/1/6/b/716b45ba07ae342152eb1f7952269e99/p2_3 全套监控工具 ## 为什么选择Golang - 易上手，入门快 • 降低心智负担，集中精力在业务上 • 更简单高效的并发模型 • 丰富的库 • 七牛技术栈 ## Thank you! - 了解更多的大数据玩法，尽在 https://qiniu.github.io/pandora-docs ### 七牛云 QINIU.COM 简单·可信赖

0 码力 | 34 页 | 1.26 MB | 2 年前
3
全球架构师峰会2019北京/大数据/Kubernetes 运行大数据工作负载的探索和实践&mdash

## Kubernetes 运行大数据工作负载的探索和实践 Leibo Wang(wang.platform@Hotmail.com) Huawei CloudBU Principal Engineer ## 架构师成长路径指南 ![Image](/uploads/documents/6/c/d/b/6cdb09eb36e9d82a52a5e2692297a893/p2_2.jpg) 扫码查看

0 码力 | 25 页 | 3.84 MB | 2 年前
3
尚硅谷大数据技术之Hadoop（生产调优手册）

# 尚硅谷大数据技术之 Hadoop（生产调优手 # 册） (作者：尚硅谷大数据研发部) 版本：V3.3 ## 第 1 章 HDFS—核心参数 ### 1.1 NameNode 内存生产配置 ## 1 ）NameNode 内存计算每个文件块大概占用 150byte，一台服务器 128G 内存为例，能存储多少文件块呢？ 128 * 1024 * 1024 * 1024 / 150Byte 3088 NodeManager 2611 NameNode 3271 JobHistoryServer 2744 DataNode 更多 Java – 大数据 – 前端 – python 人工智能资料下载，可百度访问：尚硅谷官网 ## 尚硅谷大数据技术之 Hadoop（生产调优手册） 3579 Jps [atguigu@hadoop102 ~]$ jmap -heap 2611 Heap Configuration: 1.3]$ hadoop fs -mv /user/atguigu/.Trash/Current/user/atguigu/input /user/atguigu/input 更多 Java – 大数据 – 前端 – python 人工智能资料下载，可百度访问：尚硅谷官网 ## 第 2 章 HDFS—集群压测在企业中非常关心每天从 Java 后台拉取过来的数据，需要多久能上传到集群？消费者关心多久能从

0 码力 | 41 页 | 2.32 MB | 2 年前
3
Greenplum 新一代数据管理和数据分析解决方案

## Greenplum ## 新一代数据管理和数据分析解决方案 ## 关于Greenplum公司 ![Image](/uploads/documents/9/8/b/3/98b3d2ca5ab52d44cfe0bd9d7d1dfbef/p2_1.jpg) ## Greenplum ![Image](/uploads/documents/9/8/b/3/98b3d2ca5ab52d44

0 码力 | 45 页 | 2.07 MB | 2 年前
3

共 498 条前往

页

分类

语言

格式

Volcano加速金融行业大数据分析平台云原生化改造的应用实践

大数据集成与Hadoop - IBM

大数据时代的Intel之Hadoop

TensorFlow on Yarn：深度学习遇上大数据

使用 TiDB 进行实时数据分析-马晓宇

尚硅谷大数据技术之Hadoop（入门）

基于Go的大数据平台-党合萱

全球架构师峰会2019北京/大数据/Kubernetes 运行大数据工作负载的探索和实践&mdash

尚硅谷大数据技术之Hadoop（生产调优手册）

Greenplum 新一代数据管理和数据分析解决方案

搜索

分类

语言

格式