這些年,我們一起追的Hadoop等雲端平台的運 用,以及 Android、Windows Phone 等 Smart Phone 的應用程式開發。 PS. 除了我的照片之外,投影片裡頭 所有的圖片都來自於 Google Search,版權歸原來各網站與企業所 有,謝謝。 Bio 2 / 74 Agenda 0. 前情提要 1. 進擊的 Hadoop 2. Hadoop 家族 3. Hadoop 戰隊 4. Hadoop 74 由創建 Lucene 與 Nutch 的 Doug Cutting 主導開發 Lucene 是個全文檢索的程式 庫,Nutch 是個搜尋引擎 依循著 Google 2003/2004 年發表的論文來開發 2006 年從 Nutch 獨立出來, 稱為 Hadoop Hadoop 是 Doug 兒子黃色大象 玩偶的名稱 2008-01 Apache 的 Top- Level Project 2009-09 Distribution for Hadoop (CDH)。 42 / 74 Hortonworks Data Platform Hortonworks 是主導 Hadoop Windows 版 Porting 與 YARN 開發的重要廠商。 2013 年拿到 50M 的 Funding,2014 年又拿到 100M。 43 / 74 Microsoft HDInsight HDInsight0 码力 | 74 页 | 45.76 MB | 1 年前3
大数据集成与Hadoop - IBM产品路线图的一部分。 开始集成之旅以前,请务必了解MapReduce的性能限 制,以及数据集成供应商在解决这类问题方面的差异。请在 “Themis: An I/O-Efficient MapReduce”一文中了 解更多信息,文中对该主题进行了详细讨论:http://bit. ly/1v2UXAT 4 大数据集成与 Hadoop 源数据 转换 净化 丰富 EDW 连续 单处理器 SMP系统 MapReduce具有很大的性能局限性 • 通常数据按随机顺序方式存储到HDFS中 所有这些因素表明,在Hadoop环境中执行大数据集成需要 以下三个组件来实现高性能的工作负载处理: 1)Hadoop发行版 2)非共享大规模可扩展ETL平台(如IBM InfoSphere Information Server提供的平台) 3)MapReduce ETL pushdown功能 需要同时具备全部三大组件,因为如果不进行手动编码, 预置的数据集成解决方案可简化使用逻辑对象创建数据集成作业的过程。 预置的数据集成解决方案有助于映射和管理 企业间的数据治理需求。 并行读取 HDFS文件 转换/ 重建数据 联接两个 HDFS文件 创建新的HDFS 文 件 , 实 现 完 全并行化 图4. 数据集成软件提供多个GUI来支持各种活动。这些GUI取代了复杂的手动编码,为企业节约了大量的开发成本。 使用手动编码方式进 行开发 • 需要 30 人日编写0 码力 | 16 页 | 1.23 MB | 1 年前3
Hadoop 迁移到阿里云MaxCompute 技术方案GreenPlum/Impala/Presto/Hive NoSQL:Hbase 数据仓库:MaxCompute/ Hologres/分析 型数据库 NoSQL:云数据库 Hbase 版/表格存储 分析与报表 BI 工具 Notebook QuickBI PAI Notebook 组件 EMR Notebook 组件 数据作业编排 Oozie/Azkaban/Airflow MaxCompute 解决方案 32 ⚫ 解压下载的 aliyun-maxcompute-data-collectors-odps-datacarrier-develop.zip 文 件 ⚫ 在控制台运行 odps-data-carrier 目录下的 build.py 文件,编译生成 MMA 工具 ⚫ 编译环境要求:JDK 1.8+、 Apache Maven 30 码力 | 59 页 | 4.33 MB | 1 年前3
通过Oracle 并行处理集成 Hadoop 数据本文中讨论的方法允许客户将 Hadoop 中的数据直接传递到 Oracle 查询中。这避免了将数据 获取到本地文件系统并物化到 Oracle 表中,之后才能在 SQL 查询中访问这些数据的过程。 甲骨文(中国)软件系统有限公司 北京远洋光华中心办公室 地址:北京市朝阳区景华南街5号远洋光华中心C座21层 邮编:100020 电话:(86.10) 6535-6688 传真:(86 深圳分公司 地址:深圳市南山区高新南一道飞亚达大厦16层 邮编:518057 电话:(86.755) 8396-5000 传真:(86.755) 8601-3837 甲骨文软件研究开发中心(北京)有限公司 地址:北京市海淀区中关村软件园孵化器2号楼A座一层 邮编:100094 电话:(86.10) 8278-6000 传真:(86.10) 8282-6455 地址:深圳市南山区高新南一道德赛科技大厦8层0801-0803单元 邮编:518057 电话:(86.755) 8660-7100 传真:(86.755) 2167-1299 甲骨文亚洲研发中心-上海 地址:上海市杨浦区淞沪路290号创智天地10号楼512-516单元 邮编:200433 电话:(86.21) 6095-2500 传真:(86.21) 6095-25550 码力 | 21 页 | 1.03 MB | 1 年前3
大数据时代的Intel之HadoopHadoop商业发行版 • 对象存储技术 Intel的角色 • 面向大数据应用,在计算、存储和网络方面提供更快更为 高效的架构级别的优化方案 • 持续投入大数据应用开发,促迚软件系统和服务的丌断优 化和创新 • 推迚终端设备和传感器的智能化,构建亏联、可管理的和 安全的分布式架构 软硬结合 Intel Hadoop商业发行版 优化的大数据处理软件栈 优化的大数据处理软件栈 稳定的企业级hadoop发行版 利用硬件新技术迚行优化 HBase改迚和创新,为Hadoop提供实时数据处理能力 针对行业的功能增强,应对丌同行业的大数据挑戓 Hive 0.9.0 交互式数据仓库 Sqoop 1.4.1 关系数据ETL工具 Flume 1.1.0 日志收集工具 Intel Hadoop Manager 2.2 安装、部署、配置、监控、告警和访问控制 分布式聚合计算,避免大数据传输 英特尔Hadoop发行版 – 主要特色 经实际验证的企业级 Hadoop 发行版 •全面测试的企业级发行版,保证长期稳定运行,集成最新开源的和自行开发的补丁,用户可以及时修正漏洞保证各个部件乊间的一致性,使应用顺滑运行 实时数据处理的分布式大数据应用平台 •通过对 HBase 迚行改迚和创新,英特尔 Hadoop 发行版提供实时数据处理功能。为企业对数据的实时监控和即时处理提供有效保障0 码力 | 36 页 | 2.50 MB | 1 年前3
尚硅谷大数据技术之Hadoop(入门)2)2001年年底Lucene成为Apache基金会的一个子项目。 3)对于海量数据的场景,Lucene框架面对与Google同样的困难,存储海量数据困难,检索海量速度慢。 4)学习和模仿Google解决这些问题的办法 :微型版Nutch。 5)可以说Google是Hadoop的思想之源(Google在大数据方面的三篇论文) GFS --->HDFS Map-Reduce --->MR BigTable --->HBase 也加盟 Cloudera 公司。Cloudera 产品主 要为 CDH,Cloudera Manager,Cloudera Support (3)CDH 是 Cloudera 的 Hadoop 发行版,完全开源,比 Apache Hadoop 在兼容性,安 全性,稳定性上有所增强。Cloudera 的标价为每年每个节点 10000 美元。 (4)Cloudera Manager 是集群的软件 repository 中是找不到的) [root@hadoop100 ~]# yum install -y epel-release (3)注意:如果 Linux 安装的是最小系统版,还需要安装如下工具;如果安装的是 Linux 桌面标准版,不需要执行如下操作 ➢ net-tool:工具包集合,包含 ifconfig 等命令 [root@hadoop100 ~]# yum install -y net-tools0 码力 | 35 页 | 1.70 MB | 1 年前3
尚硅谷大数据技术之Hadoop(生产调优手册)2)解决存储小文件办法之一 HDFS 存档文件或 HAR 文件,是一个更高效的文件存档工具,它将文件存入 HDFS 块, 在减少 NameNode 内存使用的同时,允许对文件进行透明的访问。具体说来,HDFS 存档文 件对内还是一个一个独立文件,对 NameNode 而言却是一个整体,减少了 NameNode 的内 存。 尚硅谷大数据技术之 Hadoop(生产调优手册)0 码力 | 41 页 | 2.32 MB | 1 年前3
Hadoop 概述Expert,领域专家)。 这些 Hadoop 的连接器将有可能适用于环境中系统的最新版本。 如果想与 Hadoop 一起使用的系统不是应用程序或数据库引擎的最 新版本,那么你需要将升级的因素考虑在内,以便使用增强版完整 功能。我们建议全面检查你的系统需求,以避免沮丧和失望。Hadoop 生态系统会将所有新技术带入到你的系统中。 1.4.1 Hadoop 生态系统 Apache 将他们的集成称作生态系统。字典中将生态系统定义0 码力 | 17 页 | 583.90 KB | 1 年前3
共 8 条
- 1













