大数据集成 - IT文库_程序员IT互联网编程电子书和文档免费下载，助您码力十足！

首页文库资料文章资讯上传文档发布文章登录账户

大数据集成与Hadoop - IBM

大数据集成与 Hadoop 可最大限度降低Hadoop计划风险并提高ROI的最佳实践 ![Image](/uploads/documents/6/0/d/1/60d1a1fc09146b40702b2ad5e7fd30d7/p1_1.jpg) IBM $ ^{®} $ ## 简介 Apache Hadoop技术通过支持新的流程和架构，不断改进大数据措施的经济性和活力，这样不仅有助于削减源软件项目，支持在多个商业服务器群集间分散处理和存储大型数据集，并可根据需求变化从单一服务器扩展到数以千计的服务器。主要的Hadoop组件包括Hadoop Distributed File System（用于存储大型文件）和Hadoop分布式并行处理框架（称为MapReduce）。但是，Hadoop基础架构本身并没有提供完整的大数据集成解决方案，摆在人们面前的既有挑战，也有机遇，只有处理好这些。 ## 大数据集成对于Hadoop措施的重要性 Hadoop的迅速崛起推动企业在如何抽取、管理、转换、存储和分析大数据方面实现了范式转变。无论是要更深入的分析，还是希望获得更出色的洞察、新产品、新服务以及更高的服务水平，都可以通过这项技术一一实现，从而大幅降低成本并创造新的收入。依靠收集、移动、转换、清除、集成、治理、探索以及分析多种不同来源的大量不同类型的数据来实现大数据与Hadoop

0 码力 | 16 页 | 1.23 MB | 2 年前
3
通过Oracle 并行处理集成 Hadoop 数据

Oracle 并行处理集成 Hadoop 数据 ## 引言许多垂直行业都在关注文件系统中庞大的数据。这些数据中通常包含大量无关的明细信息，以及部分可用于趋势分析或丰富其他数据的精华信息。尽管这些数据存储在数据库之外，但一些客户仍然希望将其与数据库中的数据整合在一起以提取对业务用户有价值的信息。本文详细介绍了如何从 Oracle 数据库访问存储在 Hadoop 集群里的数据。请注意，本文选择了实现。 ## 外部 Hadoop 数据的访问方法要从 Oracle 数据库里访问某个文件系统中的外部文件或外部数据，最简单的方法莫过于使用外部表。请参阅这里了解外部表。外部表以表的形式展示存储在文件系统中的数据，并且可在 SQL 查询中完全透明地使用。因此，可以考虑用外部表从 Oracle 数据库中直接访问 HDFS（Hadoop 文件系统）中存储的数据。遗憾的是，常规的操作系统无法调用外部表驱动直接访问存储，并将其作为常规文件系统处理。通过使用一个此类驱动程序，并在数据库实例上挂载 HDFS（如果是 RAC 数据库，则在其所有实例上挂载 HDFS），即可使用外部表基础架构轻松访问 HDFS 文件。 ![Image](/uploads/documents/f/8/5/f/f85f9a4a775705a2785c1154058d889e/p3_1.jpg) 图 1. 用数据库内置的 MapReduce 通过外部表进行访问

0 码力 | 21 页 | 1.03 MB | 2 年前
3
兼容龙蜥的云原生大模型数据计算系统：πDataCS

## 兼容龙蜥的云原生大模型数据计算系统 ## --πDataCS简介 ## 吴疆拓数派产品市场总监 ![Image](/uploads/documents/7/b/a/7/7ba7d687363b394535b9914cff1a0499/p2_2.jpg) ## 吴疆拓数派(Openpie)产品市场总监深耕云计算和数据库行业十余年毕业于清华大学计算机系，先后在IBM，EM C，Pivotal，VMWare参与多个云平台和数据库项目 01 拓数派简介 02 πDataCS简介 03 πDataCS与龙晰 ### 01. 拓数派简介 # 全球数据计算系统引领者杭州拓数派科技发展有限公司（又称"OpenPie"）是立足于国内,基础数据计算领域的高科技创新机构。作为国内云上数据库和数据计算领域的引领者，拓数派以“Data Computing for for New Discoveries”「数据计算，只为新发现」为使命，致力于在数字原生时代,运用突破性计算理论、独创的云原生数据库旗舰产品以及之上的算法和数学模型,建立下一代云原生数据平台的前沿标准，驱动企业实现从"软件公司"到"数据公司"再到"数学公司"的持续进阶。拓数派旗下大模型数据计算系统（PieDataComputing System

0 码力 | 29 页 | 7.46 MB | 2 年前
3
大模型时代下向量数据库的设计与应用

## 大模型时代下向量数据库的设计与应用 msup $ ^{®} $ | ARCHNOTES 架構 ## 个人简介 ![Image](/uploads/documents/7/9/1/2/7912e0d0aa09fcfba65b32c964ce9cad/p2_1.jpg) 邱培峰拓数派向量数据库负责人目前在拓数派负责向量数据库PieCloudVector产品，聚焦于大模型与大数据领域。拥有多年数据库内核研发和配套解决方案架构经验，在加入拓数派前曾就职于开源大数据平台Greenplum团队，担任外部数据源访问框架，对象存储访问扩展，ETL工具等产品模块的研发，并曾参与PostgreSQL多个版本的代码贡献，拥有丰富的存储模块核心开发和性能优化等实践经验。 ## 拓数派：大模型数据计算系统先行者 - 拓数派（OpenPie）是立足于国内的基础数据计算领域高科技创新机构；拥有强大的数据库内核研发团队、数据科学团队和数字化转型团队； - 国内虚拟数仓和eMPP技术提出者，不断在数据计算引擎方向进行创新，全面拥抱AI技术趋势。 # 虚拟数仓拓数派/数仓虚拟化 PieCloudDB产品技术数企虚拟化由拓数派（杭州拓数派科技发展有限公司，又称“OpenPie”）于2023年3月正式提出。数仓虚拟化 $ ^{[1]} $ 可将物理数仓整合到云原生数据计算平台

0 码力 | 28 页 | 1.69 MB | 2 年前
3
Go持续集成

## ZPLAY 掌游天下崔英杰 ## Go的持续集成实践分享 ## 什么是持续集成持续集成是一种软件开发实践。在持续集成中，团队成员频繁集成他们的工作成果，一般每人每天至少集成一次，也可以多次。每次集成会经过自动构建（包括自动测试）的检验，以尽快发现集成错误。 ## — Martin Fowler ## 持续集成的好处 1. 快速发现修复错误 2. 降低风险 3. 持续发布 ts/3/8/9/4/3894e5dd4516ea856c0648981478e041/p4_1.jpg) 简单激情速度快聚焦极致可信赖 ## 分享惨案经历 1. 无单元测试，手工集成测试 2. 测试用例300多个，需要一个星期 3. 面对业务压力，规则形同虚设 4. 深夜事故简单激情速度快聚焦极致可信赖 ## 原有开发体系的问题 1. 迭代周期漫长 2 极致可信赖 ![Image](/uploads/documents/3/8/9/4/3894e5dd4516ea856c0648981478e041/p11_1.jpg) ## 持续 1. 持续集成 Continuous Integration(CI) 2. 持续发布 Continuous Delivery 3. 持续部署 Continuous Deployment ## Continuous

0 码力 | 39 页 | 10.74 MB | 2 年前
3
BRPC与UCX集成指南

Failed()) { g_latency_recorder << cntl.latency_us(); } ## BRPC EndPoint EndPoint是一个代表通讯地址的数据结构，是一个C++类。字段： ip，port .在Socket创建时需要提供EndPoint .Socket::Connect时需要Remote EndPoint .Accept的Socket可以获得Remote Accept的Socket可以获得Remote EndPoint ## BRPC Socket对象 .brpc最终的网络通讯都集中在socket对象里面 ·读socket通过EventDispatcher触发 ·上层发送网络数据通过写socket完成，不能立刻完成的，则去启动后台bthread去完成。 ## BRPC SocketMap ·根据EndPoint作为一个map的Key，Value是Socket对象 .So ## UCX .NVIDIA Mellanox 开源项目 ·支持RDMA，TCP，Shared memory等 ·能透明支持多个链路传输，例如多网卡bond ·编译成.so或lib的方式，可以集成到应用程序里 ·有完善的配置功能，ucx_info可以dump配置信息 ·有性能测试工具 ·比较详细的文档 ## Architecture Applications MPICH, Open-MPI

0 码力 | 66 页 | 16.29 MB | 1 年前
3
MATLAB与Spark/Hadoop相集成：实现大数据的处理和价值挖

MATLAB与Spark/Hadoop相集成：实现大数据的处理和价值挖马文辉 ![Image](/uploads/documents/7/4/4/3/7443ec4ad6d06d59ed1d816fa7428131/p1_2.jpg) ## 内容 ## 大数据及其带来的挑战 ## ■ MATLAB大数据处理 tall数组并行与分布式计算 ## ■ MATLAB与Spark/Hadoop集成 MATLA ## 应用演示－汽车传感器数据分析 ## 大数据概述大数据的"4V"特征： - Volumes - 数据规模，数据规模巨大互联网、社交网络的普及，全社会的数字化转型，数据规模向PB级发展 Variety - 数据种类，数据种类繁多结构化数据，半结构化数据，非结构化数据 Value - 数据价值，数据价值密度低价值密度的高低与数据总量的大小成反比 - Velocity Velocity - 数据处理速度，数据处理速度需要快速数据处理速度是决定大数据应用的关键 ## 大数据带来的挑战传统的工具和方法不能有效工作 — 访问和处理数据变得困难； - 需要学习使用新的工具和新的编程方式； - 不得不重写算法以应对数据规模的增大；现有处理或计算方法下的结果质量受到影响 - 被迫只能处理一部分数据（数据子集）； - 采用新的工具或重写算法会对现有生产力产生影响；

0 码力 | 17 页 | 1.64 MB | 2 年前
3
阿里云容器服务大促备战

## 全民双十一基于容器服务的大促备战 ![Image](/uploads/documents/4/7/3/a/473a77ef3e79496ce57ea869b48b9312/p1_1.jpg) 李斌阿里云容器服务 ![Image](/uploads/documents/4/7/3/a/473a77ef3e79496ce57ea869b48b9312/p1_2.jpg) ## 我是谁安全加固离线计算开发运维一体化极致性能故障演练大数据边缘计算全链路压测全站上云高可用人工智能 [Image](/uploads/documents/4/7/3/a/473a77ef3e79496ce57ea869b48b9312/p9_11.jpg) 云日志限流，熔断，降级，系统保护日志类数据采集、消费、投递及查询分析功能挂卷 ![Image](/uploads/documents/4/7/3/a/473a77ef3e79496ce57ea869b48b9312/p9_12

0 码力 | 17 页 | 17.74 MB | 1 年前
3
开源中国 2023 大模型(LLM)技术报告

李涛，APUS董事长兼CEO 2023年12月发布设计：张琪 ## LLM 技术报告大语言模型（LLM）技术作为人工智能领域的一项重要创新在今年引起了广泛的关注。 LLM 是利用深度学习和大数据训练的人工智能系统，专门设计来理解、生成和回应自然语言。这些模型通过分析大量的文本数据来学习语言的结构和用法，从而能够执行各种语言相关任务。以 GPT 系列为代表，LLM 以其在自然语言处 ## LLM Tech Map ## 大模型 ➢ 备案上线的中国大模型知名大模型知名大模型应用 LLMOps 大模型聚合平台 ## 工具和平台 ➢ 开发工具插件、IDE、终端代码生成工具 ## AI 编程 ## 算力 ## 基础设施向量数据库数据库向量支持 ➢ 大模型框架、微调 (Fine Tuning) ➢ 大模型训练平台与工具 ## LLM Agent Agent ## 编程语言 ## LLM Tech Map 大模型技术图谱 ![Image](/uploads/documents/f/4/8/5/f485f799dcd761b82375003f4bef3b91/p3_2.jpg) ## 基础设施 AquilaDB Annoy marqo MongoDB Faiss Weaviate Qdrant ScanN ROCKSET

0 码力 | 32 页 | 13.09 MB | 2 年前
3
AI大模型千问 qwen 中文文档

information. #### 1.4.4 PPL 评测 llama.cpp 为我们提供了评估 GGUF 模型 PPL 性能的方法。为了实现这一点，你需要准备一个数据集，比如 “wiki 测试”。这里我们展示了一个运行测试的例子。第一步，下载数据集： wget https://s3.amazonaws.com/research.metamind.io/wikitext/wikitext-2-raw-v1 pip install -e . 假设你已经基于 Qwen1.5-7B 模型进行了微调，并将其命名为 Qwen1.5-7B-finetuned，且使用的是你自己的数据集，比如 Alpaca。若要构建你自己的 AWQ 量化模型，你需要使用训练数据进行校准。以下，我们将为你提供一个简单的演示示例以便运行： from awq import AutoAWQForCausalLM from transformers →safetensors=True) 接下来，您需要准备数据以进行校准。您需要做的就是将样本放入一个列表中，其中每个样本都是一段文本。由于我们直接使用微调数据来进行校准，所以我们首先使用 ChatML 模板对其进行格式化。例如： data = [] for msg in messages: msg

0 码力 | 56 页 | 835.78 KB | 2 年前
3

共 1000 条前往

页

搜索

分类

语言

格式