索引粒度 - IT文库_程序员IT互联网编程电子书和文档免费下载，助您码力十足！

首页文库资料文章资讯上传文档发布文章登录账户

索引与切片

索引与切片主讲人：龙良曲 Indexing ▪ dim 0 first select first/last N select by steps select by specific index … select by mask ▪ .masked_select() select by flatten index 下一课时 Tensor变换 Thank You.

0 码力 | 10 页 | 883.44 KB | 1 年前
3
DaoCloud Enterprise 5.0 产品介绍

跨集群负载统一管理能力。策略管理支持以命名空间或集群粒度制定网络策略、配额策略、资源限制策略、灾备策略、安全策略。 ➢ 网络策略，支持以命名空间或集群粒度制定网络策略，限定容器组与网络平上网络” 实体“通信规则。 ➢ 配额策略，支持以命名空间或集群粒度设定配额策略，限制集群内的命名空间的资源使用。 ➢ 资源限制策略，支持以命名空间或集群粒度设定资源限制策略，约束对应命名空间内应用对资源的使用。应用对资源的使用。 ➢ 灾备策略，支持以命名空间或集群粒度设定灾备策略，实现以命名空间为维度进行容灾备份，保障集群的安全性。版权 © 2023 DaoCloud 第 10 页 ➢ 安全策略，支持以命名空间或集群粒度设定安全策略，为 Pod 定义不同的隔离级别。全局管理全局管理是以用户为中心的综合性服务板块，包含用户与访问控制、企业空间、审计日志、平台设置等基础服务模块。针对实际应用场景，精选了一些经典的数据服务中间件，通过前后端开发，能够满足各类应用场景的开发和维护。用户可以按需安装/启用以下数据服务中间件，即插即用： ➢ Elasticsearch 搜索服务：目前首选的全文搜索引擎 ➢ Kafka 消息队列：常用于消息传输的数据管道 ➢ MinIO 对象存储：非常热门的轻量对象存储方案 ➢ MySQL 数据库：简单易用、性能更高的开源关系型数据库 ➢

0 码力 | 18 页 | 1.32 MB | 1 年前
3
微博在线机器学习和深度学习实践-黄波

在特定场景下，根据用户行为和特点，向用户推荐感兴趣的对象集 • 模型： • 趋势 • 实时化：在线机器学习 • 深度化：深度学习 • 平台化：机器学习平台 2 推荐 • 实时化 • 特征实时化：更及时反馈用户行为，更细粒度刻画用户 • 模型实时化：根据线上样本实时训练模型，及时地反映对象的线上变化模型推理预测服务实时特征实时数据 3 在线机器学习实时样本实时模型训练实时更新参数 Task 冷备容灾：基于checkpoint机制(Local模式&Remote模式)，实现参数服务的高可用，支持基于模型的异构集群迁移，支持集群扩缩容 • 性能优化 • 通信优化：数据请求(PULL&PUSH)聚合，同模型多矩阵并发，锁粒度优化，性能提升5-10倍 • 缓存优化：使用堆外内存与LRU过期机制，解决GC引起的性能损耗，性能提升3-5倍 • 分区优化：支持多种分区策略（RANGE/HASH/MOD），解决数据倾斜导致的流量热点瓶颈问题，性能提升2-5倍 Wide&Deep；DeepFM 4 深度学习物料粗排特征向量化基于Item2vec的博主召回和微博召回物料精排向量索引 DSSM/FM/FF M生成博主与物料向量，采用向量进行召回特征向量化：Item2vec 向量索引：FM/FFM/ DSSM 模型召回：DIN/DIEN/TDM 模型召回融入用户近期互动行为的深度模型召回单目标：LR->W&D->FM->DeepFM

0 码力 | 36 页 | 16.69 MB | 1 年前
3
Spark 简介以及与 Hadoop 的对比

题时采用的方案。为了保证 RDD 中数据的鲁棒性，RDD 数据集通过所谓的血统关系(Lineage) 记住了它是如何从其它 RDD 中演变过来的。相比其它系统的细颗粒度的内存数据更新级别的备份或者 LOG 机制，RDD 的 Lineage 记录的是粗颗粒度的特定数据转换（Transformation）操作（filter, map, join etc.)行为。当这个 RDD 的部分分区数据丢失时，它可以通过的部分分区数据丢失时，它可以通过 Lineage 获取足够的信息来重新运算和恢复丢失的数据分区。这种粗颗粒的数据模型，限制了 Spark 的运用场合，但同时相比细颗粒度的数据模型，也带来了性能的提升。 RDD 在 Lineage 依赖方面分为两种 Narrow Dependencies 与 Wide Dependencies 用来解决数据容错的高效性。Narrow Dependencies 是指父 RDD 的每一个分区最多被一个子一种模式。用户可以命名，物化，控制中间结果的存储、分区等。可以说编程模型比 Hadoop 更灵活。 3. 由于 RDD 的特性，Spark 不适用那种异步细粒度更新状态的应用，例如 web 服务的存储或者是增量的 web 爬虫和索引。就是对于那种增量修改的应用模型不适合。 2.3 容错性在RDD计算，通过checkpoint进行容错，做checkpoint有两种方式，一个是checkpoint

0 码力 | 3 页 | 172.14 KB | 1 年前
3
Docker 从入门到实践 0.9.0(2017-12-31)

等）。其它的业务服务都放到容器中去运行。服务端防护 216 内核能力机制能力机制（Capability）是 Linux 内核一个强大的特性，可以提供细粒度的权限访问控制。 Linux 内核自 2.2 版本起就支持能力机制，它将权限划分为更加细粒度的操作能力，既可以作用在进程上，也可以作用在文件上。例如，一个 Web 服务进程只需要绑定一个低于 1024 的端口的权限，并不需要 root 权限。那中被称作框架，framework），比如 Hadoop、Spark 等可以进行分布式计算的大数据处理应用；比如 Marathon 可以实现 PaaS，快速部署应用并自动保持运行；比如 ElasticSearch 可以索引海量数据，提供灵活的整合和查询能力…… 大部分时候，用户只需要跟这些框架打交道即可，完全无需关心底下的资源调度情况，因为 Mesos 已经自动帮你实现了。这大大方便了上层应用的开发和运维。当然，用户也可以基于算法基本过程调度的基本思路很简单，master 先全局调度一大块资源给某个 framework，framework 自己再实现内部的细粒度调度，决定哪个任务用多少资源。两层调度简化了 Mesos master 自身的调度过程，通过将复杂的细粒度调度交由 framework 实现，避免了 Mesos master 成为性能瓶颈。调度机制支持插件机制来实现不同的策略。默认是 Dominant

0 码力 | 370 页 | 6.73 MB | 1 年前
3
高性能 Kubernetes 元数据存储 KubeBrain 的设计思路和落地效果-许辰

存储层 - 数据格式 etcd KubeBrain 能否使用类似的格式？ 1. 否 2. 底层存储引擎全局有序，有写热点那问题 Etcd 以 Revision 为 Key 内存 Btree 索引维护 key 和 revision 的映射关系存储层 - 数据格式 KubeBrain 逻辑层逻辑层 – 写逻辑层 – Watch（1） Watch 机制本质上是一个消息队列系统 1 落地效果 • 未来演进性能优化写优化 - 1 降低锁粒度存储引擎替换表锁 -> 行锁，增大了写的并发写优化 - 2 单点写 -> 多点写 multi raft range 分片，增大写并发 Brain 层无磁盘 io，只有网络 io 写优化 - 3 事务优化精心设计 key 格式一个 k8s 对象的索引和数据在同一分区内跨分区分布式事务 -> 分区内单机事务

0 码力 | 60 页 | 8.02 MB | 1 年前
3
大数据集成与Hadoop - IBM

突出。很多业界传言称，任何不可扩展的抽取、转换和加载 (ETL) 工具搭配Hadoop后都会得到高性能、高度可扩展的数据集成平台。事实上，MapReduce的设计宗旨并非是对海量数据进行高性能处理，而是为了实现细粒度的容错。这种差异可能会使整体性能和有效性降低一个数量级乃至更多。 Hadoop Yet Another Resource Negotiator(YARN) 纳入了MapReduce的资源管理功能，并将它们内置其数据库在执行某些流程时速度较慢优点 • 利用MapReduce MPP引擎 • 利用商业硬件和存储 • 释放数据库服务器上的容量 • 支持处理非结构化数据 • 利用Hadoop功能保留数据（如更新和编写索引） • 实现低成本历史归档数据缺点 • 可能需要复杂的编程工作 • MapReduce通常比并行数据库或可扩展ETL工具速度更慢 • 风险：Hadoop目前仍然是一项新兴技术 IBM软件复杂的数据集成逻辑，或者限制流程在MapReduce中运行相对简单的转换。 • MapReduce在处理大型数据集成工作负载方面具有多种已知的性能限制，因为其目的在于牺牲高性能处理来支持细粒度容错。最佳实践4：在企业间实施世界级数据治理绝大部分大型企业发现，在企业中建立数据治理机制即便是可行的，也会十分困难。造成这种局面的原因很多。例如，企业用户使用自己熟悉的业务术语来管理数据。时至今日，仍未

0 码力 | 16 页 | 1.23 MB | 1 年前
3
OpenShift Container Platform 4.14 镜像

Kubernetes 对象等其他资源提供了通用触发器。您可以为定期重新导入标记标签。如果源镜像已更改，则这个更改会被发现并反应在镜像流中。取决于构建或部署的具体配置，这可能会触发构建和/或部署流程。您可使用细粒度访问控制来共享镜像，快速向整个团队分发镜像。如果源更改，imagestreamtag 仍将指向已知良好的镜像版本，以确保您的应用程序不会意外中断。您可以通过镜像流对象的权限配置安全性，以了解谁可以查看和使用镜像。 error: unable to retrieve source image。当镜像索引包括对镜像 registry 中不再存在的镜像的引用时，会发生此错误。镜像索引可能会保留旧的引用，以便为运行这些镜像的用户在升级图表中显示新的升级路径。作为临时解决方案，您可以使用 --skip-missing 选项绕过错误并继续下载镜像索引。如需更多信息，请参阅 Service Mesh Operator 镜像失败。 Kubernetes 对象等其他资源提供了通用触发器。您可以为定期重新导入标记标签。如果源镜像已更改，则这个更改会被发现并反应在镜像流中。取决于构建或部署的具体配置，这可能会触发构建和/或部署流程。您可使用细粒度访问控制来共享镜像，快速向整个团队分发镜像。如果源更改，imagestreamtag 仍将指向已知良好的镜像版本，以确保您的应用程序不会意外中断。您可以通过镜像流对象的权限配置安全性，以了解谁可以查看和使用镜像。

0 码力 | 118 页 | 1.13 MB | 1 年前
3
Docker 从入门到实践 0.4

Docker服务端的防护 Docker —— 从入门到实践 82 服务端防护能力机制（Capability）是 Linux 内核一个强大的特性，可以提供细粒度的权限访问控制。 Linux 内核自 2.2 版本起就支持能力机制，它将权限划分为更加细粒度的操作能力，既可以作用在进程上，也可以作用在文件上。例如，一个 Web 服务进程只需要绑定一个低于 1024 的端口的权限，并不需要 root 权限。那么它只需要被该键值的超时时间（单位为秒），不配置（默认为 0）则永不超时 --swap-with-value value 若该键现在的值是 value，则进行设置操作 --swap-with-index '0' 若该键现在的索引值是指定索引，则进行设置操作获取指定键的值。例如 $ etcdctl set testkey hello hello $ etcdctl update testkey world world 当键不存在时，则会报错。例如

0 码力 | 179 页 | 2.27 MB | 1 年前
3
25-云原生应用可观测性实践-向阳

Exemplars Tag Tag, Exemplars Tag Tag, TraceID Tag, TraceID “Index-free” “Index-free” “Cardinality-free” 稀疏索引、冷热分离 simplify the growing complexity © 2021, YUNSHAN Networks Technology Co., Ltd. All rights reserved 2021, YUNSHAN Networks Technology Co., Ltd. All rights reserved. 效果3：覆盖网络、系统、应用的黄金指标数据 DeepFlow：细至API的粒度、高至1秒的精度，网络+系统+应用黄金指标数据，零采样的流量日志数据帮助运维团队制定精细的SLO，保障服务质量，提升业务价值 ��

0 码力 | 39 页 | 8.44 MB | 6 月前
3

共 116 条前往

页

分类

语言

格式

索引与切片

DaoCloud Enterprise 5.0 产品介绍

微博在线机器学习和深度学习实践-黄波

Spark 简介以及与 Hadoop 的对比

Docker 从入门到实践 0.9.0(2017-12-31)

高性能 Kubernetes 元数据存储 KubeBrain 的设计思路和落地效果-许辰

大数据集成与Hadoop - IBM

OpenShift Container Platform 4.14 镜像

Docker 从入门到实践 0.4

25-云原生应用可观测性实践-向阳