阿里巴巴超大规模神龙裸金属 Kubernetes 集群运维实践
(广侯) 阿里巴巴 云原生应用平台 技术专家 阿里巴巴超大规模神龙裸金属 Kubernetes 集群运维实践 关注“阿里巴巴云原生”公众号 回复 1124 获取 PPT自我介绍 •嵌入式、微服务框架 •2017 年加入阿里巴巴,负责阿 里集团数十万集群节点规模化运 维管理系统的研发工作 •2019 年参与集团全面上云项目 并经历了整体架构的云原生升级 演进,稳定支撑双11峰值流量分享内容 RedeployInstance (doc) 本盘数据不能 迁移运维实践 - 宕机率分析 • 宕机关联度分析 • 宕机趋势 • 机房、单元、分组 • 机型、硬件特征 • 内核版本、hotfix 一致率 • 宕机根因分析诊断 • 硬件故障、运维事件 • vmcore 归类分析 • 内核错误日志分析Machine Operator • 全生命周期 • 导入 • 下线 • 维护 •0 码力 | 21 页 | 7.81 MB | 5 月前3Rust 程序设计语言 简体中文版 1.85.0
st 团队希望使系统概念能为更多人所易于理解,特别是编程新手。 公司 数百家大小规模的公司在生产环境中使用 Rust 完成各种任务,包括命令行工具、Web 服务、 DevOps 工具、嵌入式设备、音视频分析与转码、加密货币、生物信息学、搜索引擎、物联网 (IOT)程序、机器学习,甚至是 Firefox 浏览器的重要部分。 开源开发者 Rust 适合那些希望构建 Rust 编程语言、社区、开发工具和库的开发者。我们非常欢迎你为 道它像变量一样,默认是不可变的。因 此,需要写成 &mut guess 来使其可变,而不是 &guess。(第四章会更全面地讲解引用。) 使用 Result 类型来处理潜在的错误 我们还没有完全分析完这行代码。虽然我们已经讲到了第三行代码,但要注意:它仍是逻辑行 (虽然换行了但仍是语句)的一部分。后一部分是这个方法(method): .expect("Failed to read m,而且这就是当 m.call() 运行时 call 方 法中的 self 的值。 让我们看看标准库中的另一个非常常见且实用的枚举:Option。 Option 枚举及其相对于空值的优势 这一部分会分析一个 Option 的案例,Option 是标准库定义的另一个枚举。Option 类型应用广 泛因为它编码了一个非常普遍的场景,即一个值要么有值要么没值。 例如,如果请求一个非空列表的第一项,会得0 码力 | 562 页 | 3.23 MB | 10 天前3【周鸿祎清华演讲】DeepSeek给我们带来的创业机会-360周鸿祎-202502
音频生成 A I 数字人 生物制药 新材料研究 脑机接口 基础科学 能源自由 宇宙探索 生命科学 科学 能力 6 AI Fo r Science 知识管理( 内部知识管理、 外部情报分析、 大数据分析、 工作流知识) 专家经验模型( 专业模型训练) 业务流程自动化( A g e n t框架) 组织协同( 工作流) 人机交互 赋能个人和 企业员工 生产力提升 多模态 能力 3 图片理解和处理 • 智能化能源调度 • 料场智能调度 • 燃料水分视觉分析 • 多角度废钢图像 采集 • 废钢智能定级 • 杂质识别 & 扣杂 • 废钢槽编号识别 • 多角度废钢图像采集 • 废钢智能定级 • 杂质识别 & 扣杂 • 废钢槽编号识别 • 皮带胶结头异常检测 • 皮带跑偏检测 • 烧结皮带跑偏检测 • 皮带托辊异常检测 • 分析监测烧结工序物料 成分 • 烧结皮带智能监测 • 烧结设备运行工况检测 建立设备健康模型 • 焦化皮带智能监测 • 生产现场动作远程控制 • 焦化现场生产安全态势 感知与预警 • 部署打滑预测分析 • 能源计划 • 炼焦煤分级调湿工艺稳 定协调控制 • 焦化皮带智能监测 • 生产现场动作远程控制 • 焦化现场生产安全态势 感知与预警 • 部署打滑预测分析 • 能源计划 • 炼焦煤分级调湿工艺稳 定协调控制 • 危险物识别 • 人员安全监测 • 高炉料面温度检测 •0 码力 | 76 页 | 5.02 MB | 5 月前324-云原生中间件之道-高磊
中就可以完成安全扫描,不会像DAST一样导致业 务报警进而干扰测试,同时由于污点跟踪测试模 式,IAST可以像SAST一样精准的发现问题点 SCA(软件成分分析) 有大量的重复组件或者三方库的依赖,导致安全漏洞被传递或者扩散, SCA就是解决此类问题的办法,通过自动化分析组件版本并与漏洞库相 比较,快速发现问题组件,借助积累的供应链资产,可以在快速定位的 同时,推动业务快速修复。 安全左移的一种,在上线前发现依赖组件的安全 前台类目 商品查询 BFF 商品数据库 文件存储 logging MQ 交易数据库 大数据 营销分析 业务赋能 典型微服务应用 云原生应用 下单服务 交易支付 支付网关 锁定库存 库存数据库 前台类目 商品查询 BFF 商品数据库 文件存储 logging MQ 交易数据库 大数据 营销分析 云原生PaaS平台 • 四大件在云原生场景下带来什么客户 价值? • 四大件在云原生场景下技术架构有什 本 等等都需要同时满足(和传统CAP相悖) • 接入层需要能够根据规则的路由,以及兼容各类协议接 口以及数据模型,并能根据应用的规模来自动拓展。 • 实现HTAP(OLTP+OLAP),将在线事务|分析混合计算模型 基础上,实现多模数据模型,使得集成成本经一步降低。 • 计算层,与存储彻底剥离开来,实际是微服务化架构, 可以自由伸缩,并自动故障转移,采用读写分离,适应 高负荷的场景。另外也需要进一步将计算和内存分离出0 码力 | 22 页 | 4.39 MB | 6 月前3Service Mesh结合容器云平台的思考和实践
RETURNPilot-Agent主要功能分析-生产Envoy配置 envoy的配置主要在pilot-agent的init方法与proxy命令处理流程的前半部分生成。其中init方法为pilot-agent二进制的命令行配置大 量的flag与flag默认值,而proxy命令处理流程的前半部分负责将这些flag组装成为envoy的配置ProxyConfig对象。下面分析几个相对重 要的配置。 role pilot-agent的registry变量里,在init函数中初始化为默认值Kubernetes。当前只处理以下三种情况: • Kubernetes • Consul • OtherPilot-Agent主要功能分析-生产Envoy配置 registry值 role.IPAddress role.ID role.Domain Kubernetes 环境变量INSTANCE_IP 环境变量POD_NAME.环境变量POD 6."CloudFoundry" CloudFoundryRegistry is a service registry backed by Cloud Foundry.Pilot-Agent主要功能分析-生产Envoy配置 agent.waitForExit会调用envoy.Run方法启动envoy进程,为此需要获取envoy二进制所在文件系统路径和命令行 参数两部分信息: 1. envoy二进制所在文件系统路径:evony0 码力 | 28 页 | 3.09 MB | 5 月前3人工智能安全治理框架 1.0
风险及时采取措施。 人工智能安全治理框架 (V1.0)- 2 - 人工智能安全治理框架 1.2 风险导向、敏捷治理。密切跟踪人工智能研发及应用趋势,从人工 智能技术自身、人工智能应用两方面分析梳理安全风险,提出针对性防范应对 措施。关注安全风险发展变化,快速动态精准调整治理措施,持续优化治理机 制和方式,对确需政府监管事项及时予以响应。 1.3 技管结合、协同应对。面向人工智能研发应用全过程,综合运用技术、 管理两方面提出防范应对措施。同时,目前人工智能研发应用仍在快速发展, 安全风险的表现形式、影响程度、认识感知亦随之变化,防范应对措施也将相 应动态调整更新,需要各方共同对治理框架持续优化完善。 2.1 安全风险方面。通过分析人工智能技术特性,以及在不同行业领域 应用场景,梳理人工智能技术本身,及其在应用过程中面临的各种安全风险 隐患。 2.2 技术应对措施方面。针对模型算法、训练数据、算力设施、产品服务、 应用 武器,通过自 动挖掘与利用漏洞等方式,对广泛潜在目标发起网络攻击。 3.2.3 认知域安全风险 (a)加剧 “信息茧房” 效应风险。人工智能将广泛应用于定制化的信息 服务,收集用户信息,分析用户类型、需求、意图、喜好、行为习惯,甚至特 定时间段公众主流意识,进而向用户推送程式化、定制化信息及服务,“信息茧房” 效应进一步加剧。 (b)用于开展认知战的风险。人工智能可被利用于制作传播虚假新闻、-0 码力 | 20 页 | 3.79 MB | 29 天前323-云原生观察性、自动化交付和 IaC 等之道-高磊
标准化能力-微服务PAAS-从监控到可观测-研发人员的第五感-1 知道 知道的 不知道 不知道的 主动性 被动性 监控 可观察 健康检查 告警 指标 日志 追踪 问题和根因 预警 监控&稳定性 分析&追踪&排错&探索 • 从稳定性目标出发,首先需要有提示应用出问题的手段 • 当提示出现问题后,就需要有定位问题位置的手段,进 一步要有能够指出问题根因、甚至提前就预警的手段。 拓扑流量图:是不是按预期运行 远端运维是主要的课题,那么就需要从宏观告知 研发人员,并且提供日志、跟踪、问题根因分析 等工具进一步从微观帮助研发人员定位和解决问 题,这是这里在业务上的价值-稳定性赋能。 标准化能力-微服务PAAS-从监控到可观测-研发人员的第五感-2 可观察性是云原生特别关注的运维支撑能力,因为它的主动性,正符合云原生对碎片变化的稳定性保障的思想 数据的全面采集 数据的关联分析 统一监控视图与展现 Metric 是指在多个连 续的时间周期 码调试、错误 异常微观信息 数据之间存在很多关联,通过 关联性数据分析可获得故障的 快速界定与定位,辅助人的决 策就会更加精确 根据运维场景和关注点的不同,以不同图表或者曲 线图来表示整体分布式应用的各维度情况,使得开 发人员可以清晰的观测到整体分布式应用的详细运 行情况,为高精度运维提供可视化支撑 人工发展阶段:符合人分析问题的习惯 宏观->微观 精细化发展阶段:依靠数据赋能,加强可视化能力,进一步简化运维0 码力 | 24 页 | 5.96 MB | 6 月前3分布式NewSQL数据库TiDB
TiDB Copyright © 2012-2021 UCloud 优刻得 10/120 什么是 什么是TiDB TiDB 是 PingCAP 公司研发的开源分布式关系型数据库。定位于在线事务处理、在线分析处理 HTAP 的融合型数据库产品。兼容 MySQL 协议,⽀持⽔平伸缩,具备强⼀致性和⾼可⽤性。 UCloud 基于PingCAP的TiDB,实现TiDB在公有云的产品化,给⽤⼾提供两种形态产品。 TiDB 的⽔平扩展,按需扩展吞吐或存储,轻松应对⾼并发、海量数据场景。 分布式事务 分布式事务 TiDB 100% ⽀持标准的 ACID 事务。 HTAP 为在线事务处理、在线分析处理提供⼀站式解决⽅案,⽆需独⽴部署分析处理系统。 产品优势 分布式NewSQL数据库 TiDB Copyright © 2012-2021 UCloud 优刻得 12/120 真正⾦融级⾼可⽤ 真正⾦融级⾼可⽤ 相⽐于传统主从 UCloud 优刻得 14/120 ⼯具将数据同步到 OLAP 型数据库进⾏数据分析,这种处理⽅案存在存储成本⾼、实时性差等多⽅⾯的问题。TiDB 在 4.0 版本中引⼊列存储引擎 TiFlash 结合⾏存储引擎 TiKV 构建真正 的 HTAP 数据库,在增加少量存储成本的情况下,可以在同⼀个系统中做联机交易处理、实时数据分析,极⼤地节省企业的成本。 数据汇聚、⼆次加⼯处理的场景 数据汇聚、⼆次加⼯处理的场景0 码力 | 120 页 | 7.42 MB | 5 月前322-云原生的缘起、云原生底座、PaaS 以及 Service Mesh 等之道-高磊
30%;以大型商超为例,世纪联华基于阿里云函数计算(FC)弹性 扩容,业务峰值 QPS超过2019 年双11的230%,研发效率交付提效超过 30%,弹性资源成本减少 40% 以上。 总体趋势分析 在多种新旧应用承 载诉求推动下,催 熟云计算架构的全 栈化和软硬一体化 带来更敏捷的体验 容器多样化 应用规模的剧增,成 本诉求越来越成为主 体,基于AI的自动化 将精益化资源管理, 带来更好的成本控制 端的业务领域 将云能力延展到客户 业务现场,逐渐成为 云计算下半场主要价 值体现,将进一步催 发云计算的交付形态 云边一体 生态与竞争格局分析 云原生赋能平台建设维度划分 微服务应用架构治理平台、 DevOps平台、 数据建模与大数据分析平台 用好云原生 容器云平台、边缘计算平台 建好云原生 容器安全、统一多云纳管、融合告 警、APM、云监控、中间件纳管.... 管好云 Service C k8s-ETCD ConfigMap Zipkin EFK prometheus • 适合新项目上云,如果是已经存在的项目就需要修改代码 • 注册中心、配置中心、跟踪链、日志分析、性能分析、流量网 关等都是平台提供的,也需要碎片化适配,并与微服务框架直 接关联,治理能力也必须委托给微服务框架。 有没有可能集成两种部署方式的优势呢,即可以实现透明化迁移同时可以保证标准化能力呢? 本0 码力 | 42 页 | 11.17 MB | 6 月前3CurveFS Client 概要设计
11 背景 概述 关键接口分析 init destroy lookup write read open create & mknod mkdir forget unlink rmdir opendir readdir getattr & setattr access rename symlink & readlink link flush & fsync 其他 功能分析 模块划分 接口设计 Cache设计 +forget_multi +flock +fallocate© XXX Page 5 of 11 +readdirplus +copy_file_range +lseek 关键接口分析 init void (*init) (void *userdata, struct fuse_conn_info *conn); 根据挂载信息,从mds获取文件系统信息(或superbloc parent,并修改name为newname。 二是,在new parent创建新的inode和dentry,然后删除旧的parent下的inode和dentry 两者都涉及到rename的事务性的问题?( ) 这里可能还需要详细分析到底是否需要完整的事务的4个特性acid,还是只需要实现其中部分 目前阶段rename可先不实现,但是可以先考虑一些方案。 symlink & readlink void (*symlink)0 码力 | 11 页 | 487.92 KB | 5 月前3
共 40 条
- 1
- 2
- 3
- 4