高效智能运维[云+社区技术沙龙第29期] - 蓝鲸研发运维技术PaaS体系实践-张敏Entertainment Group,简称IEG)自用的一套用于构建企业研发运营一体化体系的PaaS开发框架,提供了aPaaS(DevOps流水线、运行环境托管、前后台框架)和iPaaS(持续集成、CMDB、作业平台、容器管理、数据平台、AI等原子平台)等模块,帮助企业技术人员快速构建基础运营PaaS。 腾讯蓝鲸智云秉承开放共赢的理念,以改变中国运维行业为起点,致力于推动国内企业借助研发运营一体化 业务操作单元暴涨 服务器数量,也就是操作单元,有二十余万。 随着容器技术的普及,操作单元的数量还会暴涨。 ## 蓝鲸进化第1步:抽象原子平台 获取资源 新建大区 主机注册 创建DB 获取新主机 CMDB注册信息 关闭故障大区入口 新机程序 布署 对外开放 开新区 部署程序 初始化数据  配置数据消费 配置数据写入 数据分析 数据展示 配置管理门户 数据质量 外部对接 模型管理 实例管理 权限管理 拓扑管理 蓝鲸CMDB 业务管理 主机资源管理 操作审计 事件推送 自动采集(采集适配器) 配置数据0 码力 | 26 页 | 8.25 MB | 2 年前3
Nacos架构&原理
秒级生效上的实践 249 叽里呱啦 Nacos 1.1.2 升级 1.4.1 最佳实践 267 服务发现最佳实践 281 Eureka 平滑迁移 Nacos 方案 281 Nacos 打通 CMDB 实现就近访问 288 跨注册中心服务同步实践 298 配置管理最佳实践 310 Nacos 限流最佳实践 310 Nacos 无缝支持 confd 配置管理 320 结语 存储模块:解决数据持久化、非持久化存储,解决数据分片问题。 ## 插件 - Nameserver: 解决 Namespace 到 ClusterID 的路由问题,解决用户环境与 Nacos 物理环境映射问题。 CMDB:解决元数据存储,与三方 CMDB 系统对接问题,解决应用,人,资源关系。 • Metrics:暴露标准 Metrics 数据,方便与三方监控系统打通。 - Trace:暴露标准 Trace,方便与 SLA 系 以实现任意比例和权重的服务流量调配。但是标签本身需要单独的存储以及读写功能,不管是放在注册中心本身或者对接第三方的 CMDB。 在 Nacos 0.7.0 版本中,我们除了提供基于健康检查和权重的负载均衡方式外,还新提供了基于第三方 CMDB 的标签负载均衡器,具体可以参考 CMDB 功能介绍文章。使用基于标签的负载均衡器,目前可以实现同标签优先访问的流量调度策略,实际的应用场景中,可以用来实现服0 码力 | 326 页 | 12.83 MB | 1 年前3
1.3.3 基于Go构建海量作业作业平台依靠开源工具(ansible,saltstack),对命令进行操作,无web管理界面,无精细化权限管控 场景固化不灵活 SRE有固化的运维操作场景,新增场景支持需要二次开发 缺乏链路打通 自动化执行的主机对象和CMDB无法打通 定时任务泛滥 依靠Linux的crontab分散在各自主机上,无法统一管理 ’ alt=‘OCR图片’/> 作业平台主要对象 作业平台主要对象 命令:一个可以独立操作,如:关机,重启等 我们设计ApiServer组件,基于CMDB提供的资源管理和统一资源鉴权能力,解决资源权限管控的问题 Apiserver 作为作业平台的大脑,除了负责统一鉴权,还负责作业任务的初始化,作业状态流转等,对外暴露接口提供上层业务调用 ’ alt=‘OCR图片’/> 作业的优先级如何确定 作业平台支持分两种方式支撑作业的优先级 基于CMDB业务/应用等级确定优先级 对接内部CMDB平台,基于CMDB以应用为中心的设计理念,依托组织 SLO ’ alt=‘OCR图片’/> 作业的权限如何控制 ’ alt=‘OCR图片’/> 以快速执行为例简单介绍Server端处理作业流程 Task创建启动流程: 添加task: CMDB资源信息校验,完善作业等级 PUT到ETCD中,task的status为created,workerld为空 add task to DB,task的status为created,workerId为空0 码力 | 34 页 | 4.48 MB | 1 月前3
2.1.2 Go如何帮滴滴支撑海量运维场景Unwatch 96 Nightingale(滴滴夜莺),衍生自Open-Falcon,融入了滴滴的最佳实践,如今是v3版本,已经从一款运维监控系统,演化为一款运维平台,除了具备监控告警的能力,也融入了部分CMDB、资产管理、命令执行、告警自愈的能力。运维平台体系化之路,可以用夜莺开个头:-) GOPHER CHINA 2020中国 上海 / 2020-11.21-22 NIGHTINGALE 节点信息 支持多种后端存储:M3、RRD、InfluxDB 体系化 是个纯粹的监控,体系化考虑较少,缺少完备的用户权限体系、资产管理、运维自动化、告警自愈等 体系化程度高,以监控告警为核心主打能力,围绕着建立了部分CMDB能力、完备的用户权限体系、命令通道和告警自愈等 易用性 整体设计较为简单,除了模板继承机制稍难理解,整体容易上手 单就监控方面易用性更好一些,但是因为功能模块较多,学习起来确实有一定成本 扩展性 使用驱动式设计,支持多种后端存储:M3、RRD、InfluxDB,生产环境建议M3DB;近期数据在内存拉取监控数据比较快 体系化 是个纯粹的监控,如果要做CMDB、运维自动化相关支持,就需要和其他产品搭配使用了 体系化程度高,以监控告警为核心主打能力,围绕着建立了部分CMDB能力、完备的用户权限体系、命令通道和告警自愈等 监控能力 对各类设备的监控支持较好,甚至AIX、BSD等都有支持 对应用业务侧监控支持较差,主要是受限于数据结构0 码力 | 30 页 | 4.80 MB | 1 月前3
FIT2CLOUD CloudExplorer 产品白皮书 v1.7署运行环境时,需要资源申请使用部门向其他各个小组申请配合协作部署资源、申请 IP 地址、将资源信息同步加入到 CMDB、堡垒机、应用部署平台等运维工具,部署配置监控代理、备份代理,挂载到负载均衡,因此造成流程链路较长,协作沟通成本高、排期等待时间比较长的问题。 通过云管平台整合 CMDB、堡垒机等运维工具,在部署虚拟机等资源后,能够按预置策略自动同步管理信息到运维工具,自动部署监控代理、备份代理 大幅减少了人工同步资源管理信息到运维工具的操作和工作量。 xx 银行 IT 管理员说,部署 60 台虚拟机,从前至少需要等 2-3 天时间,现在一下午就完成了,而且比较轻松,只需要审批订单,不再需要花几天时间人工操作部署,人工添加 CMDB,也不需要再向安全部门提需求,同步管理信息到堡垒机以及配置堡垒机授权了。 ● 能够统一集中分级分组管理运行环境资源,快速定位查找操作管理。 #### 1.4.3 对于 IT 部门 ● 服务模 实现资源环境交付过程中替代人将资源信息同步配置到各个运维工具中或部署运维工具代理,一方面减少部门间的流程协作环节,另一方面自动同步信息,减少人工操作,维护数据的一致性,如部署或变更回收虚拟机后自动同步管理信息到 CMDB、堡垒机,自动部署监控代理、备份代理。 #### 1.5.4 实现运营分析、IT 投入透明化及时回收优化 实现 IT 投入可视化,涵盖虚拟化、私有云、公有云的资源使用成本费用、资源使用量可视化0 码力 | 60 页 | 0 Bytes | 2 年前3
张波-虎牙直播在微服务改造中的实践7/02778e7136ba92d454ae313dec65f51e/p10_3.jpg) ## 目标 DNS解析成功率 100% 公共DNS分钟级生效 内部DNS秒级生效 基于IP+CMDB实现就近访问能力 ## dns当前现状 ## 1、 依赖公共localDNS,解析不稳定,延迟大  ## Nacos CMDB • 扩展对接虎牙CMDB 扩展对接虎牙CMDB • 对接内部负载均衡策略 ## 虎牙直播与阿里共建Nacos生态 NACOS. ## 虎牙直播共建Nacos生态  #### 虎牙直播平台(https://www.huya.com/) 虎牙直播是中国一家以游0 码力 | 27 页 | 1.03 MB | 2 年前3
03 小罗 python与devops jpg) ## Devops发布流程需要考虑几个问题 1、发布什么应用,发布到哪里(CMDB) 2、发布人员是否有权限(RBAC) 3、发布过程是否有认证,授权发布(流程审计) 4、发布的时候需要做什么操作,批量时候如何处理,如何知道执行结果返回 5、消息通知机制 6、发布故障如何快速回滚 ## CMDB为基础架构由下至上  新项目上线 jenkins 调用ansible 接口 发起申请 cmdb(构建业务名称) 回滚上个版本 测试验证  通知 登录发布服务器查看日志0 码力 | 22 页 | 1.64 MB | 2 年前3
2021 中国开源开发者报告可靠的消息发布与订阅服务。 ## 蓝鲸智云配置平台社区 蓝鲸配置平台(bk-cmdb)是一款面向资产与应用的 CMDB,致力于为企业 IT 自动化运维和 DevOps 的落地提供最基础的元数据;结合自动化的数据采集、管理、消费能力,将企业应用的配置数据和资产数据进行深度融合,形成一套可自生长的、面向应用的 CMDB。 ## MindSpore 社区 MindSpore 是一种适用于端边云场0 码力 | 35 页 | 36.74 MB | 2 年前3
基于Consul的多Beats接入管控与多ES搜索编排- 多Beats支持 ## 稳 - Beats运行时cpu/mem可控 - Agent监控视图 - 离线/容量/延时监控 - 分布式集群管理 - 异常快速定位 ## 准 - 关联公司CMDB - 资源权限管理 - 配置灰度控制发布 - 配置一致性检测 - 日志覆盖率 ## 案例:如何管控整个日志数据流相关资源性能与容量? Agent运行时监控 Beats cpu/mem管控 大表单套小表单,所有表单都是以angular组件形式开发,保证代码的可复用性与质量 ## 配置分级展现 把复杂配置独立成高级选择,并设置默认值,并在复杂项给出有效帮助 ## 自定义组件 编写大量自定义小组件,比如cmdb设置,时间设置等组件提高用户体验,尽量减少直接填文本 ## 前后端强类型 前端采用基于ts的angular开发所有数据定义与后端golang数据保持强一致,保证数据一致性 // ElasticSearchWriteConfig0 码力 | 23 页 | 6.65 MB | 2 年前3
基于 APM 的智能运维体系在京东物流的落地和实践-付正全运维人数不变,管理机器数翻倍 过去1:n → 现在1:10^{n} 1 正在消失的运维 运维从业者减少,运维专家匮乏 3 网络拓扑日益复杂,资源云化,虚拟资源频繁弹性伸缩。不可靠的CMDB  2 4 运维平台日趋复杂,缺乏统一规划 常用命令 环境检测  性能分析 CMDB 配置管理 物理资源 告警中心 资源层 数据采集 数据处理 物理机 文件操作 资产管理 软件部署 配置查看 网络设备 应用管理 宿主机 存储 虚拟资源 KPI聚类0 码力 | 41 页 | 3.52 MB | 2 年前3
共 20 条
- 1
- 2













