APM 深水区:构建连接运维与业务之桥-赵宇辰APM 深水区: 赵宇辰 @ 听云 构建连接运维与业务之桥 目录 • APM现状和痛点 • 什么是APM深水区 • 技术原理 • 实际案例 APM现状:全链路监控 基础架构 业务系统 SaaS 原生App 浏览器 H5/Webview 应用性能监控 第一代APM: 主动拨测 APP监控 浏览器监控 基础架构监控 模拟用户 拨测节点 真实用户 小程序监控 哪些错误是真正紧急、影响业务的? 哪些业务被影响了?是否是核心业务? 如何补救? 运维现状: • 系统响应时间、错误率上升 • 不知道影响了哪些业务/BU/部门/用户 • 企业损失、成本消耗无法衡量、补救 现状:运维和业务的割裂(互联网场景) 业务洞察: ⚫ 转化率 / 收入 / 活跃用户 / KPI 迅速下降 ⚫ 业务团队不知具体原因 ⚫ 多团队、部门之间解决方案不明确 ⚫ 公司业务、健康状况时刻受到影响 公司业务、健康状况时刻受到影响 业务现状: • 系统响应慢 • 营销流程中点击“提交”要等很久 • 领导批准审批超时、报错 现状:运维和业务的割裂(企业场景) 运维困境: ⚫ 各系统看似正常 ⚫ OA系统响应及时 ⚫ 网络正常 ⚫ 数据库没有报错 ⚫ 业务和IT系统的对应关系缺失 ⚫ 难以迅速定位问题 ⚫ IT / CIO / 业务部门:KPI、考核、管理层压力 目录 • APM现状和痛点0 码力 | 24 页 | 5.87 MB | 1 年前3
高效智能运维[云+社区技术沙龙第29期] - 冲上云霄—腾讯海量业务上云实践冲上云霄—腾讯海量业务上云实践 腾讯云高级工程师 黄宏东 自我介绍 ⚫ 业务开发出身的运维 ⚫ 先后在腾讯负责游戏、安全、医疗类业务运维 ⚫ 经历数年业务爆量、成本优化、业务上云、智能运维等重点项目 ⚫ 目前负责腾讯自研业务的运维与上云工作 01 腾讯业务为什么要上云 02 业务上云的价值 03 如何上云 目录 04 上云案例分享 腾讯业务为什么要上云 接入服务 业务 服务框架 服务框架 KV/RDS CVM/Docker 接入服务 业务 服务框架 KV/RDS CVM/Docker 接入服务 业务 服务框架 KV/RDS CVM/Docker 接入服务 业务 服务框架 KV/RDS CVM/Docker IEG PCG WXG CDG “烟囱式”的业务支持体系 幸福的烦恼 ⚫ 重复造轮子,每个部门一套轮子 ⚫ 缺乏统一规范,包括开源代码在内 将原有七大事业群(BG)重组整合,新成立云与智慧产业事业群(CSIG)、平台与内容 事业群(PCG)。在连接人、连接数字内容、连接服务的基础上,更加彰显了腾讯推动由消费 互联网,向产业互联网的升级的决心。 业务上云价值 • 开发效率更高 • 云上特性(VM热迁移等) • 丰富的标准化云服务 • 云原生TKE、研发CICD流程 • 计算资源重用 • 公共组件产品化 • 丰富的公有云海外资源 • 使用业界标准化的云原生服0 码力 | 26 页 | 2.39 MB | 1 年前3
FIT2CLOUD CloudExplorer 产品白皮书 v1.7杭州飞致云信息科技有限公司 软件用起来才有价值,才有改进的机会 1 FIT2CLOUD CloudExplorer 云管理平台产品白皮书 版本(v1.6) 杭州飞致云信息科技有限公司 2022 年 5 月 杭州飞致云信息科技有限公司 软件用起来才有价值,才有改进的机会 2 版权申明 版权所有©杭州飞致云信息科技有限公司 2022。保留一切权利。 非经本公司书面许可,任何单 IT 云化转型、软件持续测试、云原生体系构建等方面拥有丰富的经验,客户广泛覆 盖金融、制造、能源、交通、医疗、教育、通信、传媒、房地产、互联网等行业。 杭州飞致云信息科技有限公司 软件用起来才有价值,才有改进的机会 3 目录 前言................................................................................ ....................................................................................6 1.3 能够解决的问题和价值............................................................................................7 1.3.10 码力 | 60 页 | 0 Bytes | 1 年前3
Zadig 面向开发者的云原生 DevOps 平台优势、使用场景、解决问题域 Zadig 解决问题域 Zadig 云原生开放性:极简、 0 负担接入 Zadig 业务架构 Zadig 系统架构 1 Zadig 行业方案 对比分析 职能 传统 DevOps 方案 ZadigX 云原生 DevOps 方案 降本提效 组织能力提升 业务负责人 研发不透明,规划凭感觉: • 发版时间靠运气 • 团队熬夜冲进度 研发透明化:不同项目清晰可见的效率、质量、进度 项目从无到有可核算 管理有数据科学依据 解放管理,更多时间花在 业务创新 平台运维 业务压力大,能力建设缓慢: • 大量工作花在工具链维护 • 项目间依赖复杂,环境管理难 • 交付版本依赖工单,发布风险高 • 公共资源 / 业务资源利用率低 赋能多业务:一个平台解决了多异构项目的管理和规范 团队高效协作:定义团队角色工作流模板,随时可用云上环境 价值清晰呈现:为管理者提供全视角效能数据,赋能数字决策 人工低效操作减少 80% 构建资源利用率提升 60% 业务资源利用率提升 30% 统一治理内部规范,开发 自助上线;解放运维,工 作重心向业务稳定性保 障,建设平台工程体系 研发 研发时间被大量占用: • 本地开发环境难模拟 • 多业务联调艰难,诊断耗时多 • 出现问题诊断耗时多 • 流程割裂协作痛苦,响应慢 调试自测免打扰:本地 / 子环境免打扰,独立完成验证工作0 码力 | 59 页 | 81.43 MB | 1 年前3
Zadig 面向开发者的云原生 DevOps 平台优势、使用场景、解决问题域 Zadig 解决问题域 Zadig 云原生开放性:极简、0 负担接入 Zadig 业务架构 Zadig 系统架构 Zadig 行业方案 对比分析 职能 传统 DevOps 方案 ZadigX 云原生 DevOps方案 降本提效 组织能力提升 业务负责人 研发不透明,规划凭感觉: • 发版时间靠运气 • 团队熬夜冲进度 研发透明化:不同项目清晰可见的效率、质量、进度 项目从无到有可核算 管理有数据科学依据 解放管理,更多时间花在 业务创新 平台运维 业务压力大,能力建设缓慢: • 大量工作花在工具链维护 • 项目间依赖复杂,环境管理难 • 交付版本依赖工单,发布风险高 • 公共资源/业务资源利用率低 赋能多业务:一个平台解决了多异构项目的管理和规范 团队高效协作:定义团队角色工作流模板,随时可用云上环境 价值清晰呈现:为管理者提供全视角效能数据,赋能数字决策 人工低效操作减少 80% 构建资源利用率提升 60% 业务资源利用率提升 30% 统一治理内部规范,开发 自助上线;解放运维,工 作重心向业务稳定性保障, 建设平台工程体系 研发 研发时间被大量占用: • 本地开发环境难模拟 • 多业务联调艰难,诊断耗时多 • 出现问题诊断耗时多 • 流程割裂协作痛苦,响应慢 调试自测免打扰:本地/子环境免打扰,独立完成验证工作 自助验证更高效:自动化工作流+云上环境,高效验证调试0 码力 | 59 页 | 23.57 MB | 1 年前3
Zadig 产品使用手册释放工程师创造力 DevOps 价值链平台 产 业 数 字 化 核 心 资 产 是 软 件 和 数 据 : 传 统 软 件 / 配 置 / 数 据 迭 代 方 式 已 经 无 法 适 应 , 软 件 工 程 化 时 代 已 然 到 来 。 Z a d i g 软 件 工 程 平 台 是 国 内 落 地 程 度 最 深 、 使 用 范 围 最 广 ( 近 千 家 企 业 ) 的 云 原 及自建资源(容器、主机、车 机、端等),释放云原生价值 和企业创新力 生态开放:广泛开放系统 模块和 OpenAPI ,链接 一切流程、服务、工具和 上下游伙伴 安全简单自主可控:私有化 部署,现有服务 0 迁移成本 、体验丝滑接入容易、学习 使用门槛极低 现存做法大多以「单点工具 + 写脚本」或运管类平台为主, Zadig 则是面向开发者视角,中立,云原生一体化价值链平台。 与现存 DevOps 内部推广难度极高 做完后价值难被证明 通用性、可扩展性、技术先进性强,可以灵活 广泛接入各种技术和业务场景 基于代码管理的 DevOps 方案 Gitee 平台 GitLab 平台 局限性大、全流程安全性低 维护成本高 支持多个服务并行构建部署、产品级发布,可 灵活安全接入多个代码仓及周边工具链 开发 Zadig 核心特性: 运维 真正意义的持续交付:以工程师体验为核心,价值交付为理念,完成需求到发布的全路径。0 码力 | 52 页 | 22.95 MB | 1 年前3
Zadig 产品使用手册释放工程师创造力 DevOps 价值链平台 产 业 数 字 化 核 心 资 产 是 软 件 和 数 据 : 传 统 软 件 / 配 置 / 数 据 迭 代 方 式 已 经 无 法 适 应 , 软 件 工 程 化 时 代 已 然 到 来 。 Z a d i g 软 件 工 程 平 台 是 国 内 落 地 程 度 最 深 、 使 用 范 围 最 广 ( 近 千 家 企 业 ) 的 云 原 及自建资源(容器、主机、车 机、端等),释放云原生价值 和企业创新力 生态开放:广泛开放系统 模块和 OpenAPI ,链接 一切流程、服务、工具和 上下游伙伴 安全简单自主可控:私有化部 署,现有服务 0 迁移成本、 体验丝滑接入容易、学习使用 门槛极低 现存做法大多以「单点工具 + 写脚本」或运管类平台为主,Zadig 则是面向开发者视角,中立,云原生一体化价值链平台。 与现存 DevOps 内部推广难度极高 做完后价值难被证明 通用性、可扩展性、技术先进性强,可以灵活 广泛接入各种技术和业务场景 基于代码管理的 DevOps 方案 Gitee 平台 GitLab 平台 局限性大、全流程安全性低 维护成本高 支持多个服务并行构建部署、产品级发布,可 灵活安全接入多个代码仓及周边工具链 开发 Zadig 核心特性: 运维 真正意义的持续交付:以工程师体验为核心,价值交付为理念,完成需求到发布的全路径。0 码力 | 52 页 | 16.27 MB | 1 年前3
基于 APM 的智能运维体系在京东物流的落地和实践-付正全◼APM能够对企业的关键业务应用进行监测、诊断分 析、优化,最终能够提高应用的可靠性和质量,保证 良好的用户体验,降低IT成本 运维角色转变 背锅侠 救火员 被动响应 主动求变 需求提炼 产品化开发 产品化落地 产品意识 推广落地 业务数据分析 过程改进 技术运营 事件处理 业务分析 业务预测 业务增值 架构标准化 架构实施 架构优化 架构运维 运维价值凸显 新运维时代来临 APM 在京东物流的落地实践 ⚫智能运维(AIOps)落地规划 智能运维体系建设方法论 ◼统一规划、避免重复建设 ◼标准化是前提 ◼产品化设计、产品化开发 ◼服务驱动 ◼运维中台 ◼业务增值 ◼过程改进 智能运维体系建设方法论 ◼闭环 ◼生命周期管理 ◼流程管理 ◼审计归档 目录 ⚫业界智能运维发展现状及趋势分析 ⚫智能运维体系建设方法论 ⚫大规模实时监控平台的实践方案 重点关注: LSTM、多元线性回归、决策树、随机森 林、神经网络、朴素贝叶斯分类、最小二乘 法、支持向量机 … 算法匹配度评分 日历适配、基于节假日的机器学习算法 Kpi自动分类并匹配预测算法 基于业务关联关系的预测算法 预测 大规模实时监控平台V3.0 红绿灯 大屏 可视化 目录 ⚫业界智能运维发展现状及趋势分析 ⚫智能运维体系建设方法论 ⚫大规模实时监控平台的实践方案 ⚫智能故障定位与处理实践0 码力 | 41 页 | 3.52 MB | 1 年前3
告警OnCall事件中心建设方法白皮书
、告警静默、抑制、收敛聚合、降噪、排班、认领升 级、协同闭环处理等等。监控系统或多或少都有一些这方面的能力,但是通常都不完备,而这,正是 PagerDuty FlashDuty 这种产品存在的价值。这些产品都是以 Duty 命名,核心就是支持告警 OnCall 值班处理的场景。 对于告警事件的后续处理,有哪些问题和需求以及何为最佳实践?我们从思路方法和工具实践两个方面分 别进 否漏报,一线工程师为了不背锅,自然是尽量多地提高告警覆盖面,但这么做的后果,就是告警过多,无 效告警占多数,长此以往,工程师疲惫不堪。 那么告警规则的配置应该遵照一个什么原则呢?虽然每个公司业务不同,总有一些通用的原则可循吧?的 确如此,这里我分享一下我个人的做法,希望对你有所启发。 每个规则都应该对应具体的 Runbook Runbook 就是告警处理手册,也就是告警触发 伤大雅 另外,如果 Critical 的告警规则很多,大概率也有问题,说明系统架构不够鲁棒,出点什么事都要立刻介 入,系统没有自愈能力。这样的系统,需要配备更多运维人员,而且还很难跟老板讲清楚价值。怎么办? 这就需要制定运维准入规则,哪个系统要交给运维人员来运维,首先要提供一些信息。 ● 相关联系人,出了问题能够及时找到人,联系不上的话得能直接联系研发领导。 ● 服务相关信息,0 码力 | 23 页 | 1.75 MB | 1 年前3
HW弹药库之红队作战⼿册所有单纯去说 "攻" 或者 "防" 的都是耍流氓, 攻守兼备才能把路越⾛越宽 ⼆来, 也是为秉承共享协作, 希望能为 红队 及 部分实战攻防研究⼈员 做出⾃⼰应有的贡献 个⼈⼀直坚信, 真正的价值来源于实实在在的奉献,与其天天到处嘴炮,不如静下⼼来多反思下⾃⼰,好好踏踏实实做 些对⼤家都有益的事 丑话说在前⾯ 严禁任何 个⼈/组织机构 利⽤以下相关技术去从事任何未经合法授权的 ⽹络⼊侵攻击破坏或者⿊产活动 sql注⼊ 越权 命令 / 代码执⾏ / 反序列化 任意⽂件上传 / 下载 / 读取 包含 XSS(实际上,XSS只有在针对某些特定邮箱,⼿⾥有浏览器0day时价值才会⽐较⼤,红队场景下其实并不是⾮常致命) 业务逻辑漏洞 针对各类边界⽹络设备的各种利⽤, 主要是 Web 管理控制台登录弱⼝令 及 各类已知 nda y 攻击利⽤ Pulse Secure VPN CVE-2019-11510 "跳板机", 分析⽬标内⽹⼤致⽹络拓扑 及 所有关键性业务机器分布 批量抓取内⽹所有 windows 机器名 和 所在 "域" / "⼯作组名" [smb 探测扫描] 针对内⽹的各种⾼危敏感服务定位 ["安全" 端⼝扫描 (在避免对⽅防护报警拦截的情况 下进⾏各种常规服务探测识别)] 内⽹批量 Web Banner 抓取, 获取关键⽬标业务系统如下 内⽹各种⽂件[共享]服务器 内⽹各类web服务器0 码力 | 19 页 | 1.20 MB | 1 年前3
共 77 条
- 1
- 2
- 3
- 4
- 5
- 6
- 8













