1_丁来强_开源AIOps数据中台搭建与Python的作用 ## 开源AIOps数据中台搭建与 Python的作用 丁来强 ## 关于我 • 工作10+年,熟悉大数据分析、ITOps、SecOps等领域 ·阿里云日志服务上海负责人,之前在Splunk上海 • 自从2015年,在4届PyCon上,累计分享7+不同议题 [Image](/uploads/documents/a/4/2/f/a42f7fb655acc3f12481e9fe38a68e6f/p4_2.jpg) ## 1 关于 AIOps 各种Ops平台 根据Gartner的报告,AIOps将在未来5-10年落地开花,并集中统一 ## I T运维的目标/KPI ## MTTR COST 100% ## I T运维的挑战 · 复杂度越来越高: • 数据孤岛越来越多:大数据的3V(容量、变化、种类) · 成本越来越高: ·业务中断成本 · 缺少持续改进(运维人员大部分时间忙于救火) · 人员学习速度跟不上业务增长和问题出现的速度 ## 基本概念 • AIOps = Artificial Intelligence for IT Operations - 组合大数据 + 机器学习 + 分析来帮助IT运维: - 发现、预测、修复问题 大数据 机器学习0 码力 | 48 页 | 17.54 MB | 2 年前3
27-云原生赋能 AIoT 和边缘计算、云形态以及成熟度模型之道-高磊3亿美元;而与之对应的去中心化云存储市场约30亿美元,去中心化云计算市场约100亿美元。未来,10年到20年,去中心化云计算、云储存市场有望实现10年100倍的增长,达到万亿美元市场的规模。 ## 高级能力-精益化运维-云原生AIOps 客户满意度 运营中心 运维报表  部署密度降低了serverless应用的技术障碍。| |OAM统一交付能力|基于OAM的软件交付理念和工具重新定义了内部的DevOps流程,实现了应用的“一键安装、多处运行”的应用编排目标| |AIOps精细化运维|依托于K8S和ServiceMesh等度量数据精确性的提升,并给予AI算法从不同维度计算应用架构运行态势,实现基于响应的自动化运维方案,大大降低了用户使用门槛,更安全更可靠的交付最终软件产品。|0 码力 | 20 页 | 5.17 MB | 1 年前3
1.1.2 基于Go语言的滴滴DevOps重塑之路基于Go语言的滴滴DevOps重塑之路 魏静武 滴滴出行高级技术专家 主要负责研发效率与稳定性 DevOps - 新的挑战 01 开发 - 云原生脚手架 02 测试 - 流量回放与测试环境 03 运维 - AIOps 04 未来 - 自动发布 05 第一部分 DevOps 新的挑战 ’ alt=‘OCR图片’/> DevOps - 新的挑战 ’ alt=‘OCR图片’/> DevOps - 新的挑战 重复工作繁重 部署历史 授权管理 ’ alt=‘OCR图片’/> 第四部分运维一AIOps ’ alt=‘OCR图片’/> 运维 - AIOps 报警多,但不准,也不全场景杂,维度多,变化快 2. 定位难,止损慢 微服务多,变更也多 ’ alt=‘OCR图片’/> 运维一AIOps ’ alt=‘OCR图片’/> 运维一AIOps 黄金指标 延迟 流量 错误 饱和度 指标分类 指标分类 告警策略 ETS ARIMA 移动平均 同环比 差分 兜底阈值 3sigma … 故障恢复 根因定位 ’ alt=‘OCR图片’/> 运维一AIOps 东海龙王 应用 2023-05-09 21:26 东海龙王 网约车业务-订单详情成功率下降一根因定位根因详情 业务定位 API : p 节点:hna-v 返回错误码:1C11 错误信息:系统错误,请稍后再试0 码力 | 23 页 | 1.86 MB | 1 月前3
基于 APM 的智能运维体系在京东物流的落地和实践-付正全●业界智能运维发展现状及趋势 智能运维体系建设方法论 ●大规模实时监控平台的实践方案 ●智能故障定位与处理实践 ● APM 在京东物流的落地实践 智能运维(AIOps)落地规划 ## 业界智能运维发展趋势 阶段 7: 智能化、AIOps 阶段6: 数据化 阶段 5: 自动化、平台化 阶段4:服务驱动 阶段 3: 主动的、优化的 阶段 2: 被动的、孤立的 阶段1: 混乱的、无序的 ●大规模实时监控平台的实践方案 ●智能故障定位与处理实践 ● APM 在京东物流的落地实践 ●智能运维(AIOps)落地规划 ## 智能运维体系建设方法论 统一规划、避免重复建设 标准化是前提 产品化设计、产品化开发 服务驱动 运维中台 业务增值 过程改进 智能化 AIOPS 根因分析 发现问题 异常检测 故障树 趋势分析 数据化 日志分析 应用日志 调用链日志 自动测试 ## 目录 ●业界智能运维发展现状及趋势分析 智能运维体系建设方法论 ●大规模实时监控平台的实践方案 ●智能故障定位与处理实践 ● APM 在京东物流的落地实践 ●智能运维(AIOps)落地规划 ### 大规模实时监控平台V1.0 项目实践单维时间序列分析 异常检测 03 / 多维时间序列分析 多维下钻 04 / Metis 的研究方向 展望未来 ## 基于机器学习的智能运维 ## 智能运维(AIOps)  发现问题 - 时间序列异常 · 能力完备:主要运维场景均已实现流程化免干预AI运维能力 · 终极AIOPS:有中枢AI,可以在成本、质量、效率间从容调整,达到业务不同生命周期对三个方面不同的指标要求,实现多目标下的最优或按需最优 ## 智能运维组件库 • 可重用 - 可演进 • 可了解 ## 智能运维能力框架体系 多目标自调整AIOPS大脑 主场景均实现流程化免干预AI运维能力 串联AI运维应用如故障自愈 AI算法平台和算法库 离线计算 实时计算 元数据管理、数据仓库 数据清洗、ETL、特征工程 数据通道 数据采集如各类agent 数据上报标准,命名规范 ## AIOps 团队角色划分 说明:图中所示为各角色在传统工作职能之外,因从事AIOps而产生的协同关系。 研发、产品、运营等外部团队 业务数据场景诉求 提供可视化、智能化 的AI服务 运维工程师 运维开发工程师 提供稳定数据平台、满足各类场景,降低数据开发门槛0 码力 | 28 页 | 1.88 MB | 2 年前3
基于Consul的多Beats接入管控与多ES搜索编排搜索编排 梁成 腾讯云, barryliang@tencent.com ## 拥抱开源、释放云原生的力量 背景与挑战 多Beats/Logstash接入管控 多ES搜索编排系统 日志AIOps探索 ## 背景与挑战 如何降低日志接入门槛 如何保证日志实时上报 如何保障日志采集不影响业务 如何做配置标准化 如何帮助业务快速排障 如何提供方便便捷的性能分析调优能力 100+ 产品数量 [Image](/uploads/documents/2/c/4/c/2c4c78721fc7921f5fa9b1e7bb808ae9/p17_1.jpg) ## 日志AIOps探索 日志最佳实践、拨测系统、智能排障、AIOps探索 ## 案例: 基于Kibana的交互式排障 点击添加过滤器 1.151.36 98.0000000000001% 成功率今日昨日对比 97.0000000000001%0 码力 | 23 页 | 6.65 MB | 2 年前3
美团点评2018技术年货jpg) JARVIS是一个以稳定性保障为目标的智能化业务运维AIOps平台。主要用于处理系统故障时报警源很多,会有大量的重复报警,有效信息很容易被淹没等各种问题。此外,过往小规模分布式集群的运维故障主要靠人和经验来分析和定位,效率低下,处理速度慢,每次故障处理得到的预期不稳定,在有效性和及时性方面无法保证。所以需要AIOps平台来解决这些问题。  AIOps 可视化  智能业务管理 Analytics0 码力 | 24 页 | 5.87 MB | 2 年前3
高效智能运维[云+社区技术沙龙第29期] - 蓝鲸研发运维技术PaaS体系实践-张敏周报邮件 业务门户 ## 十 年发展 2008-2012 - 烟囱自动化 - 调度自动化 - 运维PaaS - 数据运维 - 运维运营PaaS - DevOps - AIOps - 研发运维运营一体化 SaaS CI 类场景 需求管理 Web OS 流水线 独立域名 编译加速 快捷入口 统一管理 智能文件传输 ## 作业平台 脚本云化管理 脚本快速执行0 码力 | 26 页 | 8.25 MB | 2 年前3
Golang大规模云原生应用管理实践ServiceMesh-下一代分布式应用编程模式 • 应用运维可编程 标准化平台应用模型与机制 · 多元化(云,工作负载,服务) 云原生生态(CNCF) · 平台 K8s • 可观测是重中之重 • 智能化-AIOps 基础设施 一体化-扩展屏蔽基础设施 • 轻量化-下沉 • 自动化-端到端 GOPHER CHINA 2020 ## GOPHER CHINA 2020 中国 上海 / 2020-110 码力 | 23 页 | 7.70 MB | 2 年前3
共 12 条
- 1
- 2













