探讨和实践基于Istio的微服务治理事件监控
Service Mesh Meetup #4 上海站 探讨和实践基于Istio的微服务治理事件监控 2018.11.25 徐运元关于我 2008年毕业于浙江大学,曾在思科和浙大网新有超过 9年的工作经验和5年的云计算领域工作经验,带领团 队完成公司第一代基于Kubernetes的云平台开发和第 二代基于Kubernetes的DevOps云平台开发。目前致力 于公司基于Istio的微服务平台打造。 Metrics Logging Tracing 指标监控 • 指标可被聚合 • 体现系统性能趋势 分布式追踪 • 和请求相关 • HTTP • SQL 日志系统 • 代码逻辑处理事件 • 异常、debug信息容器化和微服务下的监控需求 微观下的监控需求 快速错误追踪 可快速排查在性能测试场景下的 慢方法、异常调用以及异常报文 等信息 单次链路追踪 可细粒度排查应用单次链路调用0 码力 | 29 页 | 8.37 MB | 5 月前3TiDB中文技术文档
TIME 类型的值的格式是 ‘HH:MM:SS’,值的范围是 ‘-838:59:59’ 到 ‘838:59:59’。时间部分比较大,是因 为 TIME 类型不仅用于表示一天里面的时间,也可以用于两个事件之间的时间间隔。 TIME 类型可以包含分数部分,如果包含分数部分,那么 TIME 的表示范围则是 ‘-838:59:59.000000’ 到 ‘838:59:59.000000’。 注意缩写的时间,’11:12’ gRPC call 不返回问题 解决由于 snapshot 导致下线节点慢的问题 限制搬移副本临时占用的空间大小 如果有 Region 长时间没有 Leader,进行上报 根据 compaction 事件及时更新统计的 Region size 限制单次 scan lock 请求的扫描的数据量,防止超时 限制接收 snapshot 过程中的内存占用,防止 OOM 提升 CI test 的速度 解决由于 TopN 下推 Limit 下推 提供了索引相关的支持 谓词转化聚簇索引范围 谓词转化次级索引 Index Only 查询优化 运行时索引退化扫表优化 提供了基于代价的优化 统计信息支持 索引选择 广播表代价估算 多种 Spark Interface 的支持 Spark Shell 支持 ThriftServer/JDBC 支持 Spark-SQL 交互支持 PySpark Shell 支持 SparkR0 码力 | 444 页 | 4.89 MB | 5 月前3Curve元数据节点高可用
2.4.3 MDS1、MDS2、MDS3的租约全部过期 4.2.4.4 总结 4.2.5 异常情况四: Etcd集群与MDS1(当前leader)出现网络分区 4.2.5.1 事件一先发生 4.2.5.2 事件二先发生 4.2.6 异常情况4:Etcd集群的follower节点异常 4.2.7 各情况汇总 1. 需求 mds是元数据节点,负责空间分配,集群状态监控,集群节点间的资源均衡 此时会有两件事情发生, 顺序不定: 一是MDS1定期去get Leader/MDS1失败后MDS退出 [事件1] 二是MDS2收到Leader/MDS1被删除,MDS2开始提供服务 [事件2] 如果事件1先发生,那么就是MDS1退出后,MDS2再当选为leader, 如果事件2先发生,那么就是MDS2当选为leader时,MDS1还在提供服务, ,这是有问题的。 出现双主 双主出现的时 server把MDS1注册过来的Key删掉 2. MDS1获取Leader/MDS1失败,退出 3. MDS2和MDS3事件如下: 事件一: MDS2收到Leader/MDS1退出的消息,Campaign返回成功 MDS3收到Leader/MDS2退出的消息,Campagin返回成功© XXX Page 25 of 30 事件二: MDS2 Campagin成功后再次获取竞选时使用的key值Leader/MDS2,获取失败,退出0 码力 | 30 页 | 2.42 MB | 5 月前3蚂蚁金服ServiceMesh数据平面 SOFAMosn深层揭秘
Ø定义网络链接生命周期,事件机制 Ø定义可编程的网络模型,核心方法,监控指标 Ø定义可扩展的插件机制PROTOCOL 5 Ø定义编解码核心数据结构 üMesh处理三段式:Headers + Data + Trailers Ø定义协议Codec核心接口 ü编码:对请求数据进行编码并根据控制指令发送数据 ü解码:对IO数据进行解码并通过扩展机制通知订阅方 •定义扩展机制通知解码事件STREAMING 考虑PING-PONG,PIPELINE,分帧STREAM三种典型流程特征 Ø定义Stream生命周期,核心事件 Ø定义Stream层编/解码核心接口 ü 核心数据结构复用Protocol层 Ø定义可扩展的插件机制 Ø对于满足请求Stream池化的需求 Ø需处理上层传入的状态事件PROXY 7 Ø基于Stream抽象提供多协议转发能力 Ø执行Stream扩展Filters Ø提供可扩展的路由寻址能力 send encode Q u e u e C模块划分 11要点总结 12 Ø模块化,分层解耦 Ø统一的编程模型接口 Ø可扩展的事件驱动模型 Ø可扩展的路由/后端管理机制 Ø更好的吞吐量3 能力核心能力 1 网络处理 •网络编程接口 •链接管理 •事件机制 •Metrics 收集 •TCP 代理 •TLS 支持 •TProxy 支持 •平滑 reload •平滑版本升级0 码力 | 44 页 | 4.51 MB | 5 月前3阿里巴巴超大规模神龙裸金属 Kubernetes 集群运维实践
钉钉、邮件、电话报警、ChatOps 自助诊断 • 节点故障自愈 (10) • 决策中心执行修复操作 • 集中统一风控 • 日常1人运维数十万节点 统一风控 监控 决策 自愈神龙运维事件 • 接收事件 (doc) • 响应事件 不带本地盘 SystemFailure.Reboot 带本地盘 SystemFailure.Redeploy 不带本地盘 RebootInstance (doc) 机型、硬件特征 • 内核版本、hotfix 一致率 • 宕机根因分析诊断 • 硬件故障、运维事件 • vmcore 归类分析 • 内核错误日志分析Machine Operator • 全生命周期 • 导入 • 下线 • 维护 • 组件终态 • 安装 • 升级 • 回滚 • 故障自愈 • 运维事件 • 业务置换Machine Operator未来工作 • 稳定性、资源利用率、运维效率0 码力 | 21 页 | 7.81 MB | 5 月前3SOFAMOSN持续演进路径及实践分享
conn.read conn goroutine conn.read …… 调度切换/就绪通知技术案例 – 长连接网关RawEpoll模式 RawEpoll模式:使用epoll感知到可读事件之后,再从协程池中为其分配协程进行处理。 大幅减少goroutine实例数量,从而降低内存、调度开销 Netpoll implmented in Golang runtime conn.read conn.read conn 1. 链接建立后,向epoll注册oneshot 可读事件监听;并且此时不允许有协 程调用conn.read,避免与runtime netpoll冲突。 2. 可读事件达到,从gorotine pool挑 选一个协程进行读事件处理;由于使 用的是oneshot模式,该fd后续可读 事件不会再触发。 …… 4. 请求处理完成,将协程归还给协程池;同时将fd重新 添加到RawEpoll中技术案例0 码力 | 29 页 | 7.03 MB | 5 月前3BRPC与UCX集成指南
●是socket事件分发的中心 ●使用epoll和边沿触发 ●提供监视一个fd是否可读写,并调用对应socket对象的成员函数1314 Socket 输入事件处理15 Socket options ●是创建socket的参数 ●主要成员: –fd 是socket文件句柄 –void (*on_edge_triggered_events)(Socket*) ●可读事件的回调函数16 SocketOptions.fd为-1表示尚未连接。 ●UcpCm返回的文件句柄实际上是pipe的写端句柄 ●记得brpc的event dispatcher是边沿触发 ●写端句柄永远不会触发可读事件 ●写端句柄第一次epoll会返回可写,可写是brpc判断连接成功的措施 ●UcpCm从来不会写入pipe,如果pipe有可读字节,会打印错误,说明有地方遗漏了修 改。 ●Socket通过关闭 –UCX的地址依然是tcp地址。5758 修改 Socket Connect59 修改Socket Connect60 修改Socket::DoRead ●UcpWorker在接收到ucp_ep上的断开事件时,设置UcpConnection处于Error 状态,再调 用UcpConnection::DataReady,进而调用Socket::StartInputEvent ●UcpConnectio0 码力 | 66 页 | 16.29 MB | 5 月前3人工智能安全治理框架 1.0
人工智能安全风险威胁信息共享和应急处置机制。持续跟踪分析 人工智能技术、软硬件产品、服务等方面存在的安全漏洞、缺陷、风险威胁、 安全事件等动向,协调有关研发者、服务提供者建立风险威胁信息通报和共享 机制。构建人工智能安全事件应急处置机制,制定应急预案,开展应急演练, 及时快速有效处置人工智能安全威胁和事件。 5.8 加大人工智能安全人才培养力度。推动人工智能安全教育与人工 智能学科同步发展,依托学校、科研机构等加强人工智能安全设计、开发、治0 码力 | 20 页 | 3.79 MB | 29 天前3【周鸿祎清华演讲】DeepSeek给我们带来的创业机会-360周鸿祎-202502
的数字安全「中国方案」 360 安 全 云 每天云查杀1000亿次,平均每秒115万次,每日处置安全事件10亿次 每天拦截勒索攻击100万次、挖矿攻击1000万次、恶意网址7.5亿次、网络电信诈骗6000万次 云端响应服务 高级威胁溯源平台、安全大数据检索平台、安全风险研判平台、热点事件分析平台 分析研判平台 端 • 服务全球15亿终端 • 覆盖全球225个国家 和地区 终端探针密布 能分析技术 • 荣获十次国际冠军/提 名人工智能奖项 • QVE、QEX、QVM QAPT、鲲鹏、扎克 慧眼、APTFLOW 建立样本库、基因 库、知识库 • 320亿样本 • 百万攻击/渗透事件 • 1800+APT武器模型 • 1000+技战术手法 • 2000+杀伤链模型 • 上万条典型攻击脚本 强大专家团队 • 200+安全精英团队 • 3800+安全专家团 队 全网集中研判0 码力 | 76 页 | 5.02 MB | 5 月前3MySQL 兼容性可以做到什么程度
问题背景 数据孤岛怎么办? 下游MySQL 怎么做 Binlog Maxwell DebeziumPolarDB-X 完全兼容 MySQL Binlog 可行性 • 多节点产生多个增量事件队列 • 不同队列中事件之间的顺序 • 分布式事务完整性 • DDL 引起的多 Schema 版本问题 • 扩缩容引起的队列增减 ? Maxwell Debezium A: PolarDB-X 全局0 码力 | 18 页 | 3.02 MB | 5 月前3
共 21 条
- 1
- 2
- 3