降级预案在同程艺龙的工程实践-王俊翔请求合并 请求缓存 实践过程中遇到的问题 • 业务改造成本⾼高,代码耦合,维护成本增⾼高 • 固化策略略,需线下修改代码,测试,发布,线上应急策略略响应不不 友好 • ⽆无法⽀支撑多系统的复合指标计算,业务降级⽀支持不不友好 • ⼤大量量应⽤用各⾃自实现降级熔断,代码散落在各应⽤用,没有统⼀一的管 理理和治理理。久⽽而久之,⽆无⼈人知道系统内有多少降级点,降级是如 何实现的 • 缺乏 策略略管理理 流控管理理 预案管理理 指标管理理 监控告警 数据⼤大盘 脚本开发 ETCD管理理 故障演练 业务保障管理理后台 应⽤用JVM进程 故障动态注⼊入 Attach 故障注⼊入 指标聚合查询 熔断降级计算(Flink) ⽇日志中⼼心 KAFKA 数据采集、计算、存储 指标(HBase) 指标明细(ES) 降级⽇日志(ES) ETL 指标计算(Flink) 脚本引擎 查 查 询 服 务 ⽇日志数据 指标(Redis) 业务异常数据快照(ES) 熔断降级通知 降级服务管理理 故障代码注⼊入 降级服务注册设计 serviceA serviceB serviceC etcd register service metadata degrade strategy center mysql sharding watch admin • 使⽤用ETCD实现注册中⼼心0 码力 | 26 页 | 18.67 MB | 1 年前3
2022年美团技术年货 合辑进行重新 测评的指标。以上速度指标均在 T4 TRT7.2 环境下测试。 14 > 2022年美团技术年货 表 1 YOLOv6 各尺寸模型与其他 YOLO 系列的性能对比结果 注:YOLOv6 系列模型均在训练 300epoch 且不使用预训练模型或额外检测数据集 下获得,“‡”表示采用了自蒸馏算法,“*”表示从官方代码库对发布模型进行重新 测评的指标。以上速度指标均在 T4 TRT7 869 FPS (batch size=32)。 16 > 2022年美团技术年货 表 2 YOLOv6-S 量化方案与 PaddleSlim 应用于 YOLO 系列模型的量化效果对比 注:以上速度指标均在 T4 TRT8.4 环境下测试。对比方法为 PaddleSlim [30] 。 不同之处是 PaddleSlim 使用 YOLOv6-S 1.0 版本,我们的量化方案应用于 2.0 版 本 敏感度分析结果。但由于 mAP 方法需要频繁地计算验证集精度,耗 时太久且容易过拟合验证集,因此在实际项目中为了追求效率,我们建议使用 MSE 方法。 24 > 2022年美团技术年货 表 3 使用不同量化敏感指标得到的 Top-6 敏感层及部分量化精度对比 2.3 基于通道蒸馏的量化感知训练 至此,我们优化后的 PTQ 的精度达到了 42.0%,进一步提高模型精度需要引入量 化感知训练( QAT)。量化感知训练(Quantization0 码力 | 1356 页 | 45.90 MB | 1 年前3
美团点评2018技术年货放内容进 行监控,其主要监控两个指标:运营位数及每个运营位的配置总数。这样做可以带来以下几个好处: 1. 对接入的业务数及机器数进行统计。 2. 通过SDK的配置总数监控,防止数量超过最大限制。 同时,对于非SDK的其他性能指标,我们采用统一的监控平台– CAT 进行监控,其中包括:APPKIT中 心服务的调用QPS,机器的性能,网络流量等通用指标。 五、底层模型–灵活性设计 五、底层模型–灵活性设计 群智能调度等领域提供业界领先的、统一的解决方案,CAT 目前在美团点评的产品定位是应用层的统一 监控组件,在中间件(RPC、数据库、缓存、MQ 等)框架中得到广泛应用,为各业务线提供系统的性能 指标、健康状况、实时告警等服务。 本文会对 CAT 的客户端、性能等做详细深入的介绍,前不久我们也发过一篇 CAT 相关的文章,里面详 细介绍了 CAT 客户端和服务端的设计思路,欲知更多细节,欢迎阅读 CAT》 产品价值 产品价值 减少故障发现时间。 降低故障定位成本。 辅助应用程序优化。 技术优势 技术优势 实时处理:信息的价值会随时间锐减,尤其是在事故处理过程中。 全量数据:全量采集指标数据,便于深度分析故障案例。 高可用:故障的还原与问题定位,需要高可用监控来支撑。 故障容忍:故障不影响业务正常运转、对业务透明。 高吞吐:海量监控数据的收集,需要高吞吐能力做保证。 CAT0 码力 | 229 页 | 61.61 MB | 1 年前3
1_丁来强_开源AIOps数据中台搭建与Python的作用ics、IoT data;⽹网络数据; • ⽂文本、⼯工单、知识库;API;代码等 • ⼤大数据的3V(容量量、变化、种类) 数据类型⽐比较 数据类型与⽐比较 ⽇日志 Tracking 指标 ⽂文本 数据格式 ⾮非结构化 半结构化,数据关联 结构化(聚集) ⾮非结构化 数据量量 ⼤大 较⼤大 ⼀一般到极⼤大(IoT) ⼀一般 单条⼤大⼩小 100~10KB 100~10KB < 500 ⼀一般 加⼯工难度 较难 ⼀一般 简单 较难 价值 ⾼高(尤其安全) ⾼高 随着时间推移变低 ⽐比较⾼高 数据之间的重叠 数据中台的处理理 • 海海量量多样数据的存储/索引: • 时序指标数据、⽂文本数据、⽇日志、⽹网络数据、Tracking等 • 各种分析的⽀支持: • 流式分析:流式或微批实时处理理 • 统计关联分析:多维度的实时关联统计与分析⽀支持,⽀支持交互式add-hoc⽅方式 特定场景下特定的平台搭建选择及策略略以及Python的作⽤用 • ⽇日志类数据⽅方案 • 指标类时序数据⽅方案 • 其他OLAP选择 • AI增强⽅方案 数据源与监控 - 容器器化架构为例例 物理理主机/VM层监控 容器器POD指标监控 容器器CaaS层资源监控 应⽤用层性能监控 应⽤用层 ⽇日志 指标监控 prometheus + grafana + thanos elastic0 码力 | 48 页 | 17.54 MB | 1 年前3
1.每秒百万数据点 Go 应用监控系统演进如何监控 Go 应用? 第二部分 基于 Prometheus Go 应用监控接入流程 确定指标 为应用埋点 部署应用 配置服务发现 监控展示 指标类型 ● Go 运行时指标 ○ Goroutine 数量 ● 应用层指标 ○ infra_http_request_total ● 业务指标 ○ 总 Tracking 查询量 ○ Tracking 创建速率 ○ 某个 ENT 客户的 系统架构演进 第三部分 2018-2020 2K+ 40K 1Mil+ 2020 年指标数据 业务指标数量 每秒写入数据点 Active Time Series 2018-2020 年架构 2020 年底面临的问题 ● 无法查询超过 30 天的数据 ● 查询慢,平均时间超过 2 分钟 ● 跨集群指标无法聚合 ● Prometheus 集群经常崩溃 ● 维护时 Prometheus Why Thanos VS VS 架构 S3 Thanos 架构 Querier Query-Frontend Store Gateway S3 2022 年中指标数据 14K+ 0.6Mil 30Mil+ 业务指标数量 每秒写入数据点 Active Time Series Thanos 架构优化 Querier Query-Frontend Store Gateway S30 码力 | 42 页 | 2.32 MB | 1 年前3
2020美团技术年货 算法篇序稳定性,并助力商户、外卖、内容等核心搜索场景业务指标的飞速提升。 算法 2 > 美团 2020 技术年货 首先,让我们看看在美团 App 内的一次完整的搜索行为主要涉及哪些技术模块。如 下图所示,从点击输入框到最终的结果展示,从热门推荐,到动态补全、最终的商户 列表展示、推荐理由的展示等,每一个模块都要经过若干层的模型处理或者规则干 预,才会将最适合用户(指标)的结果展示在大家的眼前。 为了保证 对于纯线性的处理流程,分片异步后,还是有不少的性能提升。 美团搜索内部,已经通过 LocalModelFeature 的方式,实现了 BERT as a Fea- ture。在几乎没有新的使用学习成本的前提下,同时在线上取得了明显的指标提升。 4.4.2 Online Model Ensemble Augur 支持有单独抽取特征的接口,结合 Model as a Feature,若需要同时为一个 文档进行两个或者多个模型的打 Layer 输 出 的 向 量 做 Sum-pooling (这 里 尝 试 过 Mean-pooling、concat,效果差不多)得到行为序列的最终 Embedding 表示。 该版本的离线指标相比线上 Base(行为序列 Sum-pooling) 模型持平,尽管该版本 没有取得离线提升,但是我们继续尝试优化。 第二个版本:第一个版本存在一个问题,对所有的 item 打分的时候,用户的0 码力 | 317 页 | 16.57 MB | 1 年前3
PaddleDTX 1.1.0 中文文档样本、创建并运行训练任务、创建并运行预测任务,最后计算评估指标。任务 执行节点各自持有部分训练集和验证集,在训练和预测过程中,任务执行节点 之间会进行多轮复杂交互。 此外,PaddleDTX还支持动态模型评估。训练任务进行计算的过程中,可指定 轮次触发模型评估,并获得当前轮次训练结束后的评估指标。训练过程中,可 以获取每个阶段模型的评估结果,以此判断是否停止训练;当训练任务结束 时,可获得一系列评估指标,展示训练效果变化趋势。 PaddleDTX 的环境。 案例简介 本案例中我们使用了来自 UCI 机器学习数据库中的波士顿房屋信息数据。该 数据集统计了波士顿郊区不动产税、城镇人均犯罪率等共计13个特征指标和平 均房价,我们通过机器学习找到特征指标和房价之间的关系,进而预测该地区 房价,这是一个典型线性回归计算案例。 以下是数据集中的字段含义, 特征变量为: CRIM: 城镇人均犯罪率 ZN: 住宅用地超过 25000 一个训练任务的输入有两个,一个是算法,一个是训练集。计算需求方需要判 断采用的算法是否能在训练集上训练出好的模型,模型评估可为判断提供依 据。在商业应用中,模型训练往往以试验的方式开始,根据评估的指标,不断 优化超参数,最终获取比较理想的超参数。 目前,PaddleDTX实现的模型评估,针对分布式、有监督的机器学习算法,可 应用于任意已经实现的二分类算法、回归算法。如果计算需求方指定执行模型0 码力 | 57 页 | 1.38 MB | 1 年前3
PaddleDTX 1.1.0 中文文档任务,最后计 算评估指标。任务执行节点各自持有部分训练集和验证集,在训练和预测过程中,任务执行节点之间会进行 多轮复杂交互。 此外,PaddleDTX 还支持动态模型评估。训练任务进行计算的过程中,可指定轮次触发模型评估,并获得当 前轮次训练结束后的评估指标。训练过程中,可以获取每个阶段模型的评估结果,以此判断是否停止训练; 当训练任务结束时,可获得一系列评估指标,展示训练效果变化趋势。 PaddleDTX 的环境。 7.1 案例简介 本案例中我们使用了来自 UCI 机器学习数据库中的波士顿房屋信息数据。该数据集统计了波士顿郊区不动产 税、城镇人均犯罪率等共计 13 个特征指标和平均房价,我们通过机器学习找到特征指标和房价之间的关系, 进而预测该地区房价,这是一个典型线性回归计算案例。 以下是数据集中的字段含义, 特征变量为: • CRIM: 城镇人均犯罪率 • ZN: 住宅用地超过 一个训练任务的输入有两个,一个是算法,一个是训练集。计算需求方需要判断采用的算法是否能在训练集 上训练出好的模型,模型评估可为判断提供依据。在商业应用中,模型训练往往以试验的方式开始,根据评 估的指标,不断优化超参数,最终获取比较理想的超参数。 目前,PaddleDTX 实现的模型评估,针对分布式、有监督的机器学习算法,可应用于任意已经实现的二分类 算法、回归算法。如果计算需求方指定执行模型0 码力 | 65 页 | 687.09 KB | 1 年前3
Go可观测性实践Go工程可观测性实践 周曙光 得物 Go开发 目 录 可观测性概述 01 链路追踪 02 指标 03 可观测性概述 第一部分 广义的可观测性:可以根据系统的外部输出信息推断出系统内部状态的好 坏。 软件系统的可观测性:一种度量能力,能帮你更好的理解系统当前所处的 任何状态。如果无需发布新代码就可以理解任何新的或怪异的状态,那么 系统就具备可观测性。 什么是可观测性? 可观测性开源产品 链路追踪分析 指标 第二部分 Counter Gauge Histogram 指标数据类型 Counter Counter 类型代表一种样本数据单调递增的指标,即只增不减,除非监控系统发生了重置。例如,你 可以使用 counter 类型的指标来表示服务的请求数、已完成的任务数、错误发生的次数等。 Gauge Gauge 类型代表一种样本数据可以任意变化的指标,即可增可减。Gauge 减。Gauge 通常用于像温度或者内存使 用率这种指标数据,也可以表示能随时增加或减少的“总数”,例如:当前并发请求的数量。 Histogram Histogram 在一段时间范围内对数据进行采样,并将其计入可配置的存储桶(bucket)中,后续可通 过指定区间筛选样本,也可以统计样本总数。 插桩(Hook) 指标数据 指标计算 数据流转 使用Collector的好处在于一些 计算操作可以再Collector中统0 码力 | 35 页 | 2.88 MB | 1 年前3
敏捷开发/LIVE-211是什么,聊聊研发效能度量那些事儿效能改进的愿景 目标 Vision Metrics 改进是系统工程 System improvement 度量量需要回答⼀一个本质的问题 信息 指标 信息 信息 度量量 指标 指标 指标 指标 指标 指标 本质问题 12L 9L 某品牌汽⻋车,每百公⾥里里95号汽 油油耗:城市道路路为12L,⾼高速 路路为9L。 选择⼀一辆汽⻋车,需要⽐比较各种汽 ⻋车的燃料料效率,同时需要考虑其0 码力 | 36 页 | 7.19 MB | 1 年前3
共 133 条
- 1
- 2
- 3
- 4
- 5
- 6
- 14













