美团点评2018技术年货做到消息的回溯。 2. 历史数据的来源主要是我们的Hive和HDFS,可以方便的做到大数据量的存储和并行计算。 离线计算简介 离线计算简介 在离线处理这块,主要包含了MR模块和Spark模块,我们的一些ETL操作,就是基于MR模块的,一些用 户行为数据的深度分析,会基于Spark去做,其中我们还有一个XT平台,是美团点评内部基于Hive搭建的 ETL平台,它主要用来开发数据处理任务和数据 聚合,这样比较通用灵活一些,上层应用可以按照自己的 业务需求,进行一些其他时间段的聚合。 在数据的导入中,我们也有不同的策略: 1. 比如用户的行为路径分析中,我们在Hive中计算好的结果,数据量是非常庞大的,但是Hive本身的设 计无法满足我们的查询时效性要求,为了后台系统有比较好的体验,我们会把数据导入到ES中,这里 我们无需全量导入,只要抽样导入即可,这样在满足我们的查询要求的同时也能提高我们的查询效 置,之前需要几人日才能做到的用户行为数据分发和处 理,现在从配置到验证上线只需要几分钟左右。 近实时处理 近实时处理 在近线计算中,我们会把经过流量网关的数据,通过Kafka2Hive的流程,写入到我们的Hive中,整个过 程的时延不超过15分钟,我们的算法同学,可以利用这样一些近实时的数据,再结合其他的海量数据,进 行整体的加工、存储,主要针对的是一些时效性要求不高的场景。 通过上面0 码力 | 229 页 | 61.61 MB | 1 年前3
高可用分布式流数据存储设计-李玥WHY 为什什么需要流数据存储? 单体应⽤用 烟筒式 SOA 微服务 那些年年的服务 MySQL ES HDFS KV HBase Hive 这些年年的数据 Services Data MySQL ES HDFS KV HBase Hive 统⼀一的流数据存储平台 我们的愿景 Services Streaming Storage Data 有序 Append only:尾部写入,不变0 码力 | 36 页 | 6.02 MB | 1 年前3
Things Happening in SG14std::flat_map and std::flat_set • [[likely]], [[unlikely]] • [[no_unique_address]] • Freestanding • std::hive • A new container with different tradeoffs that can be useful for the use-cases of low- latency-oriented std::flat_map and std::flat_set • [[likely]], [[unlikely]] • [[no_unique_address]] • Freestanding • std::hive • … and many, many others at various stages of progress 22What is P2966? How that paper came about0 码力 | 148 页 | 1009.97 KB | 6 月前3
领域驱动设计&中台/DDD促进传统架构微服务转型������ � � � � � � ���� ���� ���� ���� ��� �� APP ���� ���� �������� MySQL+Redis MySQL�� Hive+Redis ���� ���� ���� China Conference ���� ���� ���� ���� ���� ���� Entit y ��� �� ����0 码力 | 42 页 | 8.85 MB | 1 年前3
2.5 Go在猎豹移动的应用 api服务出现瓶颈的时候,直接scale out; graceful restart依赖健康检测; api质量监控,使用日志来追踪,通过本 地日志+flume+hdfs+hive; 实时监控可以考虑flume sink到kafka,再 依赖Spark计算; RPC 协议&远程调用的选型; net/rpc,thrift,grpc等; 0 码力 | 24 页 | 4.26 MB | 1 年前3
How Apache works…) ● Projects can be in the same area if they have their own community (ant/maven, axis/cxf, pig/hive, …) Apache projects Apache projects Apache incubator ● Entry point for all new projects ● Indoctrinates0 码力 | 45 页 | 1.91 MB | 1 年前3
Data Structures That Make Video Games Go Roundmetadata has some value other than 0, it increments the iterator with the skip count.P0447R - std::hive ● Colonies, performance and why you should care - Matthew Bentley ● How to: Colony - Matthew BentleyStart0 码力 | 196 页 | 3.03 MB | 6 月前3
2022年美团技术年货 合辑务、训 练和评测模型。我们分析用户在这三个阶段的需求,提供相应工具提升开发效率: ● 数据集管理:从业务数据构造图是模型开发的第一步,图学习平台提供基于 Spark 的构图功能,可以将 Hive 中存储的业务数据转化为 Tulong 自定义的 图数据格式。业务数据经常以事件日志的方式存储,如何从中抽象出图,有大 量的选择。例如,在推荐场景中,业务日志包含用户对商家的点击和下单记 录,除了把”用户 告警:实时日志也是一种实时的数据流,可以作为指标数据上 报的载体,如果把日志数据对接到数据统计平台就能实现指标监控和告警了。 3. 离线数据分析:如果在一些需求场景下需要对数据进行长期化保存或者离线分 析,就可以将数据导入到 Hive 中来实现。 前端 < 617 2.6 日志平台 日志平台的核心功能是为用户提供日志检索支持,日志平台提供了用户标识、自定义 标签、关键字等多种检索过滤方式。在日志底层存储架构的选择上,目前业界广泛使 954 > 2022年美团技术年货 图 1 资源消耗 当前平台性能: 下图是某位图灵用户的实验。使用 100 万数据训练深度模型,总计约 29 亿的数据调 用深度模型,计算评估指标并保存到 Hive,整个实验只需要 35 分钟。其中 Spark 开启 DynamicAllocation,maxExecutor=400 ,单个 Executor 为 7Core16GB。 图 2 实验运行图0 码力 | 1356 页 | 45.90 MB | 1 年前3
2020美团技术年货 算法篇配送线上业务每天会记录许多骑手、商家、用户等维度的数据,这些数据经过 ETL 处理得到所谓的离线特征,算法同学利用这些离线特征训练模型,并在线上利用这些 特征进行模型在线预测。离线特征平台就是将存放在 Hive 表中的离线特征数据生产 到线上,对外提供在线获取离线特征的服务能力,支撑配送各个业务高并发及算法快 速迭代。 算法 < 87 最简单的方案,直接把离线特征存储到 DB 中,线上服务直接读取0 码力 | 317 页 | 16.57 MB | 1 年前3
共 9 条
- 1













