机器学习课程-温州大学-特征工程1 2021年09月 机器学习-特征工程 黄海广 副教授 2 本章目录 01 相关概念 02 特征构建 03 特征提取 04 特征选择 3 1. 相关概念 01 认识Python 01 相关概念 02 特征构建 03 特征提取 04 特征选择 4 许永洪,吴林颖.中国各地区人口特征和房价波动的动态关系[J].统计研究,2019 是把原始数据转变为模型的训练数据的过程 获取更好的训练数据特征,使得机器学习模型逼 近这个上限 ➢ 使模型的性能得到提升 ➢ 在机器学习中占有非常重要的作用 构成 ➢ 特征构建 ➢ 特征提取 ➢ 特征选择 特征工程相关概念 1. 相关概念 5 通过这张图可以看出,各种不 同算法在输入的数据量达到一 定级数后,都有相近的高准确 度。于是诞生了机器学习界的 名言: 成功的机器学习应用不是 拥有最好的算法,而是拥 Learning. Stanford University 2. 《统计学习方法》,清华大学出版社,李航著,2019年出版 3. 《机器学习》,清华大学出版社,周志华著,2016年出版 4. 《特征工程及 XGBoost模型》,武汉理工大学课件 38 谢 谢!0 码力 | 38 页 | 1.28 MB | 1 年前3
Chaos Mesh让应用与混沌在 Kubernetes 上共舞-杨可奥当前 Chaos Mesh 的 maintainer。在混沌工程的实践和实现上拥有一定经验和见 解。除了 Chaos Mesh 之外还维护有多个受欢迎的开源项目,如 pprof-rs。 云 原 生 社 区 M e e t u p 第 一 期 · 上 海 站 杨可奥 Chaos Mesh核心开发者 Chaos Mesh 让应用与混沌在 Kubernetes 上共舞 演讲人:杨可奥 PingCAP 上 海 站 目录 一、混沌工程的动机 二、Kubernetes 上的混沌工程方案 —— Chaos Mesh 三、Chaos Mesh 的结构,以 NetworkChaos 为例 四、Chaos Mesh 使用案例 混沌工程的动机 事故,任何时候都可能发生 AWS 事故,任何时候都可能发生 Github 关于混沌,我们能知道很多 我们的软件没有混沌现象! 科学的研究方法 作出假设 ● 进行尝试和实验 ● 观察现象 ● 分析和总结 Chaos Engineering 混沌工程正在受到重视 混沌工程正在受到重视 混沌实验?听上去很简单 混沌实验?听上去很简单 1. 5 分钟入门混沌工程 —— 脚本随机杀进程 2. 10 分钟入门混沌工程 —— 脚本随机杀 Pod 3. … 4. 那网络故障呢?磁盘故障呢?恢复呢?如何控制作用范围? 这是一件复杂的事0 码力 | 30 页 | 1.49 MB | 9 月前3
深度学习在百度搜索中的工程实践-百度-曹皓0 码力 | 40 页 | 29.46 MB | 1 年前3
14-Chaos Mesh 在网易伏羲私有云自动化故障注入实践-张慧 目录 网易伏羲私有云简介 为什么混沌测试 什么是混沌测试 如何选择混沌测试工具 为什么是 Chaos Mesh Chaos Mesh 在网易伏羲的实践 网易伏羲私有云简介 网易伏羲私有云简介 AI 模型 支撑游戏业务 云游戏 为什么混沌测试 为什么混沌测试 为什么混沌测试 理想下,系统用不 宕机,100%可用 比如机房突然断电 比如机房突然断电 事故突然的到来 为什么混沌测试 通用指标 阶段性进阶衡量 标准 指标 量化 什么是混沌测试 什么是混沌测试 混沌工程旨在将故障扼杀在襁褓之中,也就是在故障造成中断之前将它们识别出来。通过主动制 造故障,测试系统在各种压力下的行为,识别并修复故障问题,避免造成严重后果。 混沌工程将预想的事情和实际发生的事情进行对比,通过“有意识搞破坏”来提升系统稳定性。 统稳定性。 鲁棒性 故障注入 如何选择混沌测试工具 混沌工具 混沌工具 为什么是 Chaos Mesh 为什么是 Chaos Mesh ● PodChaos: kill / fail / container/... ● NetworkChaos: delay / lose / dup / partition / … ● IOChaos: latency0 码力 | 25 页 | 3.33 MB | 6 月前3
百度APP基于Istio实现基础架构升级 - lightning talk - MichaelXu集中化管理,甚至做到自动决策 Ø 精细故障能力(异常query、注入延迟等)期望能够标准化、低成本跨产品线复制 Ø 百度APP架构缺少上下游模块视图和流量视图,黄金指标不足,导致容量管理压测效率低、混沌工程实施成 本高、故障定位成本高。 #IstioCon 目标 l 服务治理策略平台化 联合公司内部,通过合作共建方式实现完整的Service Mesh架构,提升架构策略灵活性,缩 减服务治理迭代周期,降低服务治理研发成本。 主要介绍如下几个方面: l 稳定性方面 (单点,多点,防雪崩,长尾优化,架构故障韧性能力) l 治理效率方面 (提升一级模块建成效率,二级模块预案能力) l 周边生态方面 (流量复制,稳定性工程,动态调参, 服务可观测性) l 覆盖率方面 (百度APP100%核心模块,流量占比>79.5% ) #IstioCon 收益介绍 – 防雪崩&长尾 长尾优化: LocalityAware负载均衡策略 业务无需代码改动即可开启,在线调整backup超时 分位值、熔断阈值。 2. 支持动态调整配置参数,对接智能调参系统。 防雪崩能力:动态BackupRequest #IstioCon 未来 l 强化稳定性工程。(Case覆盖、故障自动恢复) l 实现现有能力整合。(Mesh作为基础层,完全有能力整合内部Trace系统、压测平台等) l 积极拥抱社区。(积极贡献Istio社区) l 探索新应用。 (机房扩建,流量染色分级等)0 码力 | 9 页 | 2.20 MB | 1 年前3
KubeCon2020/微服务技术与实践论坛/Spring Cloud Alibaba 在 Kubernetes 下的微服务治理最佳实践-方剑Spring Cloud Alibaba 在 Kubernetes 下的微服务治理最 佳实践 方剑 阿里云云原生应用平台 高级开发工程师 观看视频回放 • Spring Cloud Alibaba PMC member • Apache RocketMQ Committer • Alibaba Nacos Committer • 阿里云 MSE 云产品核心研发 方剑(洛夜)自我介绍 https://tanzu.vmware.com/content/blog/ monoliths-to-microservices 微服务拆分原则 DevOps 服务框架 Dubbo 可观测性 混沌工程 服务治理 Spring Cloud 多语言微服务 API管理 服务压测 分布式事务 分布式调度 API网关 服务注册发现 负载均衡 服务配置 无损下线 服务容错 服务路由 服务鉴权 限流降级0 码力 | 27 页 | 7.10 MB | 1 年前3
云计算白皮书热点领域和热点方向,试图在市场上抢得先机。 四是云计算技术不断推陈出新,助力产业高质量发展。随着上 云进程持续加深,企业需求逐步向用云转移,效率、性能、安全等 成为用户关注点,应用现代化、一云多芯、平台工程、云成本优化、 系统稳定性、云原生安全等新技术层出不穷,满足用户多样性场景 需求,助力产业数字化升级。 在此背景下,中国信息通信研究院继《云计算白皮书(2012 年)》 之后第 9 次发布云 标差异控制在有效 区间,从而释放极致算力。 流程层面,平台工程以产品化、自助式的开发者平台,满足多 场景下应用研发需求。平台工程是一种自助式内部开发者平台的技 云计算白皮书(2023 年) 18 术架构和运营管理模式,为云时代的软件工作组织提供应用交付和 管理服务。平台工程师提炼出一套可复用的组件服务和业务流程, 工程化运作成为平台产品,平台产品随着组织变化而演进,其各个 组件可 组件可根据实际使用情况来升级扩展。这类集成产品通常被称为内 部开发者平台,是工程团队已经部署的技术和工具之上的全新一层。 演进路线方面,容器云平台为开发者构建和运行分布式应用带来了 便利,但同时将复杂资源暴露给了开发者,知识门槛高,并且开发 者难以从众多资源中定位业务故障。而容器云平台及传统 PaaS 等经 过平台工程化,可演进为面向开发者的一站式平台,灵活组合 Backstage、Grafana、KubeVela0 码力 | 47 页 | 1.22 MB | 1 年前3
24-云原生中间件之道-高磊考和指引,助力夯实产业互联网的安全底座。 《趋势》认为,2021年将进一步完善个人信息保护体系,企业对个人信息利用规范化,数字安全合规管理将成为企业的必备能力。与此同时,企业还 应将安全作为“一把手工程”,在部署数字化转型的同时,推进安全前置。 前沿的数字化技术也让产业安全有了更多内涵。5G、AI、隐私计算等技术在构筑数字大楼的同时,不仅带来了全新的安全场景,也成为网络安全攻防 当中的利器;202 可以无视环境随时可以进行,覆盖漏洞类型全面, 可以精确定位到代码段 路径爆炸问题,并一定与实际相符合,误报率较 高。 DAST(动态安全应用 程序安全测试) 黑盒测试,通过模拟业务流量发起请求,进行模糊测试,比如故障注入 或者混沌测试 语言无关性,很高的精确度。 难以覆盖复杂的交互场景,测试过程对业务造成 较大的干扰,会产生大量的报错和脏数据,所以 建议在业务低峰时进行。 IAST(交互式应用程序 安全测试) 结合了上面两种 复杂,因为业务上极其重要的地位,发出现先发 的优势,但是带来了后发的劣势: • 大数据平台为业务的营销、决策等活动进行 数字化支撑,这是新时代数字化的核心平台, 唯有数据才是企业的资产。 • 大数据平台大体分成两层:数据应用和数据 工程化引擎 • 在云原生场景下,希望应用能够适应敏态化 的业务场景,数据应用也不例外,目前都在 进行服务化改造和云原生改造 • 大数据引擎早就上云了(IaaS),但是并未云原 生化。 • 但是大数据引擎平台,架构思路过时、组件0 码力 | 22 页 | 4.39 MB | 6 月前3
从Mesos到Kuberneteschange 流量镜像 一键压测 接入层(TCPCopy) 支持流量放大、缩小 一键批处理压测 服务网格 智能负载均衡 流量路由策略 服务保护机制 混沌军团 随机关闭生产环境中的实例,模拟服 务故障 引入人为延时,模拟服务降级 寻找未使用、可被清理的资源 寻找不符合预定义最佳实践的服务 发现和跟踪异常修改,排查安全问题0 码力 | 30 页 | 2.12 MB | 1 年前3
机器学习课程-温州大学-机器学习项目流程02 数据清洗 03 特征工程 04 数据建模 3 1.机器学习项目流程概述 01 机器学习项目流程概述 02 数据清洗 03 特征工程 04 数据建模 4 机器学习的一般步骤 5 机器学习的一般步骤 数据搜集 数据清洗 特征工程 数据建模 6 机器学习的一般步骤 数据搜集 数据清洗 特征工程 数据建模 • 基于性能指标比较几种机 • 解释模型结果 • 得出结论 • 数据清理和格式化 • 探索性数据分析(EDA) • 特征工程 • 特征选择 • 网络下载 • 网络爬虫 • 数据库读取 • 开放数据 • …… 7 2.数据清洗 01 机器学习项目流程概述 02 数据清洗 03 特征工程 04 数据建模 8 2.数据清洗 什么是数据清洗? 数据清洗是指发现并纠正数据文件中可识别的错误的最后一道程序,包 量直方图之间的散点图。 18 3.特征工程 01 机器学习项目流程概述 02 数据清洗 03 特征工程 04 数据建模 19 3.特征工程 特征工程和特征选择 •特征工程: 获取原始数据并提取或创建新特征的过程。这可能意味着需要对 变量进行变换,例如自然对数和平方根,或者对分类变量进行one-hot编码 ,以便它们可以在模型中使用。 一般来说,我认为特征工程是从原始数据 创建附加特征。0 码力 | 26 页 | 1.53 MB | 1 年前3
共 85 条
- 1
- 2
- 3
- 4
- 5
- 6
- 9













