机器学习课程-温州大学-11机器学习-降维## 机器学习-降维 黄海广 副教授 2022年02月 ## 本章目录 01 降维概述 02 SVD(奇异值分解) 03 PCA(主成分分析) ### 1. 降维概述 ## 01 降维概述 02 SVD(奇异值分解) 03 PCA(主成分分析) ### 1. 降维概述 维数灾难(Curse of Dimensionality):通常是指在涉及到向量的计算的问题中,随着维数的增加,计算量呈指数倍增长的一种现象。 [Image](/uploads/documents/3/1/5/8/3158ee0662bc2ab161ebdef24b0b5627/p4_3.jpg) ### 1. 降维概述 ## 维数灾难 维数灾难涉及数字分析、抽样、组合、机器学习、数据挖掘和数据库等诸多领域。在机器学习的建模过程中,通常指的是随着特征数量的增多,计算量会变得很大,如特征达到上亿维的话,在进行计算的时候是算不出来的。有的时候,维度太大也会 特征维数所需的计算训练时间; • 数据集特征的降维有助于快速可视化数据; • 通过处理多重共线性消除冗余特征。 降维的缺点: • 由于降维可能会丢失一些数据; 在主成分分析(PCA)降维技术中,有时需要考虑多少主成分是难以确定的,往往使用经验法则 ### 1. 降维概述  PCA 是降维最经典的方法,它旨在是找到数据中的主成分,并利用这些主成分来表征原始数据,从而达到降维的目的。 PCA 的思想是通过坐标轴转换,寻找数据分布的最优子空间。 ### 3. 特征提取 ## 降维 2. ICA(Independent Component Analysis,独立成分分析) ICA独立成分分析,获得的是相互独立的属性。ICA算法本质寻找一个线性变换 z = Wx,使得 z 的各个特征分量之间的独立性最大。 步骤 PCA 对数据进行降维  ICA 来从多个维度分离出有用数据 PCA 是 ICA 的数据预处理方法 ### 3. 特征提取 ## 图像特征提取 ### 1. SIFT 特征 优点: 具有旋转、尺度、平移、视角及亮度不变性,有利于对目标特征信息进行有效表达; SIFT 特征对参数调整鲁棒性好,可以根据场景需要调整适宜的特征点数量进行特征描述,以便进行特征分析。 缺点:不借助硬件加速或者专门的图像处理器很难实现。0 码力 | 38 页 | 1.28 MB | 2 年前3
机器学习课程-温州大学-Scikit-learnScikit-learn概述 Scikit-learn是基于NumPy、SciPy和Matplotlib的开源Python机器学习包,它封装了一系列数据预处理、机器学习算法、模型选择等工具,是数据分析师首选的机器学习工具包。 自2007年发布以来,scikit-learn已经成为Python重要的机器学习库了,scikit-learn简称sklearn,支持包括分类,回归,降维和聚类四大机器学 decomposition import PCA 导入PCA库,设置主成分数量为3,n_components代表主成分数量 pca = PCA(n_components=3) 训练模型 pca.fit(X) 投影后各个特征维度的方差比例(这里是三个主成分) print(pca.explained_variance_ratio_) 投影后的特征维度的方差 print(pca.explained_variance_)0 码力 | 31 页 | 1.18 MB | 2 年前3
Rust API可靠性分析与验证API可靠性分析与验证 姜剑峰 ## 主题内容 • Rust第三方库API可靠性现状 • 现用方法的局限性 - 基于程序合成+模糊测试的可靠性分析方法 ## 自我简介 • 本(2019)硕(2022)毕业于复旦大学 - 目前在蚂蚁集团安全计算部门开发应用于机密计算的Rust系统软件 - 研究生期间主要从事Rust测试与验证工具的研究,本人所在的是国内最早开展Rust程序分析相关研究的实 所有动态检查都不应该被违背(可以被安全的移除),除非panic是一种允许的行为 ## 现有的可靠性分析方法及其局限性 模糊测试(afl.rs, libfuzzer): 分支覆盖率;用例程序的构造 符号执行(klee, angr):路径爆炸;求解困难 静态分析(MirChecker, Rudra, SafeDrop):分析特定问题;假阳性 形式化验证(RustBelt):无法方便的验证第三方库 其他工具(Miri等) 结论以及未来的发展 1. Rust优秀的语言设计避免了大量可能发生的潜在错误 2. 目前Rust程序合成的难点在于unsafe代码,泛型与trait,宏等 3. 保障Rust程序的可靠性仍然需要各种程序分析以及软件测试的手段 ## Thanks ## Rust China Conf 2021-2022 – Online, China0 码力 | 13 页 | 1.68 MB | 2 年前3
DataEase 嵌入式分析 2024年3月## DataEase 嵌入式分析 2024年3月 ## 人人可用的 开源数据可视化分析工具 DataEase 可以帮助用户快速分析业务数据并洞察其趋势,从而实现业务的改进与优化。DataEase 支持丰富的数据源连接,能够通过拖拉拽的方式快速制作图表,并且可以方便地与他人进行分享。 ## FIT2CLOUD 飞致云 ## DataEase v2 的不同版本对比 |版本类型|社区版|嵌入式版|企业版| |---|---|---|---| |目标群体|任何用户|ISV / 系统集成商|最终客户| |产品功能|社区版功能|社区版功能 + X-Pack 部分功能(含嵌入式分析能力)注:单数据集限制 10 万行数据。|社区版功能 + X-Pack 所有功能(含嵌入式分析能力)注:数据集无行数限制。| |销售方式|社区分发免费使用|线上销售 / 线下推广标准化合同模板|线下推广线下商务流程| |授权方式|免费永久使用|按 ×8)|原厂企业级技术支持服务(基础级,5×8;增强级,7×24)| 嵌入式分析可以给 ISV 带来哪些价值? DataEase 嵌入式分析的方案 DataEase 嵌入式分析的优势 在线体验 & 嵌入流程介绍 ## 什么是嵌入式分析? 嵌入式分析是可以嵌入在商业应用程序中,为应用软件提供或者增强分析功能的专业 BI 软件。 ## " Embedding analytics0 码力 | 29 页 | 7.29 MB | 1 年前3
基于静态分析的Rust内存安全缺陷检测研究## 基于静态分析的Rust内存安全缺陷检测研究 报告人:徐辉 复旦大学 报告日期:2022.11.25 ## 大纲 一、问题背景 二、Rust指针缺陷检测方法 三、实验结论 四、论文发表心得 ## 大纲 一、问题背景 二、Rust指针缺陷检测方法 三、实验结论 四、论文发表心得 ## Rust语言 ## 系统级安全编程语言 手动释放内存或调用析构函数 函数返回时发生的自动析构或内存释放 ☐ Rust设计的目标之一是编译时检查指针别名(共享可变引用) 但一般意义上的指针分析是NP-hard问题 智能指针可行,但作为运行时方案,效率低 ■ Rust在语法设计中引入所有权机制,简化指针分析问题 ## Rust所有权模型 => XOR Mutability ☐ 一个对象有且只有一个所有者 ☐ 所有权可以转移给其它变量 访问v造成use-after-free 15 /*double free: v is released when the function returns*/ 16 } ## 从Rust MIR分析Auto Memory Reclaim问题 0 码力 | 28 页 | 1.55 MB | 2 年前3
202306 ⼈⼈可⽤的开源数据可视化分析⼯具## DataEase ## 人人可用的开源数据可视化分析工具 2023 年 6 月 数据可视化对企业的价值 DataEase 开源项目介绍 DataEase 模板市场 DataEase 企业版介绍 ## 数据可视化对企业的价值 原始数据  ## FIT2CLOUD 飞致云 数据→信息→价值 可视化 数据孤岛 管理混乱 缺失分析 可以为企业运营带来直接收益 ## 数据价值  全业务场景 用户行为管理 数据驾驶舱 ## 数据可视化对不同人员的价值 数据可视化对不同人员的价值 ## FIT2CLOUD 飞致云 ## 前端业务人员 能够快速、高效地提供体验良好的数据展现手段,通过分析数据资产的质量,助力企业做出更加准确的业务策略。 ## 数据管理人员 提供多种数据使用模式,提供更为丰富、安全的数据管理手段,有助于企业内部进行更为广泛的数据整合与分析,并由此创造数据价值。 ## 企业管理者 能够合理评估、规范和洞察企业信息,洞悉企业发展趋势,在有效管理 IT0 码力 | 27 页 | 3.61 MB | 2 年前3
Chatbots 中对话式交互系统的分析与应用R-Bot:检索问答系统 KB/KG 问题 问题分析 检索 排序 词/同义词  答案[列表] 实体识别 问题分类 同类词 TF-IDF LtR 指代消解 词向量 CNN/RNN 关系抽取 情感分析 ## I R-Bot:深度学习 对话交互的价值:在哪儿/在那儿 • 行业早期,价值待验证 • “能帮我把转化率提升50%吗?” • 需求界定师:砍掉不合实际的需求 • “能不能把我的销售、客服全换成机器人?” • “能不能通过分析上课视频,来解答学生的问题?” · 对话设计师:怎么更优雅地达到目的 · “公交车上你会给老人让座吗?” - 做能做且有价值的事,努力把不能做的事变成可做的 Thanks # 爱因互动,欢迎你的加入0 码力 | 39 页 | 2.24 MB | 2 年前3
Flink如何实时分析Iceberg数据湖的CDC数据Flink如何实时分析Iceberg数据湖的CDC数据 阿里巴巴 李劲松/胡争 FLINK FORWARD #ASIA 2020 #1 #2 #3 #4 常见的CDC 为何选择 Flink 如何实时写 未来规划 分析方案 + Iceberg 入读取 FLINK FORWARD #ASIA 2020 ## #1 常见的CDC分析方案 ## 离线 HBase 集群分析 CDC 数据 MySQL $ ^{®} $ → HBASE ## 方案评估 优点 1、CDC记录实时写入HBase。高吞吐+低延迟。 2、小范围查询延迟低。 3、集群可拓展 缺点 1、行存索引不适合分析任务。 2、HBase集群维护成本较高。 3、通过RegionServer定位HFile,Server的优化和缓存完全用不上。 4、数据格式绑定HFile,不方便拓展到Parquet、Avro、Orc等。 FORWARD #ASIA 2020 ## Apache Kudu 维护 CDC 数据集 ## MySQL ## 方案评估 优点 1、支持实时更新数据,时效性佳。 2、列存加速,适合OLAP分析。 ## 缺点 1、独立的Kudu集群,比较小众。维护成本高。 2、和 HDFS / S3 / OSS 等割裂。数据独立,且存储成本不如 S3 / OSS。 3、Kudu的批量扫描不如parquet。0 码力 | 36 页 | 781.69 KB | 2 年前3
共 1000 条
- 1
- 2
- 3
- 4
- 5
- 6
- 100













