Spark 简介以及与 Hadoop 的对比
物化,控制中间结果的存储、分区等。可以说编程模型比 Hadoop 更灵活。 3. 由于 RDD 的特性,Spark 不适用那种异步细粒度更新状态的应用,例如 web 服务的存 储或者是增量的 web 爬虫和索引。就是对于那种增量修改的应用模型不适合。 2.3 容错性 在RDD计算,通过checkpoint进行容错,做checkpoint有两种方式,一个是checkpoint data,一个是0 码力 | 3 页 | 172.14 KB | 1 年前3机器学习课程-温州大学-机器学习项目流程
对最佳模型执行超参数调 整 • 在测试集上评估最佳模型 • 解释模型结果 • 得出结论 • 数据清理和格式化 • 探索性数据分析(EDA) • 特征工程 • 特征选择 • 网络下载 • 网络爬虫 • 数据库读取 • 开放数据 • …… 7 2.数据清洗 01 机器学习项目流程概述 02 数据清洗 03 特征工程 04 数据建模 8 2.数据清洗 什么是数据清洗?0 码力 | 26 页 | 1.53 MB | 1 年前3
共 2 条
- 1