《TensorFlow 快速入门与实战》4-实战TensorFlow房价预测
第四部分 实战 TensorFlow 房价预测 扫描二维码 试看/购买《TensorFlow 快速入门与实战》视频课程 • 房价预测模型介绍 • 使用 TensorFlow 实现房价预测模型 • 使用 TensorBoard 可视化模型数据流图 • 实战 TensorFlow 房价预测 第四部分 目录 房价预测模型介绍 前置知识:监督学习(Supervised Learning) 前置知识:梯度下降 单变量房价预测问题 假设函数: 面积(平方英尺) 价格(美元) 2104 399900 1600 329900 2400 369000 1416 232000 3000 539900 1985 299900 1534 314900 1427 198999 1380 212000 1494 242500 训练数据: 多变量房价预测问题:数据分析 面积(平方英尺) 198999 1380 3 212000 1494 3 242500 训练数据: 数据分布: 多变量房价预测问题:特征归一化 房屋面积和卧室数量这两个变量(特征)在数值上差了1000倍。在这种情况下,通常先进 行特征缩放(Scaling),再开始训练,可以加速模型收敛。 平均值 标准差 多变量房价预测问题 面积(平方英尺) 卧室数量(个) 价格(美元) 0.13001 -0.22368 00 码力 | 46 页 | 5.71 MB | 1 年前3机器学习课程-温州大学-特征工程
特征选择 3 1. 相关概念 01 认识Python 01 相关概念 02 特征构建 03 特征提取 04 特征选择 4 许永洪,吴林颖.中国各地区人口特征和房价波动的动态关系[J].统计研究,2019,36(01) 文献解读 定义 目的 作用 是把原始数据转变为模型的训练数据的过程 获取更好的训练数据特征,使得机器学习模型逼 近这个上限 ➢ 使模型的性能得到提升 度。于是诞生了机器学习界的 名言: 成功的机器学习应用不是 拥有最好的算法,而是拥 有最多的数据! 数据决定一切 数据大小 准 确 率 1. 相关概念 6 许永洪,吴林颖.中国各地区人口特征和房价波动的动态关系[J].统计研究,2019,36(01) 项目 特征提取 特征选择 共同点 都从原始特征中找出最有效的特征 都能帮助减少特征的维度、数据冗余 区别 ➢ 强调通过特征转换的方式得 特征提取VS特征选择 1. 相关概念 7 2. 特征构建 01 相关概念 02 特征构建 03 特征提取 04 特征选择 8 许永洪,吴林颖.中国各地区人口特征和房价波动的动态关系[J].统计研究,2019,36(01) 特征构建:是指从原始数 据中人工的找出一些具有 物理意义的特征。 方法:经验、属性分割和 结合 操作:使用混合属性或者 组合属性来创建新的特征0 码力 | 38 页 | 1.28 MB | 1 年前3PaddleDTX 1.1.0 中文文档
训练任务由计算需求方发起: $ ./requester-cli task publish -a "linear-vl" -l "MEDV" --keyPath './keys' -t "train" -n "房价预测任务v3" -d "hahahha" -p "id,id" --conf ./testdata/executor/node1/conf/config.toml -f "01edba10-ef04-4096-a984- ‘–ev’、’–evRule’等参数: $ ./requester-cli task publish -a "linear-vl" -l "MEDV" --keyPath './keys' -t "train" -n "房价预测任务v3" -d "hahahha" -p "id,id" --conf ./testdata/executor/node1/conf/config.toml -f "01edba10-ef04-4096-a984- 为预测数 据计算出预测结果。 $ ./requester-cli task publish -a "linear-vl" --keyPath './keys' -t "predict" -n "房价任务v3" -d "hahahha" -p "id,id" --conf ./testdata/executor/node1/conf/config.toml -f "01d3b812-4dd7-4deb-a48d-0 码力 | 57 页 | 1.38 MB | 1 年前3PaddleDTX 1.0.0 中文文档
训练任务由计算需求方发起: $ ./requester-cli task publish -a "linear-vl" -l "MEDV" --keyPath './keys' -t "train" -n "房价预测任务v3" -d "hahahha" -p "id,id" --conf ./testdata/executor/node1/conf/config.toml -f "01edba10-ef04-4096-a984- 为预测数 据计算出预测结果。 $ ./requester-cli task publish -a "linear-vl" --keyPath './keys' -t "predict" -n "房价任务v3" -d "hahahha" -p "id,id" --conf ./testdata/executor/node1/conf/config.toml -f "01d3b812-4dd7-4deb-a48d- PaddleDTX 解决波士顿房价预测问题,帮助您更好的理 解 PaddleDTX。 您可以参考 快速安装 来准备 PaddleDTX 的环境。 案例简介 本案例中我们使用了来自 UCI 机器学习数据库中的波士顿房屋信息数据。该 数据集统计了波士顿郊区不动产税、城镇人均犯罪率等共计13个特征指标和平 均房价,我们通过机器学习找到特征指标和房价之间的关系,进而预测该地区 房价,这是一个典型线性回归计算案例。0 码力 | 53 页 | 1.36 MB | 1 年前3PaddleDTX 1.0.0 中文文档
PaddleDTX 解决波士顿房价预测问题,帮助您更好的理解 PaddleDTX。 您可以参考 快速安装 来准备 PaddleDTX 的环境。 7.1 案例简介 本案例中我们使用了来自 UCI 机器学习数据库中的波士顿房屋信息数据。该数据集统计了波士顿郊区不动产 税、城镇人均犯罪率等共计 13 个特征指标和平均房价,我们通过机器学习找到特征指标和房价之间的关系, 进而预测该地区房价,这是一个典型线性回归计算案例。 10000 美元的全值财产税率 • PTRATIO: 城镇师生比例 • B: 城镇中黑人比例 • LSTAT: 人口中地位低下者的比例 目标变量 (也称为标签变量) 为: • MEDV: 房价中位数 我们从数据集中随机选取了部分数据作为测试集,其余为训练集,训练集为模型训练使用的样本数据,测试 集用来验证我们的模型。同时, 我们又将数据集纵向拆分为两部分,每部分包含不同的特征变量,分别由不 命令执行说明: • upload_sample_files 命令会自动化执行如下 2 个步骤: 1. 为数据持有方 A 与 B 分别创建文件存储所需的命名空间 2. 上传数据持有方 A 与 B 拥有的波士顿房价预测和鸢尾花数据分类所需的训练及预测样本文件 每个步骤对应的客户端命令详情参考 操作 XuperDB 。 样本上传执行结果说明: 7.3. 上传样本文件 29 PaddleDTX Documentation0 码力 | 57 页 | 624.94 KB | 1 年前3PaddleDTX 1.1.0 中文文档
PaddleDTX 解决波士顿房价预测问题,帮助您更好的理解 PaddleDTX。 您可以参考 快速安装 来准备 PaddleDTX 的环境。 7.1 案例简介 本案例中我们使用了来自 UCI 机器学习数据库中的波士顿房屋信息数据。该数据集统计了波士顿郊区不动产 税、城镇人均犯罪率等共计 13 个特征指标和平均房价,我们通过机器学习找到特征指标和房价之间的关系, 进而预测该地区房价,这是一个典型线性回归计算案例。 10000 美元的全值财产税率 • PTRATIO: 城镇师生比例 • B: 城镇中黑人比例 • LSTAT: 人口中地位低下者的比例 目标变量 (也称为标签变量) 为: • MEDV: 房价中位数 我们从数据集中随机选取了部分数据作为测试集,其余为训练集,训练集为模型训练使用的样本数据,测试 集用来验证我们的模型。同时, 我们又将数据集纵向拆分为两部分,每部分包含不同的特征变量,分别由不 命令执行说明: • upload_sample_files 命令会自动化执行如下 2 个步骤: 1. 为数据持有方 A 与 B 分别创建文件存储所需的命名空间 2. 上传数据持有方 A 与 B 拥有的波士顿房价预测和鸢尾花数据分类所需的训练及预测样本文件 每个步骤对应的客户端命令详情参考 操作 XuperDB 。 样本上传执行结果说明: 7.3. 上传样本文件 31 PaddleDTX Documentation0 码力 | 65 页 | 687.09 KB | 1 年前3Chatbots 中对话式交互系统的分析与应用
获得更为人性化的答案 • “谁是爱因互动CEO?” • 王守崑 • 王守崑是爱因互动CEO • 定型词(LAT) • 依据给定的一段话,回答对应的提问 • “2016年房价涨了,开发商很高兴” • 房价涨了谁高兴? • 哪年房价涨了? • 不同的问题使用不同的方法 爱因互动:DeepBot框架 • 不同的问题使用不同的方法 合作方式总结 快速部署 深度定制 持续迭代 价值优先 总结:0 码力 | 39 页 | 2.24 MB | 1 年前3动手学深度学习 v2.0
4.9.5 机器学习中的公平、责任和透明度 . . . . . . . . . . . . . . . . . . . . . . . . . . . 179 4.10 实战Kaggle比赛:预测房价 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 180 4.10.1 下载和缓存数据集 . . . . 虑到这一细节,进而更频繁地被推荐。综上所述,关于如何处理审查、激励和反馈循环的许多问题,都是重 要的开放性研究问题。 序列学习 以上大多数问题都具有固定大小的输入和产生固定大小的输出。例如,在预测房价的问题中,我们考虑从一 组固定的特征:房屋面积、卧室数量、浴室数量、步行到市中心的时间;图像分类问题中,输入为固定尺寸 的图像,输出则为固定数量(有关每一个类别)的预测概率;在这些情况下,模型只会将输入作为生成输出 “法国”= “巴黎”。 • 因果关系(causality)和概率图模型(probabilistic graphical models)问题:我们能否描述观察到的 许多数据的根本原因?例如,如果我们有关于房价、污染、犯罪、地理位置、教育和工资的人口统计数 据,我们能否简单地根据经验数据发现它们之间的关系? • 生成对抗性网络(generative adversarial networks):为我们提供一种合成数据的方法,甚至像图像和0 码力 | 797 页 | 29.45 MB | 1 年前3机器学习课程-温州大学-02机器学习-回归
线性回归 02 梯度下降 03 正则化 04 回归的评价指标 4 监督学习分为回归和分类 ✓ 回归(Regression、Prediction) ✓ 如何预测上海浦东的房价? ✓ 未来的股票市场走向? ✓ 分类(Classification) ✓ 身高1.85m,体重100kg的男人穿什么尺码的T恤? ✓ 根据肿瘤的体积、患者的年龄来判断良性或恶性? 回归的概念 是一种通过属性的线性组合来进行预测 的线性模型,其目的是找到一条直线或 者一个平面或者更高维的超平面,使得 预测值与真实值之间的误差最小化。 6 线性回归-符号约定 建筑面积 总层数 楼层 实用面积 房价 143.7 31 10 105 36200 162.2 31 8 118 37000 199.5 10 10 170 42500 96.5 31 13 74 31200 …… …… ……0 码力 | 33 页 | 1.50 MB | 1 年前3机器学习课程-温州大学-Scikit-learn
象、SciPy的稀 疏 矩阵及其他可转换为数值型arrays的数据结构作为其输入,前提是 数据必须是数值型的 ✓sklearn.datasets模块提供了一系列加载和获取著名数据集如鸢尾 花、波士顿房价、Olivetti人脸、MNIST数据集等的工具,也包括了一 些toy data如S型数据等的生成工具 from sklearn.datasets import load_iris iris =0 码力 | 31 页 | 1.18 MB | 1 年前3
共 15 条
- 1
- 2