大数据集成 - IT文库_程序员IT互联网编程电子书和文档免费下载，助您码力十足！

首页文库资料文章资讯上传文档发布文章登录账户

AI大模型千问 qwen 中文文档

information. 1.4.4 PPL 评测 llama.cpp 为我们提供了评估 GGUF 模型 PPL 性能的方法。为了实现这一点，你需要准备一个数据集，比如 “wiki 测试”。这里我们展示了一个运行测试的例子。第一步，下载数据集： wget https://s3.amazonaws.com/research.metamind.io/wikitext/wikitext-2-raw-v1 install -e . 假设你已经基于 Qwen1.5-7B 模型进行了微调，并将其命名为 Qwen1.5-7B-finetuned ，且使用的是你自己的数据集，比如 Alpaca。若要构建你自己的 AWQ 量化模型，你需要使用训练数据进行校准。以下，我们将为你提供一个简单的演示示例以便运行： from awq import AutoAWQForCausalLM from transformers from_pretrained(model_path, device_map="auto",␣ �→safetensors=True) 接下来，您需要准备数据以进行校准。您需要做的就是将样本放入一个列表中，其中每个样本都是一段文本。由于我们直接使用微调数据来进行校准，所以我们首先使用 ChatML 模板对其进行格式化。例如： data = [] for msg in messages: msg = c['messages']

0 码力 | 56 页 | 835.78 KB | 1 年前
3
机器学习课程-温州大学-08机器学习-集成学习

1 2022年12月机器学习-集成学习黄海广副教授 2 本章目录 01 集成学习方法概述 02 AdaBoost和GBDT算法 03 XGBoost 04 LightGBM 3 1.集成学习方法概述 01 集成学习方法概述 02 AdaBoost和GBDT算法 03 XGBoost 04 LightGBM 4 Bagging 结果进行综合产生最终的预测结果：集成学习模型n …… 模型1 模型2 预测n …… 预测1 预测2 训练数据最终预测结果测试数据 5 Boosting 训练过程为阶梯状，基模型按次序一一进行训练（实现上可以做到并行），基模型的训练集按照某种策略每次都进行一定的转化。对所有基模型预测的结果进行线性综合产生最终的预测结果。集成学习模型n 最终最终预测结果模型2 预测n …… 预测1 预测2 转化模型1 模型3 转化转化训练数据测试数据 6 集成学习模型n …… 模型1 模型2 预测n …… 预测1 预测2 训练数据第二层数据 Stacking 最终预测结果 Stacking 将训练好的所有基模型对训练基进行预测，第j个基模型对第i个训练样本的预测值将作为新的训

0 码力 | 50 页 | 2.03 MB | 1 年前
3
TensorFlow on Yarn：深度学习遇上大数据

深度学习 + 大数据 TensorFlow on Yarn 李远策 2017年4月17日内容大纲 Ø TensorFlow使用现状及痛点� Ø TensorFlow on Yarn设计� Ø TensorFlow on Yarn技术细节揭秘� Ø 深度学习平台演进及SparkFlow介绍� 背景坐标：360-系统部-⼤数据团队� 专业：Yarn、Spark、MR、HDFS 专业：Yarn、Spark、MR、HDFS …� 挑战：深度学习空前⽕爆，各种深度学习框架层出不穷，业务部门拥抱新兴技术。平台怎么应对？� 机遇：Maybe 深度学习 + ⼤数据 � � TensorFlow使用现状及痛点场景（1）� 场景（2）� TensorFlow使用现状及痛点 !.train.ClusterSpec({ “worker”: [ “worker0.example ⼿动拉取训练模型� TensorFlow使用现状及痛点 • 多⼈多服务器使用混乱，计算资源如何划分？� • 没有GPUs集群资源管理和调度（内存、CPU、GPU、端⼝），集群资源负载不均� • 训练数据⼿动分发，训练模型⼿动保存� • 进程遗留问题，需要⼿动杀死� • 缺乏作业统⼀管理，不便对作业运⾏状态跟踪� • 日志查看不⽅便� � 总结：� TensorFlow使用现状及痛点 •

0 码力 | 32 页 | 4.06 MB | 1 年前
3
数据增强

数据增强主讲人：龙良曲 Big Data ▪ The key to prevent Overfitting Sample more data? Limited Data ▪ Small network capacity ▪ Regularization ▪ Data argumentation Recap Data argumentation ▪ Flip ▪ Rotate

0 码力 | 18 页 | 1.56 MB | 1 年前
3
构建基于富媒体大数据的弹性深度学习计算平台

构建基于富媒体大数据的弹性深度学习计算平台 SPEAKER / 土土@七牛 AtLab Mobile —> 富媒体时代数据存储数据加速数据处理直播点播 Connect 每天超过10亿图像上传超过万亿小时的音视频存储 What are they？内容审核团队运营分析团队 AI？ Content 分类检测分割跟踪描述搜索分析 … … 连接智能人工智能 = 大数据 + 机器学习 Ataraxia AI Lab (AtLab) 色情 0.01 性感 0.98 正常 0.01 特征 id1 戴眼镜性别：男年龄：33 场景：户外／景点／雪山审查：非色情非暴力很健康颜值: ?? “C罗正在带球突破，后有球员追堵” 场景一 00:00:00-00:01:05 描述：事件1-XXXX 事件2-XXXX 事件2-XXXX 人物出现:id1, id2 场景二 … 用户行为用户数据推理结果推理服务数据抽样和整理样本训练模型模型评估 AVA深度学习平台 Caching IO Distributed System Docker Orchestration Storage HDFS SQL NoSQL Caffe MXNet Tensorflow Data

0 码力 | 21 页 | 1.71 MB | 1 年前
3
基本数据类型

基本数据类型主讲人：龙良曲 All is about Tensor python PyTorch Int IntTensor of size() float FloatTensor of size() Int array IntTensor of size [d1, d2 ,…] Float array FloatTensor of size [d1, d2, …] string

0 码力 | 16 页 | 1.09 MB | 1 年前
3
迁移学习-自定义数据集实战

自定义数据集实战主讲：龙良曲 Pokemon Go! Pokemon Dataset https://www.pyimagesearch.com/2018/04/16/keras-and-convolutional-neural-networks-cnns/ Download ▪ 链接: https://pan.baidu.com/s/1V_ZJ7ufjUUFZwD2NHSNMFw

0 码力 | 16 页 | 719.15 KB | 1 年前
3
杨赛赛-基于深度学习的多维时间序列预测在数据机房中的应用

PYCON CHINA 基于深度学习的多维时间序列预测在数据机房中的应用目录 1 背景介绍 2 研究目标 3 研究内容 4 后续工作 1. 背景介绍数据机房面临的能耗问题数据机房面临电量消耗巨大的问题空调是数据机房中电量消耗最大的设备空调为什么那么耗电？怎么优化节能？低效的冷却装置服务主机工作发热影响空调耗电量原因建筑材料隔热和散的全面感知空调对温度的控制存在延迟多维感知温度预测控制 2. 研究目标对数据机房的温度进行预测 ⚫ 根据机房的历史运行数据变化预测未来 XX 分钟机房的温度值，从而实现空调的预测控制。风机状态服务负载天气状况室外温度室外湿度门禁状态时序数据温度预测预测控制节能调节 3. 研究内容 ⚫ 时间序列预测方法的比较传统时间序列预测 ⚫ 混合多维时间序列预测 ⚫ 提取多维序列之间更加复杂的关系 ⚫ 提取维度之间空间依赖关系，长短期依赖关系 ⚫ 算法有LSTNet，TPA-LSTM 多维时间序列预测方法解决机房温度预测对数据包含的信息提取能力越来越强选择 LSTNet 作为温度预测建模算法 ⚫ Convolutional Layer 捕捉时间维度上的短期依赖和维度之间的空间依赖关系 ⚫ Recurrent and

0 码力 | 17 页 | 2.49 MB | 1 年前
3
机器学习课程-温州大学-02机器学习-回归

1 + ?2?2+. . . +????=?T? 注意：若表达式 ℎ ? = ?0 + ?1?1 + ?2?2+. . . +???? + ?，则?可以融入到?0 模型机器学习算法训练数据特征预测结果 8 线性回归-算法流程 ℎ ? = ?0 + ?1?1 + ?2?2 + . . . +???? 要找到一组 ?(?0, ?1, ?2, . . . , ??) ，使得梯度下降：需要选择学习率?，需要多次迭代，当特征数量?大时也能较好适用，适用于各种类型的模型。最小二乘法：不需要选择学习率?，一次计算得出，需要计算 ??? −1 ，如果特征数量?较大则运算代价大，因为矩阵逆的计算时间复杂度为 ?(?3)，通常来说当?小于10000 时还是可以接受的，只适用于线性模型，不适合逻辑回归模型等其他模型。 19 数据归一化/标准化 ?1 ?2 梯度 ?1 的收敛到最优解。 20 数据归一化/标准化归一化（最大 - 最小规范化） ?∗ = ? − ?min ?max − ?min 将数据映射到[0,1]区间 Z-Score标准化 ?∗ = ? − ? ? ?2 = 1 ? ෍ ?=1 ? (? ? −?)2 ? = 1 ? ෍ ?=1 ? ? ? 处理后的数据均值为0，方差为1 数据归一化的目的是使得各特征对

0 码力 | 33 页 | 1.50 MB | 1 年前
3
机器学习课程-温州大学-Scikit-learn

Matplotlib的开源Python机器学习包,它封装了一系列数据预处理、机器学习算法、模型选择等工具,是数据分析师首选的机器学习工具包。自2007年发布以来，scikit-learn已经成为Python重要的机器学习库了， scikit-learn简称sklearn，支持包括分类，回归，降维和聚类四大机器学习算法。还包括了特征提取，数据处理和模型评估三大模块。 5 6 2.Scikit-learn主要用法 Scikit-learn主要用法 03 Scikit-learn案例 7 X_train | 训练数据. X_test | 测试数据. X | 完整数据. 符号标记 2.Scikit-learn主要用法 y_train | 训练集标签. y_test | 测试集标签. y | 数据标签. 8 2.Scikit-learn主要用法导入工具包 from sklearn import s对象、Pandas对象、SciPy的稀疏矩阵及其他可转换为数值型arrays的数据结构作为其输入，前提是数据必须是数值型的 ✓sklearn.datasets模块提供了一系列加载和获取著名数据集如鸢尾花、波士顿房价、Olivetti人脸、MNIST数据集等的工具，也包括了一些toy data如S型数据等的生成工具 from sklearn.datasets import load_iris

0 码力 | 31 页 | 1.18 MB | 1 年前
3

共 74 条前往

页

分类

语言

格式