数据架构 - IT文库_程序员IT互联网编程电子书和文档免费下载，助您码力十足！

首页文库资料文章资讯上传文档发布文章登录账户

清华大学 DeepSeek+DeepResearch 让科研像聊天一样简单

要怎么做？效果如何？一能做什么？数据挖掘数据分析数据采集数据处理数据可视化 AIGC 数据应用通过编写爬虫代码、访问数据库、读取文件、调用API等方式，采集社交媒体数据、数据库内容、文本数据、接口数据等。通过数据清洗、数据集成、数据变换、特征工程等方式，实现数据纠错、数据整合、格式转换、特征提取等。对数据进行诊断、预测、关联、聚类分析，常用于问题定位、需求预测、推荐系统、异常检测等。定位、需求预测、推荐系统、异常检测等。对数据进行分类、社交网络分析或时序模式挖掘，常用于客户细分、信用评分、社交媒体营销、股价预测等。将数据转化为统计图、热力图、网络关系图、词云、树形图等，用于揭示数据中蕴含的模式、趋势、异常和洞见。本质：以多agent实现从数据采集到可视全流程模型特点 Claude 3.5 sonnet  平衡性能：在模型大小和性能之间取得平衡，适合 mini  小型化设计：轻量级模型，适合资源有限的环境。  快速响应：优化推理速度，适合实时交互场景。  通用性强：适用于多种自然语言处理任务，如对话生成和文本理解。爬虫数据采集 1、阅读网页源代码，提取特定网页内容； 2、撰写python脚本； 3、提取并合并网址； 4、提取网址内容； 5、写入文件。任务你需要完成以下两个任务： 1.阅读网页【网址】源代码【对应网页源代码】。提取所

0 码力 | 85 页 | 8.31 MB | 8 月前
3
国家人工智能产业综合标准化体系建设指南（2024版）

业生产模式和经济发展形态，将对加快建设制造强国、网络强国和数字中国发挥重要的支撑作用。人工智能产业链包括基础层、框架层、模型层、应用层等 4 个部分。其中，基础层主要包括算力、算法和数据，框架层主要是指用于模型开发的深度学习框架和工具，模型层主要是指大模型等技术和产品，应用层主要是指人工智能技术在行业场景的应用。近年来，我国人工智能产业在技术创新、产品创造和行业应用等人工智能标准体系结构包括基础共性、基础支撑、关键技术、智能产品与服务、赋能新型工业化、行业应用、安全 /治理等 7 个部分，如图 1 所示。其中，基础共性标准是人工智能的基础性、框架性、总体性标准。基础支撑标准主要规范数据、算力、算法等技术要求，为人工智能产业发展夯实技术底座。关键技术标准主要规范人工智能文本、语音、图像，以及人机混合增强智能、智能体、跨媒体智能、具身智能等的技术要求，推动人工智能技术创新和应用。智能产（一）基础共性标准基础共性标准主要包括人工智能术语、参考架构、测试评估、管理、可持续等标准。 1. 术语标准。规范人工智能相关技术、应用的概念定义，为其它标准的制定和人工智能研究提供参考，包括人工智能相关术语定义、范畴、实例等标准。 2. 参考架构标准。规范人工智能相关技术、应用及系统的逻辑关系和相互作用，包括人工智能参考架构、人工智能系统生命周期及利益相关方等标准。 3.

0 码力 | 13 页 | 701.84 KB | 1 年前
3
开源中国 2023 大模型(LLM)技术报告

LLM 技术报告大语言模型（LLM）技术作为人工智能领域的一项重要创新在今年引起了广泛的关注。 LLM 是利用深度学习和大数据训练的人工智能系统，专门设计来理解、生成和回应自然语言。这些模型通过分析大量的文本数据来学习语言的结构和用法，从而能够执行各种语言相关任务。以 GPT 系列为代表，LLM 以其在自然语言处理领域的卓越表现，成为推动语言理解、生成和应用的引擎。 LLM 生成、文本摘要、翻译等任务中展现了强大的通用性。本报告从技术人视角出发，将深入探讨 LLM 技术的背景、基础设施、应用现状，以及相关的工具和平台。 2 / 32 LLM Tech Map  向量数据库  数据库向量支持  大模型框架、微调 (Fine Tuning)  大模型训练平台与工具基础设施 LLM Agent  备案上线的中国大模型  知名大模型  知名大模型应用大模型  大模型聚合平台  开发工具 AI 编程  插件、IDE、终端  代码生成工具编程语言 3 / 32 LLM 技术背景 Transformer 架构和预训练与微调策略是 LLM 技术的核心，随着大规模语言数据集的可用性和计算能力的提升，研究者们开始设计更大规模的神经网络，以提高对语言复杂性的理解。 GPT (Generative Pre-trained Transformer)

0 码力 | 32 页 | 13.09 MB | 1 年前
3
DeepSeek图解10页PDF

. . . . . 5 2.1 LLM 基础概念 . . . . . . . . . . . . . . . . . . . . . . . . . . 5 2.2 Transformer 基础架构 . . . . . . . . . . . . . . . . . . . . . . 6 2.3 LLM 基本训练方法 . . . . . . . . . . . . . . . . . . 1 本地部署并运行 DeepSeek 1.1 为什么要在本地部署 DeepSeek 在本地搭建大模型（如 DeepSeek）具有多个重要的优势，比如： 1. 保护隐私与数据安全。数据不外传：本地运行模型可以完全避免数据上传至云端，确保敏感信息不被第三方访问。 2. 可定制化与优化。支持微调（Fine-tuning）：可以根据特定业务需求对模型进行微调，以适应特定任务，如行业术语、企业内部知识库等。就是正式回答，如下图6所示: 图 6: deepseek-r1 回复之正式回答部分 2 DeepSeek 零基础必知为了更深入理解 DeepSeek-R1，首先需要掌握 LLM 的基础知识，包括其工作原理、架构、训练方法。近年来，人工智能（AI）技术的快速发展催生了大型语言模型（（Large Language Model, LLM））的兴起。LLM 在自然语言处理（NLP）领域发挥着越来越重要的

0 码力 | 11 页 | 2.64 MB | 8 月前
3
清华大学第二弹：DeepSeek赋能职场

陈禄梵（清华大学博士生）：人机共生之AI美学理论 • 罗雨果（清华大学拟录博士生）：人机共生之传播分析 • 章艾媛（清华大学博士生）：人机共生之数据分析 • 邹开元（清华大学博士生）：人机共生之文学内容创作 • 向安玲（清华博士后、中央民大助理教授）：人机共生之AI数据分析领域 • 马绪峰（清华博士后、同济大学助理教授）：人机共生之文化艺术创作成员及核心研究方向赛事奖项 2024 “AI4S Cup 题实体识别一等奖第十八届中国计算语言学大会-小牛杯中文幽默计算一等奖第十届全国社会媒体处理大会-中文隐式情感分析一等奖 2021全球开放数据应用创新大赛-基于文本挖掘的企业隐患排查质量分析模型第一名 2021中国计算机学会大数据与计算智能大赛-“千言〞问题匹配鲁棒性评测第一名 2021年全国知识图谱与语义计算大会-医疗科普知识答非所问识别第一名互联网虛假新闻检测2019全球挑战赛-虛假新闻多模态检测如何提问？两种模型的提示语差异 • 基础模型（V3）：“过程-结果”清晰（指令） • 深度思考（R1）：目标清晰，结果可以模糊（推理） RTGO提示语结构 Role（角色）定义AI的角色：经验丰富的数据分析师具备十年销售经验的SaaS系统商务 …… Task（任务）具体任务描述：写一份关于XXX活动的小红书宣推文案写一份关于XX事件的舆论分析报告（XX活动/事件相关背景信息如下……）

0 码力 | 35 页 | 9.78 MB | 8 月前
3
人工智能安全治理框架 1.0

全国网络安全标准化技术委员会 2024年9月人工智能安全治理框架1. 人工智能安全治理原则 …………………………………… 1 2. 人工智能安全治理框架构成 ……………………………… 2 3. 人工智能安全风险分类 …………………………………… 3 3.1 人工智能内生安全风险 ……………………………… 3 3.2 人工智能应用安全风险 ……………………………… 5 4. 技术应对措施开放合作、共治共享。在全球范围推动人工智能安全治理国际合作，共享最佳实践，提倡建立开放性平台，通过跨学科、跨领域、跨地区、跨国界的对话和合作，推动形成具有广泛共识的全球人工智能治理体系。 2. 人工智能安全治理框架构成基于风险管理理念，本框架针对不同类型的人工智能安全风险，从技术、管理两方面提出防范应对措施。同时，目前人工智能研发应用仍在快速发展，安全风险的表现形式、影响程度、认识感知亦随之变化，防范应对措施也将相安全风险方面。通过分析人工智能技术特性，以及在不同行业领域应用场景，梳理人工智能技术本身，及其在应用过程中面临的各种安全风险隐患。 2.2 技术应对措施方面。针对模型算法、训练数据、算力设施、产品服务、应用场景，提出通过安全软件开发、数据质量提升、安全建设运维、测评监测加固等技术手段提升人工智能产品及应用的安全性、公平性、可靠性、鲁棒性- 3 - 人工智能安全治理框架的措施。 2.3 综合治

0 码力 | 20 页 | 3.79 MB | 1 月前
3
普通人学AI指南

能够执行任何智力任务，具备自我意识和自适应学习能力。AGI 的研发目标是创造出可以广泛地模拟人类认知能力的智能系统。 1.3 大模型大模型通常指的是大规模的人工智能模型，这类模型通过训练大量的数据来获得广泛的知识和能力。这些模型通常具有庞大的参数数量，能够处理复杂的任务，如自然语言理解、图像识别、语音识别等。闭源大模型包括 OpenAI 的 GPT 系列和 Google 的 BERT。这些模型因其 Token 数量。Token 是指模型处理的基本单元，可以是一个单词、子词，或者字符等。在大规模预训练语言模型的训练中，通常会提到模型是在多少个 Token 上进行学习的，以表明模型的训练规模和数据量。例如：LLaMA3 语言模型使用了超过 15T 个 token 进行训练。 2 AI 工具梳理大家有没有觉得 AI 工具太多，种类太多，老的还没用，新的就出来，头大得很！有没有这种感觉？所以，在这一章，梳理主流的问答 2.1.1 ChatGPT ChatGPT 是一个由 OpenAI 开发的大型语言模型，它基于 GPT（Generative Pre-trained Transformer）架构。这种模型通过分析大量的文本数据来学习语言结构和信息，使其能够生成连贯的文本、回答问题、撰写文章、进行对话等。 6 Figure 3: AI 问答工具 ChatGPT 经过特别训练，可以理解和生成人类语言，从而在多种应用场景中提

0 码力 | 42 页 | 8.39 MB | 8 月前
3
DeepSeek从入门到精通(20250204)

们通常具备额外的技术，比如强化学习、神经符号推理、元学习等，来增强其推理和问题解决能力。非推理大模型：适用于大多数任务，非推理大模型一般侧重于语言生成、上下文理解和自然语言处理，而不强调深度推理能力。此类模型通常通过对大量文本数据的训练，掌握语言规律并能够生成合适的内容，但缺乏像推理模型那样复杂的推理和决策能力。维度推理模型通用模型优势领域数学推导、逻辑分析、代码生成、复杂问题拆解文本生成、创意写作、多轮对话、开放性问答全局视野概率预测（快速反应模型，如ChatGPT 4o）链式推理(慢速思考模型，如OpenAI o1) 性能表现响应速度快，算力成本低慢速思考，算力成本高运算原理基于概率预测，通过大量数据训练来快速预测可能的答案基于链式思维（Chain-of-Thought），逐步推理问题的每个步骤来得到答案决策能力依赖预设算法和规则进行决策能够自主分析情况，实时做出决策创造力通用模型适配策略 1. 决策需求需权衡选项、评估风险、选择最优解目标 + 选项 + 评估标准要求逻辑推演和量化分析直接建议，依赖模型经验归纳 2. 分析需求需深度理解数据/信息、发现模式或因果关系问题 + 数据/信息 + 分析方法触发因果链推导与假设验证表层总结或分类 3. 创造性需求需生成新颖内容（文本/ 设计/方案）主题 + 风格/约束 + 创新方向

0 码力 | 104 页 | 5.37 MB | 8 月前
3
清华大学 DeepSeek 从入门到精通

们通常具备额外的技术，比如强化学习、神经符号推理、元学习等，来增强其推理和问题解决能力。非推理大模型：适用于大多数任务，非推理大模型一般侧重于语言生成、上下文理解和自然语言处理，而不强调深度推理能力。此类模型通常通过对大量文本数据的训练，掌握语言规律并能够生成合适的内容，但缺乏像推理模型那样复杂的推理和决策能力。维度推理模型通用模型优势领域数学推导、逻辑分析、代码生成、复杂问题拆解文本生成、创意写作、多轮对话、开放性问答全局视野概率预测（快速反应模型，如ChatGPT 4o）链式推理(慢速思考模型，如OpenAI o1) 性能表现响应速度快，算力成本低慢速思考，算力成本高运算原理基于概率预测，通过大量数据训练来快速预测可能的答案基于链式思维（Chain-of-Thought），逐步推理问题的每个步骤来得到答案决策能力依赖预设算法和规则进行决策能够自主分析情况，实时做出决策创造力通用模型适配策略 1. 决策需求需权衡选项、评估风险、选择最优解目标 + 选项 + 评估标准要求逻辑推演和量化分析直接建议，依赖模型经验归纳 2. 分析需求需深度理解数据/信息、发现模式或因果关系问题 + 数据/信息 + 分析方法触发因果链推导与假设验证表层总结或分类 3. 创造性需求需生成新颖内容（文本/ 设计/方案）主题 + 风格/约束 + 创新方向

0 码力 | 103 页 | 5.40 MB | 9 月前
3
【周鸿祎清华演讲】DeepSeek给我们带来的创业机会-360周鸿祎-202502

我们对大模型发展趋势的十大预判 13政企、创业者必读 14 DeepSeek出现之前的十大预判之一传统AGI发展步伐在放慢需要寻找新方向  Scaling Law边际效应递减  人类训练数据接近枯竭  合成数据无法创造新知识  推理能力难以泛化，成本高昂全面超越人类的人工智能在逻辑上不成立政企、创业者必读 15 DeepSeek出现之前的十大预判之二慢思考成为新的发展模式  大推理时计算」  大模型厂商都在探索慢思考、思维链技术政企、创业者必读 DeepSeek出现之前的十大预判之三模型越做越专  除了少数科技巨头，大多数公司都专注于做专业大模型  MoE架构盛行，本质是多个专家模型组成一个大模型  Deepmind的Alpha系列产品是这一趋势的最佳诠释 16政企、创业者必读 DeepSeek出现之前的十大预判之四模型越做越小 17   大模型进入「轻量化」时代，上车上终端，蒸馏小模型  先做得更大，然后探索能做多小政企、创业者必读 DeepSeek出现之前的十大预判之五知识的质量和密度决定大模型能力  高质量数据、合成数据使模型知识密度的快速增长  大模型能以更少的参数量达到更高的性能  360联合北大研发：5%参数量逼近Deepseek-R1满血性能 18政企、创业者必读 DeepSeek出现之前的十大预判

0 码力 | 76 页 | 5.02 MB | 6 月前
3

共 13 条前往

页

分类

语言

格式