自然语言处理 - IT文库_程序员IT互联网编程电子书和文档免费下载，助您码力十足！

首页文库资料文章资讯上传文档发布文章登录账户

清华大学 DeepSeek+DeepResearch 让科研像聊天一样简单

北京航空航天大学高研院助理教授清华大学新闻学院与人工智能学院双聘教授沈阳团队博士后何静能做什么？要怎么做？效果如何？一能做什么？数据挖掘数据分析数据采集数据处理数据可视化 AIGC 数据应用通过编写爬虫代码、访问数据库、读取文件、调用API等方式，采集社交媒体数据、数据库内容、文本数据、接口数据等。通过数据清洗、数据集成、数据变换、特征工程等方式，实本质：以多agent实现从数据采集到可视全流程模型特点 Claude 3.5 sonnet  平衡性能：在模型大小和性能之间取得平衡，适合中等规模任务。  多模态支持：支持文本和图像处理，扩展应用场景。  可解释性：注重模型输出的可解释性和透明性。 DeepSeek R1  高效推理：专注于低延迟和高吞吐量，适合实时应用。  轻量化设计：模型结构优化，资源占用少，适合边缘设备（如医疗、法律）进行优化，提供高精度结果。  长文本处理：擅长处理长文本和复杂文档，适合专业场景。  定制化能力：支持用户自定义训练和微调，适应特定需求。 Open AI o3 mini  小型化设计：轻量级模型，适合资源有限的环境。  快速响应：优化推理速度，适合实时交互场景。  通用性强：适用于多种自然语言处理任务，如对话生成和文本理解。爬虫数据采集

0 码力 | 85 页 | 8.31 MB | 8 月前
3
开源中国 2023 大模型(LLM)技术报告

是利用深度学习和大数据训练的人工智能系统，专门设计来理解、生成和回应自然语言。这些模型通过分析大量的文本数据来学习语言的结构和用法，从而能够执行各种语言相关任务。以 GPT 系列为代表，LLM 以其在自然语言处理领域的卓越表现，成为推动语言理解、生成和应用的引擎。 LLM 在多个领域都取得了令人瞩目的成就。在自然语言处理领域，GPT 系列模型在文本生成、问答系统和对话生成等任务中展 (Generative Pre-trained Transformer) 的提出标志着 LLM 技术的飞速发展，其预训练和微调的方法为语言任务提供了前所未有的性能，以此为基础，多模态融合的应用使得 LLM 更全面地处理各种信息，支持更广泛的应用领域。图源：https://postgresml.org/docs/.gitbook/assets/ml_system.svg 4 / 32 LLM 基础设施 LLM 基础设施：大模型框架及微调 (Fine Tuning) 大模型框架指专门设计用于构建、训练和部署大型机器学习模型和深度学习模型的软件框架。这些框架提供了必要的工具和库，使开发者能够更容易地处理大量的数据、管理巨大的网络参数量，并有效地利用硬件资源。微调（Fine Tuning）是在大模型框架基础上进行的一个关键步骤。在模型经过初步的大规模预训练后，微调是用较小、特定领域的数据集对模型进行后续训练，以使

0 码力 | 32 页 | 13.09 MB | 1 年前
3
网易数帆领先的数字化转型技术与服务提供商 2021

中国长三角数字经济大会“数字经济优秀案例企业” CTDC 年度优秀微服务创新产品奖浙江省大数据应用服务创新奖信通院 OSCAR 尖峰开源用户奖教育部科技进步一等奖（ “海量混合时态数据融合处理关键技术及应用”项目）全球云计算大会“全球最佳实践奖” 2021 2020 2019 2018 HONOR 数帆荣誉 07 （部分）北京嗨学网教育科技股份有限公司北京卡车之家信息技术股份有限公司储解耦。先设计后开发业内首个提出中台的模型设计标准，遵循先设计后开发理念，通过模型设计中心对逻辑建模进行指导。统一指标管理基线智能预警海量任务运维和管理，提供异常基线报警处理，辅助任务运维人员完成工作。数据资产360 建立集安全、价值、成本、质量、标准于一体的健康评估指标体系和优化工具，打造360° 无死角数据资产治理体系。指标建设流程规范化，消除指标口径二义性，帮助企业进行与检索，支持任务运行状态各维度 metrics 的汇总与展示，实现全链路监控与智能诊断。 PRODUCT 基于 Apache Flink 构建的高性能、一站式实时大数据处理方案，广泛适用于流式数据处理场景。有数实时计算平台一站式、低门槛分析建模平台，帮助客户更快、更便捷、更智能地挖掘数据价值。有数机器学习平台 19 产品能力产品能力全渠道数据融合支持多渠道数据整合，可灵活

0 码力 | 43 页 | 884.64 KB | 1 年前
3
2023 中国开源开发者报告

Bard，作为其首次亮相的对话 LLM 产品，无疑具有其里程碑意义，尽管它的首秀并不尽如人意，车翻了又翻。三、 Claude 2、PaLM 2、Llama 等模型与产品也展现了 LLM 在语言理解和多模态处理能力方面的探索，甚至 Claude 2 还一度被誉为实力可以硬刚 ChatGPT。而 Meta 开源的 Llama 2 更成为了 LLM 领域开源势力的典型代表，它的出现，犹如一颗投入平静湖面的石子，激荡起层层水波， GPT-2和GPT-3模型开发的前研究人员组建，专注于开发通用 AI 系统和语言模型，并秉持负责任的 AI 使用理念。李彦宏称：“无论是哪家公司，都不可能靠突击几个月就能做出这样的大语言模型。深度学习、自然语言处理，需要多年的坚持和积累，没法速成。” 长度是 Llama 1 的 2 倍，并采用了分组查询注意力机制。具体来说，Llama 2 预训练模型是在 2 万亿的 token 上训练的，微调 Chat 应链原生数据，致力于面向知识密集型、任务型产业场景，解决真实产业问题。 2023 年 6 月，百度智能云推出了基于大模型的 “Comate”代码助手。借助文心大模型的理解、推理能力，“Comate” 可实现代码的快速补齐、自然语言推荐代码、自动查找代码错误，全面提升开发者研发效率。谷歌官宣 ChatGPT 竞品：Bard 2023 年 4 月，陈天奇团队(MLC)发布了一个可将大型语言模型和基于 LLM 的聊天机器人引入

0 码力 | 87 页 | 31.99 MB | 1 年前
3
国家人工智能产业综合标准化体系建设指南（2024版）

协同任务的交互协议、执行效率和协同性能等标准。（三）关键技术标准关键技术标准主要包括机器学习、知识图谱、大模型、自然语言处理、智能语音、计算机视觉、生物特征识别、人机混合增强智能、智能体、群体智能、跨媒体智能、具身智能等标准。 1. 机器学习标准。规范机器学习的训练数据、数据预处理、模型表达和格式、模型效果评价等，包括自监督学习、无监督学习、半监督学习、深度学习、强化学习等标准。 2. 术要求，包括大模型通用技术要求、评测指标与方法、服务能力成熟度评估、生成内容评价等标准。 4. 自然语言处理标准。规范自然语言处理中语言信息提取、文本处理、语义处理等方面的技术要求和评测方法，包括语法分析、语义理解、语义表达、机器翻译、自动摘要、自动问答、语言大模型等标准。 5. 智能语音标准。规范前端处理、语音处理、语音接口、数据资源等技术要求和评测方法，包括深度合成的鉴伪方法、全双工交互、语音大模型等标准。双工交互、语音大模型等标准。 6. 计算机视觉标准。规范图像获取、图像/视频处理、图像内容分析、三维计算机视觉、计算摄影学、跨媒体融合等技术要求和评价方法，包括功能、性能、可维护性等标准。 7. 生物特征识别标准。规范生物特征样本处理、生物特征数据协议、设备或系统等技术要求，包括生物特征数据交换格式、接口协议等标准。 8. 人机混合增强智能标准。规范多通道、多模式和多维度的交互

0 码力 | 13 页 | 701.84 KB | 1 年前
3
清华大学普通人如何抓住DeepSeek红利

I)的中国科技公司，主攻大模型研发与应用。 • DeepSeek-R1是其开源的推理模型，擅长处理复杂任务且可免费商用。性能对齐OpenAI-o1正式版。 • DeepSeek-R1在后训练阶段大规模使用了强化学习技术，在仅有极少标注数据的情况下，极大提升了模型推理能力。在数学、代码、自然语言推理等任务上，性能比肩OpenAl-o1正式版。 (Pass@1) 多模态交互任务执行任务协调工具调用格式转换关系抽取语言理解文案写作代码注释故事创作通用问答专业领域问答因果推理知识推理问答系统逻辑推理自然语言处理文本生成与创作建议生成风险评估辅助决策概念关联知识整合交互能力情感分析文本分类图像理解跨模态转换专业建议任务分解情感回应上下文理解对话能力情感分析(评论、反馈) • 意图识别(客服对话、用户查询) • 实体提取(人名、地点、事件) 知识推理 • 知识推理 • 逻辑问题解答(数学、常识推理 ) • 因果分析(事件关联性) 自然语言理解与分析文本分类 • 文本分类 • 主题标签生成(如新闻分类) • 垃圾内容检测 Mermaid图表 · 流程图 · 时序图 · 类图 · 状态图 · 实体关系图 · 思维导图

0 码力 | 65 页 | 4.47 MB | 8 月前
3
2024 中国开源开发者报告

开发者中间件工具生态 2024 年总结 66 | AI Agent 逐渐成为 AI 应用的核心架构 68 | 谈开源大模型的技术主权问题 72 | 2024:大模型背景下知识图谱的理性回归 77 | 人工智能与处理器芯片架构 89 | 大模型生成代码的安全与质量 93 | 2024 年 AI 大模型如何影响基础软件行业中的「开发工具与环境」 98 | 推理中心化：构建未来 AI 基础设施的关键 Part 更加「接地气」，受到了更多开发者的喜爱。虽然面临资源的挑战，但它们的灵活性和社区驱动力使得它们获得了更多开发者的支持。 9 / 111 本年度最活跃的开源组织不同开源组织在 Issue 解决和 PR 处理数量上的差异，反映了它们在开发活跃度、社区参与度和技术成熟度上的不同战略。技术大厂主导的项目往往具有较高的资源投入和社区管理效率，而民间组织则可能更注重技术问题的快速解决，并逐步吸引更多 openKylin MindSpore openGauss Ascend dromara anolis OpenCloudOS Stream UBML 解决 Issue 处理 PR 10 / 111 编程语言流行趋势 2013 2014 2015 2016 2017 2018 2019 2020 2021 2022 2023 2024 Java JavaScript

0 码力 | 111 页 | 11.44 MB | 8 月前
3
DeepSeek图解10页PDF

生了大型语言模型（（Large Language Model, LLM））的兴起。LLM 在自然语言处理（NLP）领域发挥着越来越重要的作用，广泛应用于智能问答、文本生成、代码编写、机器翻译等任务。LLM 是一种基于深度学习的人工智能模型，其核心目标是通过预测下一个单词来理解和生成自然语言。训练 LLM 需要大量的文本数据，使其能够掌握复杂的语言模式并应用于不同任务。接下来，咱们先从较为基础的概念开始。 Group）训练的模型在本质上存在一些重要区别。主要区别之一，大模型更加通用，这是因为它们基于大量多样化的数据集进行训练，涵盖了不同领域和任务的数据。这种广泛的学习使得大模型具备了较强的知识迁移能力和多任务处理能力，从而展现出“无所不知、无所不晓”的特性。相比之下，我们基于单一数据集训练的模型通常具有较强的针对性，但其知识范围仅限于该数据集的领域或问题。因此，这类模型的应用范围较为局限，通常只能解决特定领域或单一任务的问题。元化，模型最后就会越通用；即使包括噪声数据，模型仍能通过扩展规律提取出通用的知识。而 Transformer 这种架构正好完美做到了 Scaling Laws， Transformer 就是自然语言处理领域实现扩展规律的最好的网络结构。 2.2 Transformer 基础架构 LLM 依赖于 2017 年 Google 提出的 Transformer 模型，该架构相比传统的 RNN（递归神经网络）和

0 码力 | 11 页 | 2.64 MB | 8 月前
3
普通人学AI指南

的研发目标是创造出可以广泛地模拟人类认知能力的智能系统。 1.3 大模型大模型通常指的是大规模的人工智能模型，这类模型通过训练大量的数据来获得广泛的知识和能力。这些模型通常具有庞大的参数数量，能够处理复杂的任务，如自然语言理解、图像识别、语音识别等。闭源大模型包括 OpenAI 的 GPT 系列和 Google 的 BERT。这些模型因其高效的学习能力和强大的通用性而受到关注。开源大模型以 Meta 1.4.1 上下文窗口上下文窗口指的是模型一次可以处理的最大文本长度。这个长度通常用“to- kens”（标记）来表示，每个标记可以是一个单词、子词或单个字符，具体取决于编码方式。上下文窗口大小决定了模型在回答问题或生成文本时可以利用的上下文范围。窗口越大，模型就能处理越长的上下文，对理解长文本内容非常重要。较大的窗口允许模型处理更长的文本片段，从而提高在长文本任务中的表现，如长篇对话、文档生成和分析等。 70B，Phi-3-mini 有 3.8B 参数等。 T（万亿，Trillion）：在英文里是 Trillion 的缩写，表示万亿。在 AI 大模型中，”T” 常用来表示模型在训练中处理的 Token 数量。Token 是指模型处理的基本单元，可以是一个单词、子词，或者字符等。在大规模预训练语言模型的训练中，通常会提到模型是在多少个 Token 上进行学习的，以表明模型的训练规模和数据量。例如：LLaMA3

0 码力 | 42 页 | 8.39 MB | 8 月前
3
DeepSeek从入门到精通(20250204)

国产 + 免费 + 开源 + 强大 • DeepSeek是一家专注通用人工智能（AGI）的中国科技公司，主攻大模型研发与应用。 • DeepSeek-R1是其开源的推理模型，擅长处理复杂任务且可免费商用。 Deepseek可以做什么？直接面向用户或者支持开发者，提供智能对话、文本生成、语义理解、计算推理、代码生成补全等应用场景，支持联网搜索与深度思考模式，同时支持文件上营销文案、广告语生成社交媒体内容（如推文、帖子）剧本或对话设计文本创作长文本摘要（论文、报告）文本简化（降低复杂度）多语言翻译与本地化摘要与改写 02 01 03 文本生成自然语言理解与分析知识推理知识推理逻辑问题解答（数学、常识推理）因果分析（事件关联性）语义分析语义解析情感分析（评论、反馈）意图识别（客服对话、用户查询）实体提取（人名、地点、事件）实体提取（人名、地点、事件）文本分类文本分类主题标签生成（如新闻分类）垃圾内容检测编程与代码相关代码调试 • 错误分析与修复建议 • 代码性能优化提示技术文档处理 • API文档生成 • 代码库解释与示例生成代码生成 • 根据需求生成代码片段（Python、 JavaScript） • 自动补全与注释生成常规绘图

0 码力 | 104 页 | 5.37 MB | 8 月前
3

共 175 条前往

页

分类

语言

格式