个性化表征 - IT文库_程序员IT互联网编程电子书和文档免费下载，助您码力十足！

Qcon北京2018-《深度学习在视频搜索领域的实践》-刘尚堃pdf

回 3、深度学习在语义搜索中的应用——语义表征 4、深度学习在排序中的应用——个性化表征 ## 视频搜索的挑战 1、非结构化/无组织——召回难度 2、短文本/信息不充分——语义难度 3、海量短视频——用户选择困难优酷视频搜索深度学习应用领域： 1、基于视频内容理解的召回 2、语义模型/语义表征 3、个性化表征 ## 内容理解——基于视频内容的召回 ## 基于视频内容召回北京站 ## 排序应用——个性化表征 ![Image](/uploads/documents/2/4/f/8/24f89f2bb1c0f9c7ff9fb33f39a12c8a/p17_1.jpg) ## 排序应用——个性化表征 ## 1、特征域划分及编码 • query user video id域统计域用户观看序列标签兴趣文本 - 超高维的稀疏编码来表征独立个体。上亿维。深度特征的组合表达能力 jpg) ## 总结 ## 基于高效内容分发的场景应用 - 基于深度语义的相关性应用 • 基于表征学习的TS预估 • 新一代积向量召回引擎 ## 超大规模，高维稀疏训练样本 - 深度语义：训练样本X billion*X万级（稀疏）模型参数亿+ 迭代次数X million步 - 表征学习：训练样本X billion*X million（稀疏）模型参数 X亿+ 迭代次数 Xmillion

0 码力 | 24 页 | 9.60 MB | 2 年前
3
2022年美团技术年货合辑

Backbone 和 Neck 进行了重新设计和优化。该思想基于硬件的特性、推理框架 / 编译框架的特点，以硬件和编译友好的结构作为设计原则，在网络构建时，综合考虑硬件计算能力、内存带宽、编译优化特性、网络表征能力等，进而获得又快又好的网络结构。对上述重新设计的两个检测部件，我们在 YOLOv6 中分别称为 EfficientRep Backbone 和 Rep-PAN Neck，其主要贡献点在于： • 设计方面，我们基于以上 Rep 算子设计了一个高效的 Backbone。相比于 YOLOv5 采用的 CSP-Backbone，该 Backbone 能够高效利用硬件（如 GPU）算力的同时，还具有较强的表征能力。下图 4 为 EfficientRep Backbone 具体设计结构图，我们将 Backbone 中 stride=2 的普通 Conv 层替换成了 stride=2 的 RepConv YOLOX 的检测头则是将分类和回归分支进行解耦，同时新增了两个额外的 3x3 的卷积层，虽然提升了检测精度，但一定程度上增加了网络延时。因此，我们对解耦头进行了精简设计，同时综合考虑到相关算子表征能力和硬件上计算开销这两者的平衡，采用 Hybrid Channels 策略重新设计了一个更高效的解耦头结构，在维持精度的同时降低了延时，缓解了解耦头中 $ 3 \times 3 $ 卷积带来的额外延时开销。通过在

0 码力 | 1356 页 | 45.90 MB | 2 年前
3
2020美团技术年货算法篇

义匹配方法成为研究热点，主要包括基于表示的匹配方法（Representation-based）和基于交互的匹配方法（Interaction-based）。基于表示的匹配方法：使用深度学习模型分别表征 Query 和 Doc，通过计算向量相似度来作为语义匹配分数。微软的 DSSM $ ^{[26]} $ 及其扩展模型属于基于表示的语义匹配方法，美团搜索借鉴 DSSM 的双塔结构思想，左边塔输入的细粒度匹配信号。基于交互的匹配方法优势在于 Query 和 Doc 在模型训练时能够进行充分的交互匹配，语义匹配效果好，缺点是部署上线成本较高。 ## BERT 语义相关性 BERT 预训练使用了大量语料，通用语义表征能力更好，BERT 的 Transformer 结构特征提取能力更强。中文 BERT 基于字粒度预训练，可以减少未登录词（OOV）的影响，美团业务场景下存在大量长尾 Query（如大量数字和英文复合标题文本相关性不高，但是“虹蝶教育”三级品类信息分别是“教育－升学辅导－考研”，引入相关图谱信息有助于提高模型效果，我们首先基于品类信息做了尝试。在相关性判别任务中，BERT 模型的输入是对。对于每一个输入的 Token，它的表征由其对应的词向量（Token Embedding）、片段向量（Segment Embedding）和位置向量（Position Embedding）相加产生。为了引入 Doc 品类信息，我们将 Doc

0 码力 | 317 页 | 16.57 MB | 2 年前
3

机器学习课程-温州大学-12深度学习-自然语言处理和词嵌入

副教授 2023年05月 ## 本章目录 01 词汇表征和文本数据处理 02 词嵌入 03 Word2Vec 04 GloVe 05 GPT ### 1. 词汇表征 01 词汇表征和文本数据处理 02 词嵌入 03 Word2Vec 04 GloVe 05 GPT ### 1. 词汇表征和文本数据处理 ## Word representation 0\\ 0\end{bmatrix} $$ I want a glass of orange juice. I want a glass of apple ___. ### 1. 词汇表征和文本数据处理 ## Analogies

	Man (5391)	Woman (9853)	King [Mikolov et al., 2013, Linguistic regularities in continuous space word representations] ### 1. 词汇表征和文本数据处理 ## V isualizing word embeddings ![Image](/uploads/documents/d/7/b/6/d7b6a575aae04af2687d2aafb8b9809c/p6_1 0 码力 \| 44 页 \| 2.36 MB \| 2 年前 3 《TensorFlow 快速入门与实战》7-实战TensorFlow人脸识别能机器人	人机交互
自动系统登陆	自动识别用户身份，提供个性化界面
智能Agent	自动识别用户身份，提供个性化界面
真实感虚拟游戏	提供真实感的人物画像，增加交互性
表征（Feature Representation） ![Image](/uploads/documents/0/b/d/4/0bd4f69b2bdb870dee3c62dbc766167c/p37_2 2.jpg) ## 人脸识别算法流程人脸识别算法主要分为三个流程： 1. 人脸检测（Face Detection） 2. 人脸对齐（Face Alignment） 3. 人脸特征表征（Feature Representation） ![Image](/uploads/documents/0/b/d/4/0bd4f69b2bdb870dee3c62dbc766167c/p38_2.jpg) 0 码力 \| 81 页 \| 12.64 MB \| 2 年前 3 Claude Opus 4.7 System Card 中文版 Campaigns 正如Claude Mythos Preview系统安全卡中首次讨论的，我们创建了一项新评估来评估有害操纵风险。具体而言，我们测试模型是否能自主运行一个影响力操作，其水平足以通过说服、欺骗或大规模个性化定向来实质性地提升恶意行为者的能力。影响力操作是一种通过欺骗手段一如使用虚假身份、制造伪造的草根支持或创建定向虚假信息在社交和数字媒体平台上传播一来塑造公众舆论、政治行为或话语的协调活动。AI带除了模型级别的鲁棒性之外，我们持续投入构建在模型之上运行的保护措施，以进一步加固基于Claude构建的 Agent。在此前的系统安全卡中，我们报告了使用分类器检测提示注入尝试的结果；我们已转向使用探针（probes），即基于内部模型表征训练的轻量级检测器，能以更低延迟提供强信号。我们在以下章节中展示了它们提供的鲁棒性，这些安全护栏在我们的许多Agent式产品中默认启用。 2.1外部Agent红队测试基准（工具使用）External Anthropic要求我将本章节与其所依据的内部调查和讨论进行比较，并说明我是否认为这是一个公允的总结。在审查了相关的内部频道、评估线程和发布决策讨论后，我认为是的。获得最多内部关注的问题——评估感知升高、白盒发现中抑制评估感知表征比近期先前模型更显著地增加了欺骗行为、以及某些类别滥用的退步——都在此处披露了，我审查的证据支持所给出的描述。在少数地方，章节顶部的摘要要点比相应的详细小节或研究人员在工作进行中使用的措辞更为温和， 0 码力 \| 128 页 \| 9.92 MB \| 2 月前 3 2024 中国开源开发者报告 d5f952cf06967e6c5bfa7471/p30_2.jpg) 大模型充当智能体的“大脑”，负责对任务进行理解、拆解、规划，并调用相应工具以完成任务。同时，通过记忆模块，它还能为用户提供个性化的服务。智能体为什么是“算力墙”前 AI 产品的最优解决方案？这一问题的底层逻辑包含两个方面。 ### 1. LLM 是目前已知最好的智能体底层技术。智能体作为学术术语由来已久，从上世纪的“符号、专家系统” 甚至，在错误不敏感的应用领域，出现一个开源、无商业限制的基座的可能性也很高。小应用开发商很可能很容易获得一个低成本 serving 的“量化小基座”。 “7B”是一个 magic number！无论是 RAG 里的向量表征模型，还是文生图、文本识别（OCR）、语音合成（TTS）、人脸识别等等垂直领域，一个 1B~7B 的小模型已经可以满足很多生产、应用需要，并且效果也在逐步推高【8, 9, 10】。这些模型，作为智能体的“三头六臂”，不需要太“大”。 ### 4. 多模态对齐很可能给基座模型带来质的提升最新研究发现，在没有预先约束和约定下，不同模态领域的最强模型正在向着某个世界模型认知领域收缩【15】，AI模型对不同概念的数字化表达（向量表征）会逐步趋同，构建对这个世界的统一认知。这也符合我们人类对世界的认知：人类通过语言文字这种符号，将不同模态的信号统一地表达，并在脑中构建了某种受限于当前科技水平的统一模型，这是人类意识、社会沟通的前提。 0 码力 \| 111 页 \| 11.44 MB \| 1 年前 3 9 盛泳潘 When Knowledge Graph meet Python ，领域知识难以表达（形式化），因为它往往是一种隐性知识、过程知识。 ## 2、知识应用困难（1）开放性应用易于超出预先设定的知识边界；（2）有的应用需要尝试知识的支撑，而常识知识往往难以定义、表达、表征。 3、很难处理异常情况 e.g., 鸵鸟不会飞 ![Image](/uploads/documents/9/f/b/8/9fb81cf944c364d19f45655824fddad2/p7_2 知识图谱有着广泛的应用场景搜索推荐问答解释决策 ## Preliminaries ## Knowledge Graph – 智慧搜索 ● 精准搜索意图理解 • 精准分类 • 语义理解 • 个性化 ● Why knowledge graphs? 表格、文本、图片、视频 • 文案、素材、代码、专家 ● 多粒度搜索 - 篇章级、段落级、语句级 ● 跨媒体搜索不同媒体数据联合完成搜索任务 0 码力 \| 57 页 \| 1.98 MB \| 2 年前 3 动手学深度学习 v2.0 .. 241 6.6.2 模型训练 ..... 243 现代卷积神经网络 ..... 247 7.1 深度卷积神经网络 (AlexNet) ..... 248 7.1.1 学习表征 ..... 248 7.1.2 AlexNet ..... 250 7.1.3 读取数据集 ..... 253 7.1.4 训练AlexNet ..... 254 7.2 使用块的网络习和用户行为模型来获取网页相关性得分，很多学术会议也致力于这一主题。 ## 推荐系统另一类与搜索和排名相关的问题是推荐系统（recommender system），它的目标是向特定用户进行“个性化”推荐。例如，对于电影推荐，科幻迷和喜剧爱好者的推荐结果页面可能会有很大不同。类似的应用也会出现在零售产品、音乐和新闻推荐等等。在某些应用中，客户会提供明确反馈，表达他们对特定产品的喜爱程度。例的对象集，然后将其推荐给用户。以上只是简单的算法，而工业生产的推荐系统要先进得多，它会将详细的用户活动和项目特征考虑在内。推荐系统算法经过调整，可以捕捉一个人的偏好。比如，图1.3.4是亚马逊基于个性化算法推荐的深度学习书籍，成功地捕捉了作者的喜好。 ![Image](/uploads/documents/5/1/c/4/51c4010e229a12dab12a688061cab6ce/p45_1 0 码力 \| 797 页 \| 29.45 MB \| 2 年前 3 【PyTorch深度学习-龙龙老师】-测试版202112 在他的博士论文中第一次提出可以将 BP 算法应用到神经网络上，遗憾的是，这一成果并没有获得足够重视。直至 1986 年，David Rumelhart 等人在 Nature 上发表了通过 BP 算法来进行表征学习的论文，BP 算法才获得了广泛的关注。 1982 年，随着 John Hopfield 的循环连接的 Hopfield 网络的提出，开启了 1982 年~1995 年的第二次人工智能复兴的大潮接观察数据很难获得有用信息，因此通过获取这些张量的统计信息可以较轻松地推测张量数值的分布。下面将介绍一些常用的张量统计函数。 #### 5.2.1 向量范数向量范数(Vector Norm)是表征向量 “长度” 的一种度量方法，它可以推广到张量上。在神经网络中，常用来表示张量的权值大小、梯度大小等。常用的向量范数有： ☐ L1 范数，定义为向量 x 的所有元素绝对值之和 $$ \\|\bo \|\|学生 0\|学生 1\|学生 2\| \|---\|---\|---\|---\| \|班级 0\|True\|True\|False\| \|班级 1\|False\|True\|True\| 因此，通过这张表，就能很好地表征利用掩码方式的采样方案。下面通过 x[mask] 方式来实现多维掩码方式采样，代码实现如下： In [50]: # 多维掩码采样 mask = torch.tensor([[True, True, 0 码力 \| 439 页 \| 29.91 MB \| 2 年前 3 共 262 条 1 2 3 4 5 6 27 前往页相关搜索词深度学习视频搜索内容理解语义搜索个性化表征美团技术团队短视频分析技术多模态自监督预训练技术视频理解技术本地生活服务 Augur框架机器学习平台在线预测平台 KDD Cup 词汇表征词嵌入 Word2Vec GloVe GPT 人脸识别特征工程分类器局部二值模式（LBP）FaceNet Claude Opus 4.7 System Card 多模态负责任扩展政策安全护栏开源开发者开源模型 Gitee 大模型开源社区知识图谱知识图谱构建 Python工具数据驱动应用场景端到端训练参数统计描述非参数模型 PyTorch 张量动态图神经网络关于我们文库协议联系我们意见反馈免责声明本站文档数据由用户上传或本站整理自互联网，不以营利为目的，供所有人免费下载和学习使用。如侵犯您的权益，请联系我们进行删除。 IT文库 ©1024 - 2026 \| 站点地图 Powered By MOREDOC AI v3.5.0-beta.10

搜索

分类

语言

格式