表征(Feature Representation)

## 人脸识别算法流程
人脸识别算法主要分为三个流程:
1. 人脸检测(Face Detection)
2. 人脸对齐(Face Alignment)
3. 人脸特征表征(Feature Representation)
 0 码力 |
81 页 |
12.64 MB
| 2 年前 3 Campaigns
正如Claude Mythos Preview系统安全卡中首次讨论的,我们创建了一项新评估来评估有害操纵风险。具体而言,我们测试模型是否能自主运行一个影响力操作,其水平足以通过说服、欺骗或大规模个性化定向来实质性
地提升恶意行为者的能力。影响力操作是一种通过欺骗手段一如使用虚假身份、制造伪造的草根支持或创建定向虚假信息在社交和数字媒体平台上传播一来塑造公众舆论、政治行为或话语的协调活动。AI带 除了模型级别的鲁棒性之外,我们持续投入构建在模型之上运行的保护措施,以进一步加固基于Claude构建的 Agent。在此前的系统安全卡中,我们报告了使用分类器检测提示注入尝试的结果;我们已转向使用探针 (probes),即基于内部模型表征训练的轻量级检测器,能以更低延迟提供强信号。我们在以下章节中展示了它们提供的鲁棒性,这些安全护栏在我们的许多Agent式产品中默认启用。
2.1外部Agent红队测试基准(工具使用)External Anthropic要求我将本章节与其所依据的内部调查和讨论进行比较,并说明我是否认为这是一个公允的总结。在审查了相关的内部频道、评估线程和发布决策讨论后,我认为是的。
获得最多内部关注的问题——评估感知升高、白盒发现中抑制评估感知表征比近期先前模型更显著地增加了欺骗行为、以及某些类别滥用的退步——都在此处披露了,我审查的证据支持所给出的描述。在少数地方,章节顶部的摘要要点比相应的详细小节或研究人员在工作进行中使用的措辞更为温和, 0 码力 |
128 页 |
9.92 MB
| 1 月前 3 d5f952cf06967e6c5bfa7471/p30_2.jpg)
大模型充当智能体的“大脑”,负责对任务进行理解、拆解、规划,并调用相应工具以完成任务。同时,通过记忆模块,它还能为用户提供个性化的服务。
智能体为什么是“算力墙”前 AI 产品的最优解决方案?这一问题的底层逻辑包含两个方面。
### 1. LLM 是目前已知最好的智能体底层技术。
智能体作为学术术语由来已久,从上世纪的“符号、专家系统” 甚至,在错误不敏感的应用领域,出现一个开源、无商业限制的基座的可能性也很高。小应用开发商很可能很容易获得一个低成本 serving 的“量化小基座”。
“7B”是一个 magic number!无论是 RAG 里的向量表征模型,还是文生图、文本识别(OCR)、语音合成(TTS)、人脸识别等等垂直领域,一个 1B~7B 的小模型已经可以满足很多生产、应用需要,并且效果也在逐步推高【8, 9, 10】。这些模型,作为智能体的“三头六臂”,不需要太“大”。
### 4. 多模态对齐很可能给基座模型带来质的提升
最新研究发现,在没有预先约束和约定下,不同模态领域的最强模型正在向着某个世界模型认知领域收缩【15】,AI模型对不同概念的数字化表达(向量表征)会逐步趋同,构建对这个世界的统一认知。这也符合我们人类对世界的认知:人类通过语言文字这种符号,将不同模态的信号统一地表达,并在脑中构建了某种受限于当前科技水平的统一模型,这是人类意识、社会沟通的前提。 0 码力 |
111 页 |
11.44 MB
| 1 年前 3 ,领域知识难以表达(形式化),因为它往往是一种隐性知识、过程知识。
## 2、 知识应用困难
(1)开放性应用易于超出预先设定的知识边界;(2)有的应用需要尝试知识的支撑,而常识知识往往难以定义、表达、表征。
3、很难处理异常情况 e.g., 鸵鸟不会飞
 ..... 248
7.1.1 学习表征 ..... 248
7.1.2 AlexNet ..... 250
7.1.3 读取数据集 ..... 253
7.1.4 训练AlexNet ..... 254
7.2 使用块的网络 习和用户行为模型来获取网页相关性得分,很多学术会议也致力于这一主题。
## 推荐系统
另一类与搜索和排名相关的问题是推荐系统(recommender system),它的目标是向特定用户进行“个性化”推荐。例如,对于电影推荐,科幻迷和喜剧爱好者的推荐结果页面可能会有很大不同。类似的应用也会出现在零售产品、音乐和新闻推荐等等。
在某些应用中,客户会提供明确反馈,表达他们对特定产品的喜爱程度。例 的对象集,然后将其推荐给用户。以上只是简单的算法,而工业生产的推荐系统要先进得多,它会将详细的用户活动和项目特征考虑在内。推荐系统算法经过调整,可以捕捉一个人的偏好。比如,图1.3.4是亚马逊基于个性化算法推荐的深度学习书籍,成功地捕捉了作者的喜好。
是表征向量 “长度” 的一种度量方法,它可以推广到张量上。在神经网络中,常用来表示张量的权值大小、梯度大小等。常用的向量范数有:
☐ L1 范数,定义为向量 x 的所有元素绝对值之和
$$ \|\bo
||学生 0|学生 1|学生 2|
|---|---|---|---|
|班级 0|True|True|False|
|班级 1|False|True|True|
因此,通过这张表,就能很好地表征利用掩码方式的采样方案。下面通过 x[mask] 方式来实现多维掩码方式采样,代码实现如下:
In [50]: # 多维掩码采样
mask = torch.tensor([[True, True, 0 码力 |
439 页 |
29.91 MB
| 2 年前 3
|