Claude Opus 4.7 System Card 中文版

语言	格式	评分
中文（简体）	.pdf	3
摘要
文档是Anthropic发布的Claude Opus 4.7 System Card的中文翻译版，系统介绍了该模型的安全评估、对齐研究与能力基准。模型在软件工程、知识工作、Agent式工具使用和计算机操控方面表现突出。评估涵盖负责任扩展政策评估、AI研发能力与对齐风险、网络安全评估、安全护栏与无害性、选举诚信、Agent安全、行为审计、诚实性、白盒分析、模型福祉等。能力基准部分包括编程与推理、多模态理解（视觉推理、图表理解、GUI定位）、真实世界专业任务（办公文档、金融、工具使用、商业模拟）、ARC-AGI流体智力、多语言能力及生命科学领域。多模态方面，模型支持最大图像分辨率单维2576px、总计3.75MP，在LAB-Bench FigQA上无工具达78.6%，有Python工具达86.4%。
AI总结
Claude Opus 4.7是Anthropic发布的新一代大语言模型，在软件工程、知识工作、Agent工具使用和计算机操控方面表现突出。该模型训练使用公开网络数据、私有数据集及合成数据，并经过后训练与微调以符合“宪法”价值观。模型支持多语言，仅输出文本，并遵循严格的使用政策与安全评估流程。在安全评估方面，模型在负责任扩展政策（RSP）、AI研发与对齐风险、网络安全等维度接受了全面测试。安全护栏涵盖无害性、选举诚信、Agent安全（恶意使用与提示注入）等。对齐与模型福祉评估包括行为审计、宪法遵循、诚实性、自我偏好、沙袋效应、白盒分析及模型感知评估。能力基准方面，模型在编程与推理、多模态理解、搜索和真实世界任务中表现优异。多模态能力显著提升，支持更高分辨率图像（单维最大2576px，总计3.75MP），在LAB-Bench FigQA视觉推理基准中，无工具设置下准确率达78.6%（Opus 4.6为58.5%），配合Python工具达86.4%（Opus 4.6为75.1%）。在CharXiv Reasoning图表理解中，Opus 4.7得分为70.6%，优于Opus 4.6的63.1%。在真实世界专业任务中，OfficeQA达86.3%，OfficeQA Pro达80.6%；Finance Agent评估中达64.4%，超越所有排行榜模型；MCP-Atlas工具使用通过率为77.3%（扩展配置下达79.5%）；VendingBench模拟经营得分为6,707美元，表现优于其他模型。在OSWorld计算机使用任务中，Opus 4.7在最大推理努力下得分为78%，高于Opus 4.6的73%和Sonnet 4.6的73.5%。生命科学评估显示显著提升：结构生物学多选题达98.3%，开放式达74.0%（Opus 4.6为30.9%）；有机化学达77.2%（Opus 4.6为57.9%）；系统发育学达79.6%（Opus 4.6为61.3%）；实验方案排查为51.8%（Opus 4.6为48.3%）。在BioPipelineBench Verified中，Opus 4.7得分为84%，优于Opus 4.6的79%。附录包含自动化福利访谈结果、Humanity‘s Last Exam黑名单说明及SWE-bench Multimodal技术细节。总体而言，Claude Opus 4.7在多项能力与安全指标上较前代模型有显著提升，尤其在多模态理解、专业任务执行和生命科学领域表现突出。