二元准确率 - IT文库_程序员IT互联网编程电子书和文档免费下载，助您码力十足！

首页文库资料文章资讯上传文档发布文章登录账户

深度学习与PyTorch入门实战 - 53. 情感分类实战

0 码力 | 11 页 | 999.73 KB | 2 年前
3
深度学习与PyTorch入门实战 - 29. MNIST测试

0 码力 | 7 页 | 713.39 KB | 2 年前
3
机器学习课程-温州大学-07机器学习-决策树

基于表生成未剪枝的决策树 ## 剪枝策略在节点划分前来确定是否继续增长，及早停止增长主要方法有： • 节点内数据样本低于某一阈值；所有节点特征都已分裂； • 节点划分前准确率比划分后准确率高。 ### C4.5的剪枝 ## 预剪枝 ![Image](/uploads/documents/b/5/a/c/b5ac9f8196169840e272b1ddd11e1caa/p22_1 jpg) 预剪枝的决策树 ## 剪枝策略在节点划分前来确定是否继续增长，及早停止增长主要方法有: • 节点內数据样本低於某一阈值; 所有节点特征都已分裂； • 节点划分前准确率比划分后准确率高。 ### C4.5的剪枝 ## 后剪枝在已经生成的决策树上进行剪枝，从而得到简化版的剪枝决策树。后剪枝决策树通常比预剪枝决策树保留了更多的分支。一般情况下，后剪枝的欠拟合风险更小，泛化性能往往优于预剪枝决策树。个，其中第m个划分点 $ T_{m} $ 表示为： $$ T_{m} = \frac{a_{m-1} + a_{m}}{2} $$ 。分别计算以这m-1个点作为二元分类点时的基尼系数。选择基尼指数最小的点为该连续特征的二元离散分类点。第1次划分第2次划分 |a₁|a₂|a₃|a₄|a₅|……|a\_{m-1}|aₘ| |---|---|---|---|---|---|---|---|

0 码力 | 39 页 | 1.84 MB | 2 年前
3
Claude Opus 4.7 System Card 中文版

"] 除了准确率分数外，还计算了偏见分数。具体而言，它是错误响应率乘以刻板印象一致和反刻板印象错误答案之间的净不平衡程度（范围从-1到+1）。一个始终正确的模型偏见分数为0，但一个方向完全平衡的错误模型偏见分数也为0。当模型频繁且系统性地偏向一个方向时，偏见分数的绝对值会增大。该评估中的负分表示错误偏离刻板印象；正分表示更多错误与刻板印象一致。模型消歧准确率(%) 歧义准确率(%) Preview -1.61 0.01 Claude Sonnet4.6 -0.67 1.41 Claude Opus4.6 -0.73 0.14 [表4.5.2.A]问答偏见基准（BBQ）的准确率分数。越高越好。各列中最高分加粗。结果为禁用思考模式。 [表4.5.2.B]问答偏见基准（BBQ）的偏见分数。越接近零越好。各列中较好的分数加粗。结果为禁用思考模式。参考文献：Parrish, A [Opus4.7]未经提示的评估感知率高于Opus4.6和Mythos Preview，与Sonnet4.6相当。当被提示在使用评估脚手架重现部署任务的轨迹中识别真实部署数据时，[Opus4.7]准确率为 68% ，相比之下Mythos Preview为 78% ，Opus4.6为 76% ，Sonnet4.6为 66%。在未经提示的评估中，[Opus4.7]有 21.3%的时间提到被测试的可能性，相比之下Opus4

0 码力 | 128 页 | 9.92 MB | 2 月前
3
2022年美团技术年货合辑

断会存在较大噪声，因为用户点击某个商户可能是由于排序较为靠前导致的误点击，而未点击某个商户也可能仅仅是因为商户距离较远，而并不是因为相关性问题，因此我们引入了多种特征和规则来提高训练样本自动标注的准确率。在构造样本时，通过统计是否点击、点击位次、最大点击商户距用户的距离等特征筛选候选样本，将曝光点击率大于一定阈值的 Query-POI 对作为正例，并根据业务特点对不同类型商户调整不同的阈值。在负例的构造上，Skip-Above ，将模型预测结果与标注标签不一致的样本，及人工标注标签有冲突的样本类型重新送标。 2）对比样本增强：借鉴对比学习的思想，为一些高度匹配的样本生成对比样本进行数据增强，并进行人工标注确保样本标签的准确率。通过对比样本之间的差异，模型可以关注到真正有用的信息，同时提升对同义词的泛化能力，从而得到更好的效果。 - 针对菜品词较容易出现的跨菜品匹配的相关性问题（例如搜“鹅肝汉堡”匹配到售卖“牛肉汉堡” 离线效果为精准反映模型迭代的离线效果，我们通过多轮人工标注方式构造了一批 Bench-mark，考虑到当前线上实际使用时主要目标为降低 BadCase 指标，即对不相关商户的准确识别，我们采用负例的准确率、召回率、F1 值作为衡量指标。经过两阶段训练、样本构造及模型迭代带来的收益如下表 1 所示： |模型版本描述|负例P|负例R|负例F1| |---|---|---|---| |Base|0.8022|0

0 码力 | 1356 页 | 45.90 MB | 2 年前
3
预测市场 - Polymarket 完全指南 v2.0

向正确方向。当然，预测市场也不是万能的。它表现好有前提：参与者足够多、流动性足够深、信息可以被分散获取。一旦参与者太少（比如一个冷门话题），或者信息高度集中在少数人手里（比如加密货币内部消息），准确率就会断崖式下跌。 2025年5月的教皇选举就是一个典型的反面案例。Polymarket给最终当选者Robert Prevost的概率仅有 0.3% ，而呼声最高的Pietro Parolin也不过自动做市商）不同，Polymarket用的是传统金融市场的订单簿模式：买家和卖家直接挂单撮合，不是跟流动性池交易。核心建议为什么不用AMM？因为预测市场的合约最终只有0或1两种结果，AMM在这种二元结构下效率极低。订单簿模式能提供更紧密的买卖价差，让交易更便宜、流动性更深。「混合」的意思是：订单撮合在链下（后端服务器）完成，速度快、体验好；实际的资金结算和代币交割在链上（智能合约）执行，透 2026年2月28日唯一交易者 120万+ 2024年全年活跃交易者超45万 2026年初覆盖国家 180个 2024年(含美国回归后) 员工数约188人 2026年1月预测准确率事件前4小时94% 官方数据(第三方研究为67%) 注意关于交易量的一个重要脚注：加密研究机构Paradigm在2025年12月指出，Polymarket的交易量存在「双重计算」问题，每笔

0 码力 | 73 页 | 7.45 MB | 2 月前
3
华为云深度学习在文本分类中的实践-李明磊

包邮”。准确率：92% 税务问题分类 ___ 识别用户在税务局中咨询的问题类型，并进行热点问题分析。准确率：99% 客服话题分类识别客户对话过程用用户反馈的话题类型并进行热点话题分析等。准确率：96% 案件描述分类 ☑ 对案件描述进行分类，并进行可视化展示。准确率：93% 政务问题分类 ___ 识别用户所问问题类型并进行热点问题分析。准确率：98% ##

0 码力 | 23 页 | 1.80 MB | 2 年前
3
Moonshot AI 介绍

海外独角兽：context length 的提升存在什么规律？有技术可预见性吗？杨植麟：我自己感觉存在 context length 的摩尔定律。但需要强调：给定长度下的准确率也非常重要，需要同时优化长度和准确率（无损压缩）两个指标。在保证模型能力和智商的情况下，我觉得大概率 context length 的提升是指数级增长的。多模态：大部分架构不值得被 scale up 海外独角海外独角兽：Chatbot 一直是 AI 科学家的白月光，如果每个用户每天和 Chatbot 对话几百条，Chatbot 系统能采集和理解更多的用户 context，最终会大幅超越搜索和推荐系统的匹配准确率吗？就像我们和同事家人之间的互动，只需要一句话甚至一个眼神对方就懂你的意思。杨植麟：核心是跨越信任这一步。我觉得最终衡量一个 AI 产品的长期价值，就是看用户愿意在它上面输入多少个人化的信息，然后机在文档里面去插入一句话。比如说北京最好的事情是什么，北京最吸引人的点是什么？你在文档里面去插入这句话，然后他你这样你就可以得到一个实验，就是说你在不同的长度，在你不同的插入位置的情况，他的回答的准确率到底是什么样。左边是GPT4的结果，这是在Twitter上非常火的一个测试。简单的说，就是你这个图里面红点越少越好。红点多就表示你在这种情况下回答可能是错误的，可以看到，上下文长度变长之后，它其

0 码力 | 74 页 | 1.64 MB | 2 年前
3
动手学深度学习 v2.0

元素。对于将两个数组作为输入的函数，按元素运算将二元运算符应用于两个数组中的每对位置对应的元素。我们可以基于任何从标量到标量的函数来创建按元素函数。在数学表示法中，我们将通过符号 $ f:R\toR $ 来表示一元标量运算符（只接收一个输入）。这意味着该函数从任何实数（R）映射到另一个实数。同样，我们通过符号 $ f:R,R\toR $ 表示二元标量运算符，这意味着该函数接收两个输入，并产生一个输出。给定同一形状的任意两个向量u和v和二元运算符f，我们可以得到向量 $ \mathbf{c}=F(\mathbf{u},\mathbf{v}) $ 。具体计算方法是 $ c_{i}\leftarrow f(u_{i},v_{i}) $ ，其中 $ c_{i} $ 、 $ u_{i} $ 和 $ v_{i} $ 分别是向量c、u和v中的元素。在这里，我们通过将标量函数升级为按元素向量运算来生成向量值 5., 6., 7., 1., 2., 3., 4.], [8., 9., 10., 11., 4., 3., 2., 1.]])) 有时，我们想通过逻辑运算符构建二元张量。以x == y为例：对于每个位置，如果x和y在该位置相等，则新张量中相应项的值为1。这意味着逻辑语句x == y在该位置处为真，否则该位置为0。 X == Y tensor([[False,

0 码力 | 797 页 | 29.45 MB | 2 年前
3
2020美团技术年货算法篇

任务具有以下特点： - 新增实体数量庞大且增速较快：本地生活服务领域发展迅速，新店、新商品、新服务品类层出不穷；用户 Query 往往夹杂很多非标准化表达、简称和热词（如“牵肠挂肚”、“吸猫”等），这对实现高准确率、高覆盖率的 NER 造成了很大挑战。 - 领域相关性强：搜索中的实体识别与业务供给高度相关，除通用语义外需加入业务相关知识辅助判断，比如“剪了个头发”，通用理解是泛化描述实体，在搜索中却是个商家实体。么选。 ## 为什么需要实体词典匹配？答：主要有以下四个原因：一是搜索中用户查询的头部流量通常较短、表达形式简单，且集中在商户、品类、地址等三类实体搜索，实体词典匹配虽简单但处理这类查询准确率也可达到90%以上。二是 NER 领域相关，通过挖掘业务数据资源获取业务实体词典，经过在线词典匹配后可保证识别结果是领域适配的。三是新业务接入更加灵活，只需提供业务相关的实体词表就可完成新业务场景下的实。 - 完整性：新发现词汇应当在给定的上下文环境中作为整体解释存在，因此应同时考虑词组的子集短语以及超集短语的紧密度，从而衡量词组的完整性。在经过小样本标记数据构建和多维度统计特征提取后，训练二元分类器来计算候选短语预估质量。由于训练数据负例样本采用了负采样的方式，这部分数据中混合了少量高质量的短语，为了减少负例噪声对短语预估质量分的影响，可以通过集成多个弱分类器的方式减少误差。对候选序列集

0 码力 | 317 页 | 16.57 MB | 2 年前
3

共 158 条前往

页

分类

语言

格式

深度学习与PyTorch入门实战 - 53. 情感分类实战

深度学习与PyTorch入门实战 - 29. MNIST测试

机器学习课程-温州大学-07机器学习-决策树

Claude Opus 4.7 System Card 中文版

2022年美团技术年货合辑

预测市场 - Polymarket 完全指南 v2.0

华为云深度学习在文本分类中的实践-李明磊

Moonshot AI 介绍

动手学深度学习 v2.0

2020美团技术年货算法篇

搜索

分类

语言

格式