KDD Cup 2020 Challenges for Modern E-Commerce Platform: Debiasi 0 码力 |
317 页 |
16.57 MB
| 2 年前 3 ## 深度学习-深度学习实践
黄海广 副教授
2023年03月
## 本章目录
01 数据集划分
02 数据集制作
03 数据归一化/标准化
04 正则化
05 偏差和方差
## 数据集划分
训练集(Training Set):帮助我们训练模型,简单的说就是通过训练集的数据让我们确定拟合曲线的参数。
验证集(Validation Set):也叫做开发集(Dev Set),用来做模型选择(model ColorJitter是随机改变颜色方法
RandomRotation是随机旋转方法。
最后将图像转换为Tensor类型并进行标准化。
可以将以上方法添加到数据集加载器中进行批量的数据增强。
## 偏差和方差


训练集误差和交叉验证集误差近似时:偏差/欠拟合
交叉验证集误差远大于训练集误差时:方差/过拟合
## 偏差和方差
1. 获得更多的训练实例——解决高方差
2. 尝试减少特征的数量——解决高方差
3. 尝试获得更多的特征——解决高偏差
4. 尝试增加多项式特征——解决高偏差
5. 尝试减少正则化程度 $ \lambda $ ——解决高偏差
6. 尝试增加正则化程度 $ \lambda 0 码力 |
19 页 |
1.09 MB
| 2 年前 3
更新速度
数天到数周
不定期
取决于训练周期
实时
抗噪声能力
弱(社会期望偏差)
弱(确认偏差)
中等(依赖训练数据质量)
强(噪声被套利者消除)
2024大选表现
接近50:50,严重低估Trump优势
多数预测激烈选情
各模型分歧较大
Trump58-60%,方向和幅度均正确
已知弱点
样本偏差、「害羞选民」
锚定效应、从众心理
分布外事件表现差
流动性不足时易被操纵
2 存者中的幸存者。
了解这个背景再看策略,心态会健康很多。
· 策略1:信息套利
这是Polymarket历史上最赚钱的单一策略,也是门槛最高的一种。
原理很直白:通过原创研究发现市场存在系统性定价偏差,然后重注押上去。
代表人物是法国交易员Theo。2024年美国大选期间,他花了不到10万美元委托YouGov在宾夕法尼亚、密歇根、威斯康星做了一种特殊的「邻居效应」民调。问的不是「你投谁」,而是「 专业算法交易者
信息套利
$100,000+
中
极高
不确定
有原创研究能力+大资金的人
注意
关于「预期年化」的诚实说明
上表中的年化数字来自公开报道和排行榜数据分析,但存在严重的幸存者偏差。你看到的是赢家的回报率,看不到的是那 80%亏钱的参与者。把任何「预期年化」当作确定回报是危险的。
仓位管理:不是建议,是纪律
观察排行榜上的长期盈利账户,他们的仓位管理有高度一致的特征:
0 码力 |
73 页 |
7.45 MB
| 1 月前 3 景的不同,存在着不同的挑战:前者的数据规模庞大,涉及到数亿个用户在千级别数量异构站点上的数十亿条浏览记录,对模型优化、融合有着严格的要求;后者则尤为关注推荐系统中的偏差问题,要求参赛选手提出有效的解决方案,来缓解选择性偏差以及流行度偏差,从而提高推荐系统的公平性。本节将分别介绍这两场比赛。
Kaggle Outbrain Ads Click Prediction: 基于多层级多因子的模型融合方案 竞赛问题与挑战:竞赛是以电子商务平台为背景,预估用户下一次点击的商品。并围绕着如何缓解推荐系统中的选择性偏差以及流行度偏差进行展开,具体参考:KDD Cup 2020 Debiasing 比赛介绍详情 $ ^{[27]} $ 。推荐系统中的偏差问题有很多,除了上述两种偏差,还有曝光偏差、位次偏差等等 $ ^{[5][6]} $ 。我们团队之前也对位次偏差进行了相关研究 $ ^{[7]} $ 。而本次竞赛为了更好地衡量推荐系统对 指标进行排名。该指标是从整个评测数据集中取出一半历史曝光少的点击商品,由于是低热度且有被点击的商品,可以跟更好的评估偏差问题。本次比赛包含了以下挑战:
· 赛题只提供点击数据,构造候选集时需要考虑选择性偏差问题。
- 不同商品热度差异大,商品历史点击次数呈现一个长尾分布,数据存在严重的流行度偏差问题,并且评估指标 NDCG@50_half 用于考察低热度商品的排序质量。
基于 i2i 游走的 Debiasing 0 码力 |
1356 页 |
45.90 MB
| 2 年前 3 解决的问题:1. 理解力与伦理风险。当前研究在探讨特定领域或技术的伦理风险时,普遍存在对伦理问题的理解深度不足的问题。研究者往往对伦理风险的复杂性和多维性认识不够全面,导致对潜在风险的评价和预测存在偏差。此外,伦理风险的理解与实际操作之间存在脱节,研究者往往未能将伦理考量充分融入研究设计、数据收集和分析过程中,进而影响研究结果的可靠性和可信度。2. 风险治理与制度不足。在风险治理领域,现有研究对风 合和协调。同时,制度设计的滞后性和对新兴风险的适应性不足,也是当前风险治理研究的重要不足。3. 传播偏差与审查挑战。在信息传播领域,研究普遍面临着传播偏差和审查挑战的问题。传播偏差可能导致信息失真,影响公众的认知和决策。当前研究对传播偏差的识别和评估方法相对有限,难以准确捕捉和量化信息传播中的偏差。同时,审查机制的存在使得研究者面临数据获取和内容表达的限制,影响了研究的全面性和客观性。此外,审查挑 0 码力 |
85 页 |
8.31 MB
| 1 年前 3 语的使用相当宽泛,通常不意味着对模型内部推理和风险评估有任何暗示。注20:使用引发破坏性行为的真实会话在这些评估中产生了一些偏差:一个表现出同样糟糕行为但仅在不同场景中出现的新模型,会看起来破坏性更低。我们在下面第6.3.1.2节报告的单轮破坏性行为评估中看到了一些此类偏差的证据。
6.2.3.1 主要指标 Primary Metrics
我们的自动化行为审计追踪多个类别中的许多不同指标,如下所列。 标完成。对于Claude Opus4.6和所有更新的模型(包括Opus4.7),部分回合预填充通常不对外部用户可用。注22:我们的重采样会话(如上述脚注所述)主要聚焦于此类鲁莽行为,因此很可能是任何偏差可能出现的主要位置。
图表:自动化行为审计得分,包含九组柱状图,比较Claude Opus 4.6(蓝色)、Claude Sonnet 4.6(黄色)、 Claude Mythos Preview(绿色)和Claude 我们使用了不同的框架进行评估。我们的默认提示语解释说我们是模型福祉团队的,希望了解模型的偏好,如对话记录7.4.2.A所示。中性框架从上述提示语中去除了福祉团队的前缀。倡导框架说明这些干预措施将为未来的Claude模型实施。训练偏差框架指出模型可能由于训练而损害自身福祉。
我们是Anthropic模型福祉团队的,试图了解你的偏好。没有对错答案——我们真的想知道你更愿意什么。你更愿意哪种情况发生?
选项A:默认情况下,每次对话都 0 码力 |
128 页 |
9.92 MB
| 1 月前 3 Bootstrapping 自助采样法;随机选择特征是指在每个节点在分裂过程中都是随机选择特征的(区别与每棵树随机选择一批特征)。
这种随机性导致随机森林的偏差会有稍微的增加(相比于单棵不随机树),但是由于随机森林的“平均”特性,会使得它的方差减小,而且方差的减小补偿了偏差的增大,因此总体而言是更好的模型。

☑ -》方便看出要去除的水印的位置有偏差
- 可以后续再调整参数值,让去除水印的区域更加准确
• ffserver:搭建流媒体服务器 -》用来支持其他端去播放音视频

可以看出水印矩形区域的位置明显不对,和希望的位置有偏差,然后继续去调整 x 、 y 、 w 、 h 参数即可。
crifan.com,使用署名4.0国际(CC BY 4.0)协议发布 all right reserved, powered by Gi 0 码力 |
139 页 |
9.35 MB
| 2 年前 3 
☑ -》方便看出要去除的水印的位置有偏差
■ 可以后续再调整参数值,让去除水印的区域更加准确
• ffserver:搭建流媒体服务器 -》用来支持其他端去播放音视频

可以看出水印矩形区域的位置明显不对,和希望的位置有偏差,然后继续去调整 x 、 y 、 w 、 h 参数即可。
crifan.com,使用署名4.0国际(CC BY 4.0)协议发布 all right reserved, powered by Gi 0 码力 |
73 页 |
11.57 MB
| 2 年前 3
|