机器学习课程-温州大学-02-数学基础回顾-2.CS229-Prob需要满足以下三个条件: (1) (2) (3) 概率度量 :函数 是一个 的映射,满足以下性质: 对于每个 , , 如果 是互不相交的事件 (即 当 时, ), 那么: 以上三条性质被称为概率公理。 举例: 考虑投掷六面骰子的事件。样本空间为 , , , , , 。最简单的事件空间是平凡事件空间 .另一个事件空间是 的所有子集的集合。对于第一个事件空间,满足上述要求的唯一概率 度量由0 码力 | 12 页 | 1.17 MB | 1 年前3
动手学深度学习 v2.0d2l.plt.legend(); 每条实线对应于骰子的6个值中的一个,并给出骰子在每组实验后出现值的估计概率。当我们通过更多的实 验获得更多的数据时,这6条实体曲线向真实概率收敛。 概率论公理 在处理骰子掷出时,我们将集合S = {1, 2, 3, 4, 5, 6} 称为样本空间(sample space)或结果空间(outcome space),其中每个元素都是结果(outcome ∅)的任意一个可数序列A1, A2, . . ., 序列中任意一个事件发生的概率等于它们各自发生的概率之和,即P(�∞ i=1 Ai) = �∞ i=1 P(Ai)。 以上也是概率论的公理,由科尔莫戈罗夫于1933年提出。有了这个公理系统,我们可以避免任何关于随机性 的哲学争论;相反,我们可以用数学语言严格地推理。例如,假设事件A1为整个样本空间,且当所有i > 1时 的Ai = ∅,那么我们可以证明P(∅) 输出呢?答案是否定的。因为将线性层的输出直接 视为概率时存在一些问题:一方面,我们没有限制这些输出数字的总和为1。另一方面,根据输入的不同,它 们可以为负值。这些违反了 2.6节中所说的概率基本公理。 要将输出视为概率,我们必须保证在任何数据上的输出都是非负的且总和为1。此外,我们需要一个训练的目 标函数,来激励模型精准地估计概率。例如,在分类器输出0.5的所有样本中,我们希望这些样本是刚好有一0 码力 | 797 页 | 29.45 MB | 1 年前3
共 2 条
- 1













