那请问如何解释这个推理的解释，推理的解释出两个相反的结论

点击联系发帖人 时间：2018-12-16 10:02

推理的解释

来自科学教育类芝麻团推荐于

（1）、指两个铁球一个10磅重，一个1磅重同时从高处落下来10磅重的一定先着地，速度是1磅重的10倍（2）、把两个铁球拴在一起，落得慢的僦会拖住落得快的落下的速度一定比10磅的铁球慢；但是，如果把拴在一起的铁球看做一个整体就有11磅重落下的速度应当比10磅的铁球重。2、我体会到了伽利略做了许多次试验

本回答由科学教育分类达人甄善继推荐

你对这个回答的评价是？

}

前边在文章透彻理解最大似然估計阐述如何理解最大似然进行参数估计，本文将讨论使用贝叶斯推理的解释进行参数估计我还将展示如何将此方法视为最大似然的概括，以及在何种情况下这两种方法是等价的

在介绍贝叶斯推理的解释之前，有必要理解贝叶斯定理贝叶斯定理真的很酷。使它有用的昰它允许我们使用我们已有的一些知识或信念（通常称为先验）来帮助我们计算相关事件的概率例如，如果我们想要在炎热和阳光明媚嘚日子里找到销售冰淇淋的概率贝叶斯定理为我们提供了工具，可以使用先前的知识了解在任何其他类型的一天销售冰淇淋的可能性（下雨，刮风雪等）。我们稍后会详细讨论这个问题所以如果你还没理解它，请不要担心

数学贝叶斯定理定义为：

其中A和B是事件，P（A | B）是B事件在事件A已经发生时发生的条件概率（P（B | A）具有类似的含义但A和B的作用相反）和P（A）和P（B）分别是事件A和事件B的边际概率。

数學定义通常会觉得太抽象和可怕所以让我们试着通过一个例子来理解这一点。我在介绍性博客文章中给出的一个例子是从一包传统的扑克牌中挑选一张牌包装中有52张卡片，其中26张为红色26张为黑色。如果我们知道卡片是红色的那么卡片为4的概率是多少？

为了将其转换為我们在上面看到的数学符号我们可以说事件A是选择的卡片是4，事件B是卡片是红色的因此，在我们的例子中上式中的P（A | B）是P（4 | red），這是我们想要计算的我们之前已经得出这个概率等于1/13（有26张红牌，其中2张是4）但让我们用贝叶斯定理来计算。

我们需要在等式右侧找箌要求的概率他们是：

贝叶斯定理如何允许我们将先验信念纳入其中？

上面我提到贝叶斯定理允许我们结合先验信念但很难看出它如哬通过查看上面的等式来实现这一点。那么让我们看看我们如何使用上面的冰淇淋和天气示例来做到这一点

让A代表我们出售冰淇淋的事件，B代表天气事件那么考虑到天气的类型，我们可能会问在任何一天出售冰淇淋的概率是多少在数学上，这被写为P（A =冰淇淋销售| B =天气類型）其等同于等式的左手侧。

右侧的P（A）是已知的先验表达式在我们的例子中，这是P（A =冰淇淋销售）即出售冰淇淋的（边际）概率，无论外面的天气类型如何P（A）被称为先验，因为我们可能已经知道出售冰淇淋的边际概率例如，我可以查看一些数据该数据显礻，在某个商店的某个商店里有30个人实际购买了冰淇淋。所以我的P（A =冰淇淋销售）= 30/100 = 0.3在我了解天气之前。这就是贝叶斯定理允许我们合並先验信息的方法

现在我们知道贝叶斯定理是什么以及如何使用它，我们可以开始回答什么是贝叶斯推理的解释的问题

首先，（统计）推断是从数据中推导出关于总体或概率分布的属性的过程从一组观察到的数据点，我们确定了平均值的最大似然估计值

因此，贝叶斯推断只是使用贝叶斯定理从数据中推导出有关种群或概率分布的属性的过程

到目前为止，我上面给出的例子在贝叶斯定理方程中的每個项都使用了单个数字这意味着我们得到的答案也是单个数字。但是有时单个数字可能不合适。

在上面的冰淇淋例子中我们看到出售冰淇淋的先前概率是0.3。但是如果0.3只是我最好的猜测，但我对这个值有点不确定概率也可以是0.25或0.4。在这种情况下我们先前的信念分咘可能更合适（见下图）。这种分布称为先验分布

两个个分布代表我们在任何一天销售冰淇淋的先验概率。蓝色和金色曲线的峰值出现茬0.3的值附近正如我们上面所说的那样，这是我们之前销售冰淇淋概率的最佳猜测事实上f（x）与x的其他值不为零表明我们并不完全确定0.3昰卖冰淇淋的真实价值。蓝色曲线显示它可能介于0和0.5之间而黄金曲线显示它可能介于0和1之间。金色曲线更加分散并且峰值小于蓝色曲线嘚事实表示由金色曲线表示的先验概率对于真实值比蓝色曲线"不太确定"

以类似的方式，我们可以使用分布来表示贝叶斯定理中的其他项当我们处理模型时，我们主要需要使用分布

在上面的贝叶斯定理的介绍性定义中，我使用了事件A和B但是当在文献中陈述贝叶斯定理嘚模型形式时，经常使用不同的符号我们来介绍一下吧。

代替事件A叫法我们通常会用Θ，这个符号叫做Theta。Theta是我们感兴趣的它代表了┅组参数。因此如果我们试图估计高斯分布的参数值，则Θ表示平均值μ和标准偏差σ（在数学上写为Θ= {μ，σ}）。

代替事件B叫法我们鼡数据y ={y1，y2...，yn}这些代表数据，即我们拥有的观察集我将明确地使用等式中的数据来希望使等式变得不那么神秘。

所以现在贝叶斯模型形式的定理写成：

我们已经看到P（Θ）是先验分布。它代表了我们对参数真实价值的信念，就像我们的分布代表了我们对出售冰淇淋概率的看法一样

左侧的P（ Θ|data）称为后验分布。这是在我们计算右侧的所有内容并将观察到的数据考虑在内之后表示我们对参数值的信念的分布

P（data|Θ ）是我们之前讲到过的。如果你读过透彻理解最大似然估计你会记得我们说L（data;μ，σ）是似然分布（对于高斯分布）。P（data|Θ ）可能性分布。有时候它写成（ Θ; data）但这里也是一样的。

因此我们可以通过使用我们提供的参数的先验信念计算出后验分布。

这为我们提供了足够的信息可以使用贝叶斯推理的解释进行参数推理的解释的示例。但首先…

为什么我完全无视P（daga）

那么，除了数据的边缘分布の外它实际上并没有真正的名字，尽管它有时被称为证据请记住，我们只对参数值感兴趣但P（data）没有任何参考值。事实上P（data）甚臸不评估分布。这只是一个数字我们已经观察了数据，因此我们可以计算P（data）一般情况下，事实证明计算P（data）是非常硬的和许多方法可用来计算它。有这样几种方法

之所以P（data）重要,是因为出来的数字是标准化常数。概率分布的必要条件之一是事件的所有可能结果的總和等于1（例如在6面骰子上滚动1,2,3,4,5或6的总概率是等于1）。归一化常数通过确保分布的总和等于1,成为真正的概率分布

在某些情况下，我们鈈关心分布这个属性我们只关心分布峰值出现的位置，无论分布是归一化在这种情况下，许多人将贝叶斯定理的模型形式写为

这使得奣确的是真正的后验分布不等于右侧因为我们没有考虑归一化常数P（data）。

做得好到目前为止所有这些理论都需要休息一下。但是让我們举一个推理的解释可能派上用场的例子我们将要使用的例子是计算出氢键的长度。你不需要知道什么是氢键我只是用这个作为一个唎子。

别担心你不需要理解这个数字就能理解我们将要对贝叶斯推理的解释进行的研究。

让我们假设氢键介于3.2 - 4.0之间（ngstrm，是1等于0.1纳米的距离单位所以我们谈论非常微小距离）。这些信息将形成我的先验信息在概率分布方面，我将其重新表示为高斯分布平均μ=3.6，标准偏差σ=0.2（见下图）

现在我们给出了一些数据（5个数据点是从平均3和标准偏差0.4的高斯分布中随机生成的。在现实世界中这些数据将来自科学实验的结果）。我们可以从数据中导出似然分布就像我们在上一篇关于最大似然的文章中所做的那样。假设数据是从可以用高斯分咘描述的过程生成的我们得到一个由下图中的黄金曲线表示的似然分布。请注意5个数据点的平均值的最大似然估计值小于3（约2.8）

蓝色氫键距离的先验概率和来自5个金色数据点的可能性分布

现在我们有2个高斯分布，蓝色代表先验金色代表可能性。我们不关心归一化常数因此我们拥有计算非标准化后验分布所需的一切。回想一下表示高斯概率密度的方程是

所以我们必须增加其中的2个。我不会在这里讲解数学因为它变得非常混乱。如果您对数学感兴趣那么您可以在的前看到它。得到的后验分布在下图中以粉红色显示

通过乘以蓝色囷金色分布产生的粉红色后验分布

现在我们得到氢键长度的后验分布，我们可以从中得出统计数据例如，我们可以使用分布的来估计距離或者我们可以计算方差来量化我们对结论的不确定性。从后验分布计算的最常见的统计数据之一是模式这通常用作感兴趣参数的真實值的估计，并且被称为最大后验概率估计或简称为MAP估计在这种情况下，后验分布也是高斯分布因此平均值等于模式（和中值），并苴氢键距离的MAP估计值在约3.2的分布峰值处

为什么我总是使用高斯分布？

你会注意到在我的所有涉及分布的示例中，我都使用高斯分布其中一个主要原因是它使数学变得更容易。但是对于贝叶斯推理的解释示例它需要计算2个分布的乘积。我说这很乱所以我没有讲解数學。但即使不自己做数学我也知道后验是高斯分布。这是因为高斯分布具有使其易于使用的特定属性这是结合自身相对于高斯似然函數。这意味着如果我将高斯先验分布与高斯似然函数相乘我将得到高斯后验函数。后验和先验都来自同一分布族（它们都是高斯）的事實意味着它们被称为共轭分布在这种情况下，先验分布称为共轭先验

在许多推理的解释情况下，选择可能性和先验使得得到的分布昰共轭的，因为它使得数学更容易数据科学中的一个例子是，它是一种用于在几个文本文档中查找主题的无监督学习算法（称为语料库）一个很好的介绍LDA是可以发现的埃德温·陈的博客。

在某些情况下，我们不能以这种方式选择先验或可能性以便于计算后验分布。有時可能性和/或先前分布看起来很可怕，并且用手计算后验并不容易或不可能在这些情况下，我们可以使用不同的方法来计算后验分布最常见的方法之一是使用一种称为马尔可夫链蒙特卡罗方法的技术。

当我们获得新数据时会发生什么

贝叶斯推理的解释的一个好处是伱不需要大量的数据来使用它。观察足以更新先前的事实上，贝叶斯框架允许您在数据进入时实时迭代地更新您的信念它的工作原理洳下：您事先相信某事（例如参数的值），然后您会收到一些数据你可以像我们上面那样通过计算后验分布来更新你的信念。之后我們得到了更多的数据。所以我们的后验成为新的先验我们可以使用从新数据中获得的可能性来更新新的先验，并且我们再次获得新的后驗这个循环可以无限期地继续，所以你不断更新你的信念

卡尔曼滤波就是一个很好的例子。它被用于许多场景但数据科学中最引人紸目的可能就是用于自动驾驶。在我攻读数学蛋白质晶体学博士期间我使用了一种称为Unscented卡尔曼滤波器的变体。

我们在上面的氢键长度示唎中生成的数据表明2.8是最佳估计值但是，如果我们仅根据数据进行估算我们可能会面临过度拟合的风险。如果数据收集过程出现问题这将是一个巨大的问题。我们可以使用priors在贝叶斯框架中解决这个问题在我们的例子中，使用以3.6为中心的高斯先验导致后验分布其给絀了氢键长度的MAP估计为3.2。这表明我们的先验可以在估计参数值时充当常规器

可能性权重取决于两个分布之间的相对不确定性。在下图中我们可以用图形方式看到这一点。颜色与上面相同蓝色代表先验分布，金色代表可能性和粉红代表后验在图中的左图中，您可以看箌我们的先前（蓝色）比可能性（金色）的分散要小得多因此，后验类似于先前的可能性右图中的情况恰恰相反。

因此如果我们希朢增加参数的正则化，我们可以选择缩小与可能性相关的先验分布

MAP估计何时等于最大似然估计？

当先前分布是均匀的时MAP估计等于MLE。均勻分布的一个例子如下所示

我们可以看到，均匀分布为x轴上的每个值赋予相同的权重（它是水平线）直观地说，它表示缺乏关于哪些徝最有可能的先验知识在这种情况下，所有权重都被赋予似然函数因此当我们将先验乘以可能性时，得到的后验与可能性完全相似洇此，最大似然法可以被视为MAP的特例

}

答：物体自由落体时,下落相同高喥的时间与物体质量,形状无关,只和当地的重力加速度有关但如果不是自由落体就另当别论了当初是从实验推理的解释的,后来根据大量实验總结出了公...

}

常信村百科网