无条件潜变量增长模型建模什么意思

   如果我们要做潜变量的结构方程模型样本量自然是多的比较好,但最低多大才能做呢 这个问题需要区分实际的潜变量建模情况:是用题目建模还是用维度建模,是单量表建模还是多量表建模

     如果是所有量表都参与建模,那么就需要根据所有量表的所有题目来评估个人经验来看,样本量应该是所有題目的20倍以上才比较保险(拟合度容易通过)

     但如果是单量表建模,比如验证性因子分析那么只需要根据单个量表的题目即可,因此一项研究如果使用了多个量表,如果每个量表题目比较少例如管理学上的量表题目都比较少,二三十题以内的多那么样本量300左右可能就可以了。

    而对于潜变量结构方程模型来说如果我们使用打包法采用维度建模,那么样本量就可以少很多此时以维度数量作为样本量计算的依据即可,所有即便量表题目几十上百个,但如果维度只有十个左右那么这样的研究样本量在200左右也都是可以的。

加载中請稍候......

}

密度估计是机器学习中的一个主偠任务通常,最常用的办法就是极大似然估计(MLE)假设我们有一个数据集D=t1,t2...tn,包含了n个样本最常用的高斯函数,就可以通过下式给出:

这样我们就可以建立一个似然函数


求导,也就是整个函数的极大似然估计

然而,直接对似然函数求导有一个很大的问题那就是

是┅个维度非常高的数,直接进行求导计算量相当大。因此就有人想到了,是不是能通过一个什么的力量x这个x可以支配多个t,如果我們找到了这个x的分布就可以结合t和x的联合分布来确定t。

已知了我们的数据有n个t那么这个时候我们需要一组神奇的变量x,,他看不见摸不箌但是却实际的决定了每个t的状态,所以我们把这个变量称为潜变量,潜在的变量看不见的变量,潜水的变量。。
这样,我們就可以得到一个潜变量和原始变量的联合分布

这样我们就建立了一个潜变量和样本之间的关系

我们通过对潜变量的边界积分,就可以獲得数据的分布

对于混合高斯分布除了要求解分布之外还需要求解权重,所以就要用EM

假设我们的数据集t共有N个样本每个样本d维,则我們可以求解整个样本的协方差矩阵S

根据PCA的公式可知:


所以t的q维主成分可以表示为:



}

我要回帖

更多关于 潜变量 的文章

更多推荐

版权声明:文章内容来源于网络,版权归原作者所有,如有侵权请点击这里与我们联系,我们将及时删除。

点击添加站长微信