如何分析SNP位点间的连锁不平衡结果分析性

点击联系发帖人 时间：2017-10-06 02:25

连锁不平衡 r2

连锁分析和关联研究-Bioinformatics
连锁分析和关联研究的原理连锁分析和关联研究的原理和假说基本上是相似，两者均以相邻近的DNA变异共分离为基础。连锁分析是通过鉴定经多代传递仍完整的单倍型为基础的，检测在一个家系中等位基因与疾病的传递是否相关。而关联研究则是通过鉴定经许多代数传递后仍保留完好的相邻近DNA变异之间的DNA片段，检测在一个群体中疾病和等位基因的相关性的存在与否。因此，关联研究也可认为是在未观察到的、可能存在的家系中进行的大规模的连锁分析。随着人口不断膨胀，世代传递中连锁和关联状态经重组不断被打断。当与某一特定性状相关的功能性突变出现时，该突变位于先前既已存在的DNA变异组合成的单倍型中。由于连锁分析只对在世的几代人中进行，重组在短短这几代人中发生的机会较少，因此连锁分析所鉴定的含疾病相关基因的染色体区域往往很大，甚至达几百万碱基，含上千个基因(图l—3)。与此相反，关联研究是以群体历史上的重组为基础，因此理论上在随机交配的群体中疾病基因的相关区域非常小，只含一个基因或基因片段。通过随后多代的传递，重组将使突变与最初的单倍型中的等位基因分离开来，个别的DNA变异仍与突变一道组成单倍型传递很多代，这种等位基因的非随机关联就是连锁不平衡。连锁不平衡是关联研究的基础。&&&&连锁不平衡可以被认为是对连锁分析的补充，在未知连锁的条件下可以通过连锁不平衡确定致病基因位点。连锁不平衡相对于连锁分析更易找到微效基因，相比于单基因遗传模式更适合于多基因遗传模式。无亲缘关系患者样本收集较易，可随机采集，完全符合群体临床疾病谱。相关分析为非参数性分析，不需设定遗传方式等各种参数，并且连锁不平衡的检出力高于家系连锁分析。在多基因疾病中，不但可检出主效基因，而且可检出相对风险率小于5．0％的次效基因，这正是同一位点相关分析阳性而连锁分析阴性的原因之一。但在实际检测中，关联分析也有不利的方面，只能在一定条件下有效，如低突变率及遗传标记位点与致病相关基因位点足够近才能避免频繁的重组，同时需要大量样本才有利于严格意义上的显著结果的发现。这一方法还要考虑到如何使患者组与正常对照组相匹配，以及人群、地理和社会背景等。而在这些不同条件下，等位片段的频率往往有很大的差异，这一现象被称为群体分层(populationstratification)。为克服这一问题，在研究方案的设计上必须注重病例组与对照组相匹配，对家系样本需增加患者父母未传递的等位片段作匹配比较。当某一特定等位片段在传递时出现的概率比随机的概率显著增多时，则认为存在连锁不平衡。&&&&基于此原理的遗传统计方法有对隐性遗传模式非常有效的传递不平衡(transmission disequilibrium test，TDT)，以及患者家系对照者分析(affected family—based controls，AFBAC)、单倍型相对风险率分析(haplotyperelativerisk，HRR)等方法。TDT是在家系内进行关联分析，观察双亲(至少一个是杂合子)将标记位点等位基因传递给患者的频率。TDT的优点有：①可完全消除种族分层引起的误差；②可用于分析父母在基因传递上的差异。TDT的缺点有：①中老年发病患者中的双亲多已亡故，而不易取得标本；②疾病异质性将明显降低相关分析的检出率，按疾病病理生理性状(又称中间性状)分成亚组或直接研究中间性状的相关位点，将有助于解析疾病的易感位点；③由于外显不全，发病晚，对照群体内可存在尚未发病的个体，导致影响检出率；④由于对遗传标记的杂合度要求较高，双亲必须是杂合子才能进行TDT分析，故SNP标记在TDT分析中较难发挥作用。&&&&除了可直接对候选基因和定位区域内的变异进行分析外，关联研究亦可用于全基因组疾病定位，此即连锁不平衡基因定位。对于在人群中患病率低，且不易获得众多家系研究对象的疾病，可行的基因定位途径是关联分析。DNA芯片等高通量的分型技术使连锁不平衡基因定位成为可能，并已有商品化连锁不平衡基因定位的产品。利用这些SNP芯片，科学家已找到了一些多基因疾病的致病基因。任何列联表分析软件都可以用来比较病例与对照间的频率差异，但若等位基因或基因型分布不集中，患者和对照等位基因或基因型所构成的列联表比较稀疏，需要采用随机模拟、置换或枚举求得精确率。多个等位基因的分析可采用Logistic回归分析。如果造成连锁不平衡是由于人群始祖效应，相应的分析方法则更为有效。via 在过去的20年中，基于DNA的分子标记技术已经在植物和动物中得到广泛应用。其中之一就是用于构建全基因组的分子图谱以及对单一性状和复杂性状进行遗传分析。此类研究都是在构建作图群体的基础上来进行的连锁分析(linkage analysis)，利用的数据有&分子标记数据（marker data）和性状数据（Trait data），在整个genome上系统的收索quantitative trait loci (QTL).最经典Lander& Botstein（1989）提出的interval mapping 和 zeng（1993）改进的composite interval mapping.&用2个marker 数据推断介于其之间某（检验）位点的基因型（genotype），再用统计模型建立起genotype和 trait data之间的关系。他们所用的统计模型是含缺失数据的linear model，用极大似然比来检验给定位点上是否有QTL.&近十几年来，一直是统计遗传的一个热门方向，很多新的统计方法都被应用与qtl mapping,包括参数&半参数&非参数，lm glm nlm...上面的方法不适合于研究复杂性状的基因。由此产生了另外一些方法，其中具有代表性的就是基于连锁不平衡的关联分析方法(assiociationanalysis)。在人类的疾病基因研究中，一般有两种方法：一是条件对照法(case-control, CC)；二是传递连锁不平衡法(transmission disequilibrium test, TDT)(Spielman et al., 19993)。最简单的关联分析的做法是进行条件—对照分析(Case-controls Study)。条件对照已被广泛应用于疾病易感位点的关联分析中。此法的有点是易于获得大量群体样本，能有效地进行基因分型，能直接比较两组中遗传标记的等位基因频率和基因型频率，若通过统计分析得到了显著的差异，则认为此位点同疾病相关联。虽然此法易于操作，但还是需要对其结果进行认真分析。这种方法倾向于坚定DNA突变体，由于群体的亚结构，这种DNA突变体可能是与疾病之间假关联的。因此，选择一个适当的对照组很重要。在条件一对照研究中出现阳性结果时，产生关联可以有3种原因：一是这个位点就是致病位点；二是这个位点与疾病位点存在连锁不平衡(LD)；三是这种关联性是由于混杂因素(Confounder)造成的虚假联系。所谓的混杂因素指的是这一因素与疾病和检测位点均有关联。Spielman(1993)提出的TDT (transmission disequilibrium test)传递不平衡检验方法，至今很受大家推崇。传递不平衡检验(TDT)的优点是它是一个对连锁的检验，而不仅仅是连锁不平衡。在连锁存在的情况下，此法能有效地应用于关联分析。TDT考虑了等位基因从杂合子双亲传递到受累后代的概率，而且这些概率偏离0.5的情况只发生在当标记和疾病位点连锁的时候(假设群体中标记位点总体上不存在对孟德尔分离的偏离)。总的来说，TDT在所有情形下都是一个有效的连锁不平衡检验，但对连锁不平衡的敏感程度依赖于样本中独立的祖先疾病等位基因的数目。由于大多数用于TDT分析的样本会包含许多单独的家系，TDT可以被认为是对连锁的检验，而随着连锁不平衡程度的增加其效能也跟着增加。我们需要注意的是由于关联分析和连锁分析的研究方法和侧重点不同，在研究中可能会得到不同的结果。两个位点相关联并不一定连锁，因为这种关联可能是由于随机漂变、人群层化引起的连锁不平衡所致;同样连锁也不一定关联，即使两个位点同处于一条染色体上，且之间的距离很接近，但是它们并不一定处于连锁不平衡中，也就不能在关联分析中表现出阳性。via 1、连锁采用家系样本；关联采用散发样本2、连锁应用LINKAGE核心IBD算法做计算；关联用卡方检验计算2组，等到相关行3、连锁一般找到的是某个区域；关联找到的是某个点4、连锁结果相对准确，假阳性小，但精细定位很困难，主要原因是家系问题关联相对粗糙，假阳性很高，但可以直接定到基因位点值得好好思考的问题。连锁和关联的区别不是单纯的连锁采用家系样本而关联采用散发样本的问题。关联研究也有基于家系的。大家可以看看下面的图及相关的解释，我就不翻译了。At a fundamental level, genetic association and linkage analysis rely on similar principles and assumptions. Both rely on the co-inheritance of adjacent DNA variants, with linkage capitalizing on this by identifying haplotypes that are inherited intact over several generations (such as in families or pedigrees of known ancestry), and association relying on the retention of adjacent DNA variants over many generations (in historic ancestries). Thus, association studies can be regarded as very large linkage studies of unobserved,hypothetical pedigrees. In growing populations, such as humans, recombination is the primary force that eliminates linkage and association over generations.When a functional mutation occurs (‘m’ in the figure)&— perhaps one that contributes to disease— it does so on a haplotype of other pre-existing DNA variants. Because linkage focuses only on recent, usually observable ancestry, in whom there have been relatively few opportunities for recombination to occur, disease gene regions that are identified by linkage will often be large, and can encompass hundreds or even thousands of possible genes across many megabases of DNA (figure panel a). By contrast, association studies draw from historic recombination so disease-associated regions are (theoretically) extremely small in outbred random mating populations89, encompassing only one gene or gene fragment (figure panel b). Through subsequent generations, as the disease mutation is transmitted, recombination will cause it to be separated from the specific alleles of its original haplotype. Particular DNA variants can remain together on ancestral haplotypes for many generations. This type of non-random association of alleles is known as linkage disequilibrium. It is linkage disequilibrium that provides the genetic basis for most association strategies.&--Nat Rev Genet. ):91-9.&TDT用的确实是核心家系采用case-control设计的关联研究确实要求所选的个体是无关个体非核心家系的关联研究的数据分析可以参考：http://biosun1.harvard.edu/~fbat/fbat.htmvia
很喜欢此文字
很喜欢此文字
很喜欢此文字
很喜欢此文字
转载了此文字
转载了此文字
转载了此文字
转载了此文字
很喜欢此文字
很喜欢此文字
很喜欢此文字
很喜欢此文字
很喜欢此文字
很喜欢此文字
很喜欢此文字
很喜欢此文字
转载了此文字
&|Powered by[发明专利]LTA基因单核苷酸多态性rs2009658在检测结核易感性中的应用在审
申请/专利权人：
公开/公告号：CNA
发明/设计人：;;;;;
公开/公告日：
主分类号：
搜索关键词：
【说明书】：
各SNP位点间的连锁不平衡(LD)强度按照常规的做法采用Lewontin标准化系数D和连锁不平衡系数r2来表示，单体域采用Haploview 4.2软件的默认参数进行划分。在各个单体域内，采用基于Bayesian算法的PHASE 2.1软件，推断出每个样品的单体型。随后采用HAPLO.STATS软件进行单体型分析。具体的方法是：基于广义线性模型，并辅以各种混杂因子的校正，进行全局性(global)和针对单体型(haplotype-specific)的Hap.Score分析。各个单体域内频率＜0.03的单体型，合并为其他(others)项。使用100000次置换(simulations)检验得到观察P值，并计算各个单体型的Hap.Score值。对Bayesian算法获得的双单体型(diplotype)数据，同样进行非条件性logistic回归分析，并校正年龄和性别。某一单体型的双体型分为3类：0份拷贝样本、1份拷贝样本和2份拷贝样本，以0份拷贝样本为参照，分析1份拷贝样本和2份拷贝的结核易感性或抗结核性。六、实验结果分析通过基因型分析，从LTA和TNF基因选出7个单核苷酸多态性(SNP)位点，即rs2009658位点、rs1800683位点、rs2229094位点、rs2229092位点、rs1041981位点、rs1800629位点和rs3093662位点。其中，所述rs2009658位点为人类基因组6号染色体中自5’末端起第位核苷酸；所述rs2009658位点的核苷酸为G或C。所述rs1800683位点为人类基因组6号染色体自5’末端起第位核苷酸；所述rs1800683位点的核苷酸为A或G。所述rs2229094位点为人类基因组6号染色体自5’末端起第位核苷酸；所述rs2229094位点的核苷酸为C或T。所述rs1041981位点为人类基因组6号染色体自5’末端起第位核苷酸；所述rs1041981位点的核苷酸为C或A。所述rs1800629位点为人类基因组6号染色体自5’末端起第位核苷酸；所述rs1800629位点的核苷酸为A或G。步骤四中用于检测所述rs2009658位点的上下游引物为引物1和引物2，延伸引物为引物3。引物1和引物2是一对引物，扩增含待测位点前后约200-300bp的产物，引物3是第3条引物即单碱基延伸引物，约15-20bp，只在200-300bp产物的一条链上延伸1个碱基。最终通过质谱检测16-21bp延伸子的分子量大小对应基因型。引物1：5’-ACGTTGGATGCCCCTCTAACACTCTCCAAG-3’(序列1)；引物2：5’-ACGTTGGATGAGCAGTTTCTAAAGATGAC-3’(序列2)；引物3：5’-tCCTCAAATATTATTACTGCTACT-3’(序列3)。步骤四中用于检测所述rs1800683位点的上下游引物为引物4和引物5，延伸引物为引物6。引物4和引物5是一对引物，扩增含待测位点前后约200-300bp的产物，引物6是第3条引物即单碱基延伸引物，约15-20bp，只在200-300bp产物的一条链上延伸1个碱基。最终通过质谱检测16-21bp延伸子的分子量大小对应基因型。引物4：5’-ACGTTGGATGTCTATAAAGGGACCTGAGCG-3’(序列4)；引物5：5’-ACGTTGGATGTAGTCCAAAGCACGAAGCAC-3’(序列5)；引物6：5’-ggggtAGCCTCACCTGCTGTG-3’(序列6)。步骤四中用于检测所述rs2229094位点的上下游引物为引物7和引物8，延伸引物为引物9。引物7和引物8是一对引物，扩增含待测位点前后约200-300bp的产物，引物9是第3条引物即单碱基延伸引物，约15-20bp，只在200-300bp产物的一条链上延伸1个碱基。最终通过质谱检测16-21bp延伸子的分子量大小对应基因型。引物7：5’-ACGTTGGATGCCAGAAGGAGGAGGTGTAG-3’(序列7)；引物8：5’-ACGTTGGATGTGACACCACCTGAACGTCTC-3’(序列8)；引物9：5’-tTTCCTCCCAAGGGTG-3’(序列9)。步骤四中用于检测所述rs1041981位点的上下游引物为引物10和引物11，延伸引物为引物12。引物10和引物11是一对引物，扩增含待测位点前后约200-300bp的产物，引物12是第3条引物即单碱基延伸引物，约15-20bp，只在200-300bp产物的一条链上延伸1个碱基。最终通过质谱检测16-21bp延伸子的分子量大小对应基因型。引物10：5’-ACGTTGGATGTGTTGGCCTCACACCTTCAG-3’(序列10)；引物11：5’-ACGTTGGATGACCAATGAGGTGAGCAGCAG-3’(序列11)；引物12：5’-GCAGCAGGTTTGAGG-3’(序列12)。步骤四中用于检测所述rs1800629位点的上下游引物为引物13和引物14，延伸引物为引物15。引物13和引物14是一对引物，扩增含待测位点前后约200-300bp的产物，引物15是第3条引物即单碱基延伸引物，约15-20bp，只在200-300bp产物的一条链上延伸1个碱基。最终通过质谱检测16-21bp延伸子的分子量大小对应基因型。引物13：5’-ACGTTGGATGGGTCCCCAAAAGAAATGGAG-3’(序列13)；引物14：5’-ACGTTGGATGGATTTGTGTGTAGGACCCTG-3’(序列14)；引物15：5’-taggcCCCTGGAGGCTGAACCCCGTCC-3’(序列15)。这些SNP的具体信息、染色体位置及等位基因频率见表1。所有位点在非结核对照组样本中均通过了Hardy-Weinberg平衡检验(P＞0.01)。如表1所示，LTA-rs2009658等位基因频率在结核组和非结核对照组之间存在显著性差异(P＝0.048)。如表2所示，在共显性遗传模型下，非条件logistic回归分析发现LTA-rs2009658位点GC基因型与显著增加的结核风险相关(P＝0.043，OR 1.123，95％CI 1.007-1.505)，而GG基因型则没有(P＝0.480，OR 1.212，95％CI 0.711-2.066)。如表3所示，在显性遗传模型下，LTA-rs2009658位点((GC+GG)vs CC)基因型与显著增加的结核风险相关(P＝0.037，OR 1.229，95％CI 1.012-1.492)，而其它6个SNP无论是在显性遗传模型还是隐性遗传模型下均没有显著的结核风险。表1LTA和TNF基因SNP位点信息及基因频率一览表表2共显性遗传模型下LTA和TNF基因7个SNP基因型频率在结核组与对照组之间的分布表3显性或隐性遗传模型下LTA和TNF基因7个SNP基因型频率在结核组与对照组之间的分布即根据以上结果，可知：(a1)在共显性遗传模型下，所述rs2009658位点为GC基因型的待测人患结核病的风险高于所述rs2009658位点为CC基因型的待测人；(a2)在显性遗传模型下，所述rs2009658位点为GC基因型或GG基因型的待测人患结核病的风险高于所述rs2009658位点为CC基因型的待测人。为了进一步评价7个SNP两两位点间的连锁不平衡强度，我们采用Haploview发现了一个由rs2009658、rs1800683、rs2229094、rs1041981和rs个SNP组成的单体域，该单体域同时覆盖了LTA和TNF两个基因，但是LTA-rs2229092和TNF-rs3093662在该单体域之外。从理论上来说，该单体域应该包含多达64个单体型，然而实际上我们从目标人群中只发现了5个最常见的单体型(CATAG，CGTCG，GGCCG，CATAA，CGCCG)，这些常见单体型在结核组和对照组中占比分别为99.81％和97.58％(表4)。全局性分数检验表明该单体域中的这些单体型在结核组和非结核对照组之间没有显著性差异(Global P＝0.06292，df＝5)，但是“GGCCG”单体型频率在结核组和非结核对照组之间有统计学差异(P＝0.042)，这一统计学差异在经过100000次置换后依然成立(Psim＝0.042，表4)。进一步Logistic回归分析发现，单体型“GGCCG”与结核风险增加之间存在显著地联系(P＝0.025，OR 1.239，95％CI 1.027-1.494，表4)。
友情链接：交换友情链接需要网站权重大于3，网站收录10W以上，如符合条件，请联系QQ：。
行业网站：相关推荐：
400-周一至周五 9:00-18:00
服务热线：400-投诉建议：022-
扫一扫，微信关注高智网
高智&让创新无法想象2000万件&专利数据君，已阅读到文档的结尾了呢~~
扫扫二维码，随身浏览文档
手机或平板扫扫即可继续访问
基于SNP的连锁不平衡分析.pdf
举报该文档为侵权文档。
举报该文档含有违规或不良信息。
反馈该文档无法正常浏览。
举报该文档为重复文档。
推荐理由：
将文档分享至：
分享完整地址
文档地址：
粘贴到BBS或博客
flash地址：
支持嵌入FLASH地址的网站使用
html代码：
&embed src='/DocinViewer--144.swf' width='100%' height='600' type=application/x-shockwave-flash ALLOWFULLSCREEN='true' ALLOWSCRIPTACCESS='always'&&/embed&
450px*300px480px*400px650px*490px
支持嵌入HTML代码的网站使用
您的内容已经提交成功
您所提交的内容需要审核后才能发布，请您等待！
3秒自动关闭窗口【图文】关联分析_百度文库
两大类热门资源免费畅读
续费一年阅读会员，立省24元！
大小：15.05MB
登录百度文库，专享文档复制特权，财富值每天免费拿！
你可能喜欢君，已阅读到文档的结尾了呢~~
基于SNP的连锁不平衡分析（论文资料）,连锁不平衡分析,连锁不平衡分析软件,snp分析,snp分析方法,批量测序结果snp分析,snp基因型分析,snp分析软件,snp关联分析,snp位点分析软件
扫扫二维码，随身浏览文档
手机或平板扫扫即可继续访问
基于SNP的连锁不平衡分析（论文资料）
举报该文档为侵权文档。
举报该文档含有违规或不良信息。
反馈该文档无法正常浏览。
举报该文档为重复文档。
推荐理由：
将文档分享至：
分享完整地址
文档地址：
粘贴到BBS或博客
flash地址：
支持嵌入FLASH地址的网站使用
html代码：
&embed src='/DocinViewer--144.swf' width='100%' height='600' type=application/x-shockwave-flash ALLOWFULLSCREEN='true' ALLOWSCRIPTACCESS='always'&&/embed&
450px*300px480px*400px650px*490px
支持嵌入HTML代码的网站使用
您的内容已经提交成功
您所提交的内容需要审核后才能发布，请您等待！
3秒自动关闭窗口}

常信村百科网