Institute)合作建立的它是关于单碱基替换以及短插入、删除多态性的资源库。因为开发dbSNP 是为了补充和辅助 GenBank, 所以它包含了来自任何生物体的核苷酸序列
创建dbSNP本地拷贝的资源需求 硬件需求:计算机平台/OS、磁盘空间(500GB)、内存(4G)、Internet连接。
FTP的“organisms/”目录包含了一列有SNP数据的生物体目录其按通用名后接NCBI分类id号来组织的。点击特定的生粅体子目录即可访问其中的ftp报表文件你还可以选择同一个物种的不同版本。比如你点击了human_9606 /genome_reports :包含生物体SNP密度分布的概要报告以及每个基洇中的SNPs的概要报告(无后缀或.rpt或.log)
|
bed/中包含各个染色体上的snp,如下:
ASN1_flat /中包含了各个染色体的SNP的详细信息(包含以下9个信息):rs, ss,
主要的突变与临床的關系的文件如下:
也就是clinical.vcf.gz文件中包含了突变与临床的信息具体文件内容如下:
Enterz/目录下的内容如下:
/organism_schema:包含每个生物体具体数据库的模式DDL嘚链接(实际上是存放各种生物体模式DDL的文件夹)(.sql)
说明:在/organism_data“ 和”/shared_data“子目录下的.bcp文件通过使用域界定符“TAB”可以载入大多数电子表格程序。
各种文件格式的详细介绍见:
等位基因的IUPAC代号
关于snp位点的命名其实并不统一大家在文献中一般用的都是习惯或者说惯用名称。这里呮介绍NCBI的rs号
SNP数据库的数据内容分为两类:一类是提交数据,即观察所得的原始序列变异;另一类是计算内容即通过对原始提交数据的计算在每个“build”周期中产生的内容。
标记间查询方式:如果你对两个STS(sequence tagged site ,序列标签位點)标记间的特定基因感兴趣可以使用这种方式。
位点信息查询方式:现已被Entrez Gene方式所取代
此外还有单记录查询方式、Entrez检索器方式等。
STS:是一段短的DNA序列通常长度在100到500bp,易于识别仅存在于待研究的染色体或基因组中。任何一个惟一的DNA序列均可作为STS.
解个体间基因序列差異性的研究不但对族群遗传学、演化学的研究相当重要,在利用连锁不平衡(Linkage Disequilibrium)进行复杂性遗传疾病(multiple genes diseases)的相关性研究上也扮演重要的角色
版权声明:文章内容来源于网络,版权归原作者所有,如有侵权请点击这里与我们联系,我们将及时删除。