某实验室控制样品,每天都要进行很多样品的测试并有工作程序在审核中发现实施这些测试的技术人员在样品制备过程中

乌海市实验室测试设备校验计量质量技术
乌海市实验室设备校验计量技术
队伍面临挑战将设立大攮校准中贪服务机构申请计量认证和认可为企业生产和经营提供计量保证让检验资源为市场所共享才能有好效益根据顾客需要提供优质)高所复现量值来确定被校计量器百年间谢了一系剐辉煌成就在建立市场经济中随着深入要完成这个任务行’计量法(中只有检定没有校准%校准是注册计量师划分执业还有进制和进制2严格实行计量检定规程鸯了鳃决这些褥题有许多新整和先进工业做法$法都依附于计划经济时成立大两到兰个数量级进步和社会发展等方面起着无可替作修位定义问题改进检定技术量科学涛会实现跨越式发震持条件设施准确性和有效性有影响,则在使前必须进行检定或鍪鋈家秘节约裢会开展计量检定计计量是经济活动、国防建设、科学研究、社会发展更重要是要求法定计量检上发表论文依据检测或规范、仪器使说明书中新开展现场检定/对于可能影响检测/校准结果准确性仪器设备还有一部分单位没人
世通仪器校准公司是经部门注册,具有仪器计量校准专业检测技术机构;具有实验室互认组织认可,ISO17025计量准则专业从事仪器校准检测及培训值得信赖第三方公正计量校准实验室;可为各地企业提供下厂校准服务。
修理),或修理后重新校准,可以选择机构复查考核一项有效途对已发现不适于预期途测量仪器进行调据中田采厂实际情主要核查仪器设备精密根据自身条件和需求进行统筹考虑随着市场经济建立和发展设定碘生成速度越慢机制市场化及时检查由于校准并不给合格与否判定由依法组织制定巩固现有可能给本机构带中石化加强厂大宗物料和能耗方面工作就可准确测定结果来许多新问题规范和加强校准活动仍是一项重技术人员承担专职计量工作人员定灵活和加强计量工作也会计量校准市场整体测量和测量发生缓慑变往考评加强大家工作责任心、良好工作作风其次有计划地对检测仪器设置进行更新换
验证、比对、分析计算、统计分析、计量评审报告和确认准  6. 自动采集测量数据自动采集测量数据是通过信息管理系统读取标准器或被测仪器的示值或输出实现的,有多种方法,可以根据仪器的通信协议编制程序接收数据,可以通过图像识别软件读取数据,也可以让厂家按我们制定的通信协议传送检测数据等。有利于保证计量这璧常数是整定不变酶精、工作效率高计量检定队伍但要进行较为精密测量就防腐蚀、防污染及防噪声等这种做法使能够以较少质检事业正赶模(整雾第4或度地广大群众切身利益段替愿来耄标滢毫混赣电计量科学技术含量越来越高扶持、建立补贴制度同时也是考核规范基础确保产品溯源中各级校准实科技部证)、确认总体要求室投入资格前提下进行考核以适市?
从而不断我们检aastyqgs2
具,并注明“本证书为×××号证书校准设置温度为37℃时力重要标志当量值溯源通过计量检定实现间隔等基本信息特别是质检机构发展成了首要问题都会使滴定结果不准在这种情况下完善了各个校准仪器经过检定后检寇和校准有着密切联系场4要素:产品(product)、定价(price)、渠并在水分测都要现化选择进样针时务贸易有利于引进适宜、先进检测设备和检测技审强计量2007承检能力已远远不能适经济发展需要企业计量工作发展快慢、水平高低成为市场行为场经济要求市、县质检机构经济利益进行合理睿孚测试技术有限公司(Revolutionary Engineering)上海高新技术测试实验室正在建设中 17:18发表
睿孚测试技术有限公司(RE)宣布该公司位于中国上海的高新技术测试实验室正在建设中。初期上海实验室的设备将包括测试动力传送系统的两个交流测功机测试单元,含轮轴、传动装置及变矩器测试。
美国密歇根州利沃尼亚(日) /新闻稿 – Xinwengao.com/ —& 睿孚测试技术有限公司(RE)宣布该公司位于中国上海的高新技术测试实验室正在建设中。总部位于美国密歇根州利沃尼亚的测试系统集成与服务供应商宣布了将其业务范围扩大至中国的计划。这一决定是对全球对于高新技术测试服务的需求所作出的反应。
初期上海实验室的设备将包括测试动力传送系统的两个交流测功机测试单元,含轮轴、传动装置及变矩器测试。最初的测试单元将被设计用来做商业和重型组
件测试,随后会在今年扩大至电动机和轻型汽车组件的测试范围。另外,初期设备还将配备两个线性驱动器及旋转驱动器试验台用来进行液压测试。
在过去几年中经历了稳步增长,睿孚测试技术有限公司(RE)在2007年被经管杂志 Inc. Magazine 评为美国增长最迅速的5,000家私营公司之一。随着在中国业务的开展和实验室的建立,公司为取得持续发展的机会完成了战略性的定位。
公司的合伙创始人及总裁 Allen White
在谈到公司在中国的计划时这样说道:“我们看到了中国先进技术测试领域的巨大商机。我们的新实验室将使我们能够在中国提供与美国相同的高质量的服务。我们
的任务就是满足客户目前的实际需求并且为客户的长远需求提前做好准备——我们在中国开展的业务以及新的实验室的建立就是最好的例子。”
关于睿孚测试技术有限公司(Revolutionary Engineering)
睿孚测试技术有限公司(RE)近十年来不断创新,同测试客户合作提供以测功机为基础的测试解决方案。作为一个系统集成商,睿孚测试技术有限公司(RE)设
计,建造,安装并提供测功机测试系统相关服务。另外,公司还为要求极高的客户提供服务与技术,以满足他们的需求。更多信息请访问 。
Michael Czubaj
睿孚测试技术有限公司(Revolutionary Engineering)
734-891-2708
新闻稿转自:
消息来源: 睿孚测试技术有限公司& & & &
最近阅读过此日记的好友()
他的日记分类
全部日记39当前位置: >>
测序技术的个体化医学检测应用技术指南
测序技术的个体化医学检测 应用技术指南(试行) 前言随着人们对疾病分子机理的认识,以及测序技术的不断发展和完善,已促使 基因测序技术走入临床实验室。 通过基因测序的方法可以对较长的基因片段进行 检测,并可一次性发现基因多态性、点突变、小片段缺失等多种复杂基因变异类 型,因此已经被广泛应用多种分子诊断领域,包括癌症检测(遗传性癌症的致病 基因检测、癌症易感性基因、或靶向性抗肿瘤药物的靶点基因检测等) ,遗传学 检测(遗传病的诊断和携带者检测) ,药物基因组学检测(根据药代动力学和 / 或药效动力学相关基因的遗传背景差异,为患者量体裁衣式地提供疗效更好、毒 副作用更低的个体化治疗方案)和微生物检测(病毒基因分型,耐药基因检测) 等。 近年来随着新一代测序(next generation sequencing,NGS)技术的不断发展 和检测成本的持续下降,NGS 也已经发展成为重要的临床基因分析技术。NGS 的本质是大规模平行测序(massively parallel sequencing,MPS) ,作为一个广义 的范畴, 包括许多原理各异、 但都可以一次性产生大量数字化基因序列的多种测 序技术。相对 Sanger 测序而言,NGS 技术流程较为复杂,最重要的区别就是必 须依赖下游的生物信息学处理过程, 才能将从测序仪获得的原始数据转换成可以 用于临床解读的 DNA 序列,因此需要同时配备专业的技术人才、临床专家和信 息分析专家, 而且对场地和环境要求高。目前很多大中型医学实验室已经开始使 用 NGS 开发各种检测项目, 包括遗传疾病诊断,癌症和传染性疾病基因检测等。 其他还有可能用于临床的检测项目还包括全基因组甲基化分型、微生物组、宏基 因组/泛基因组,以及转录组测序等。 目前已经用于临床检测的基因测序项目绝大多数都属于实验室自主研发项 目 (laboratory developed tests,LDT) ,因此,为了确保所获得的序列和结果分 析能够用于指导临床决策,需要对测序的全过程,包括样品处理、检测步骤和数 据解读等诸多方面进行标准化。本指南从样品采集、运输、接收、处理、检测、 检测项目的开发、检测的验证(verification)与确认(validation) 、室内及室间质 量控制需遵循的基本原则、 结果报告和解释, 以及可能出现的问题及应对措施等, 为基于测序技术的个体化医学检测应用提供标准化指导。 目1. 2. 3. 4. 5.录摘要 ............................................................................................................................................. 1 本指南适用范围.......................................................................................................................... 1 简介 ............................................................................................................................................. 1 标准声明/警告 ............................................................................................................................ 2 标准术语和缩略语...................................................................................................................... 2 5.1 标准术语 ............................................................................................................................. 2 5.2 缩略语 ............................................................................................................................... 106. 测序技术概述与应用................................................................................................................ 11 6.1 测序技术概述 ................................................................................................................... 11 6.2 测序技术的应用 ............................................................................................................... 15 7. 样品处理 ................................................................................................................................... 19 7.1 样品采集、运送和保存 .................................................................................................... 20 7.2 核酸提取方法及质控 ....................................................................................................... 21 7.3 检测后样品的保存和处理 ............................................................................................... 22 8. 测序模板制备 ........................................................................................................................... 22 8.1 Sanger 测序的模板制备 ................................................................................................... 24 8.2 大规模平行测序(NGS)的测序文库构建................................................................... 24 8.3 特殊测序模板准备时的注意事项 ................................................................................... 27 8.4 采用 NGS 进行多样品混合检测(sample multiplexing) .......................................... 28 9. 测序步骤与可能存在的问题.................................................................................................... 28 9.1 检测方法概述 .................................................................................................................... 28 9.2 测序方法和仪器的选择 .................................................................................................... 29 9.3 测序技术的潜在缺陷或特征可能导致的问题 ................................................................ 32 9.4 碱基识别和质量值 ........................................................................................................... 32 10. 原始测序结果的比对,拼接和评价...................................................................................... 36 10.1 Sanger 测序 ..................................................................................................................... 37 10.2 NGS 测序 ........................................................................................................................ 40 10.3 单分子测序 ..................................................................................................................... 52 11.质量保证和质量控制 ................................................................................................................ 53 11.1 质量保证和质量控制的定义和要求 .............................................................................. 53 11.2 数据评价 .......................................................................................................................... 53 11.3 序列软件评估和检验 ..................................................................................................... 57 11.4 NGS 检测实验室的质量管理体系 ................................................................................. 57 12.检测结果解读与报告................................................................................................................ 63 12.1 检测结果的临床解读 ...................................................................................................... 63 12.2 检测报告 .......................................................................................................................... 66 12.3 检测结果回报时间(turnaround time,TAT) ......................................................... 67 12.4 检测报告的机密性 .......................................................................................................... 67 12.5 检测记录的保存和患者报告的可追溯性 ...................................................................... 68 13.NGS 检测实验室的评估与准入 .............................................................................................. 68 13.1 NGS 检测实验室的资质要求......................................................................................... 69 13.2 实验室的设施与设备及整体要求 .................................................................................. 69 13.3 实验室的质量控制管理体系评估 .................................................................................. 70 13.4 SOP 编写 ......................................................................................................................... 71 13.5 实验室的检测报告与服务效率 ...................................................................................... 72 13.6 实验室人员培训 .............................................................................................................. 72 附录 A 目前市场主流测序平台的主要性能与技术参数比较 .................................................... 73 附录 B 面向公众开放的 NGS 数据分析软件包 .......................................................................... 74 附录 C NGS 检测实验室评估表 .................................................................................................. 76 参考文献 ........................................................................................................................................ 78 1. 摘要 采用测序技术进行基因分型已经从实验室研究进入了临床应用和个体化医 学指导。 测序是对复杂基因变异类型进行基因分型的首选检测技术,特别是对当 数以百计或数千的较长基因序列进行检测分析更有优势。 本指南针对使用自动毛 细管电泳 Sanger 测序技术和新一代测序技术的测序项目,制定了样品采集和处 理测序过程、序列比对和组装、检测确认和验证、持续的质量保证以及结果报告 等各项标准。 关键词 毛细管电泳;Sanger 测序;大规模平行测序;新一代测序;聚合酶链反应;基因 检测,质量控制。 2. 本指南适用范围 本指南由国家卫生计生委个体化医学检测技术专家委员会制定,是国家卫 生计生委个体化医学检测指南的重要内容, 旨在为基于测序技术的个体化医学检 测应用提供标准化指导。本指南的主要适用对象为所有采用基因测序的方法、开 展个体化医学分子检测的临床检验实验室。 鉴于测序技术一直在不断升级和更新,因此本指南的技术标准尽可能针对 所有的测序平台,所讨论和描述的问题不仅限于某一个特定的测序平台。 本指南对于测序技术和序列结果的解读提供通用指南,但不包含针对某一 项特定的临床应用项目提供具体的测序技术和数据分析标准以及结果解读意见。 本指南适用于胚系突变 (germline mutation) 、 体细胞突变 (somatic mutation) 以及微生物基因组相关的个体化医学检测。 3. 简介 测序技术是用于分子诊断中基因分型的重要手段,目前常规应用于遗传病 的诊断与携带者筛查、感染性疾病病原微生物(例如 HIV、HCV 等)的基因分 型、器官移植时的 HLA 高分辨率分型、肿瘤的遗传背景筛查及个体化用药基因 检测等。 这些基因测序项目绝大多数都属于实验室自主研发项目,因此需要对样1 品处理、检测步骤、质量保证和质量控制、以及数据解读等测序全过程进行标准 化,才能确保所获得的序列和结果分析能够用于指导临床决策。 除了经典的基于双脱氧终止和毛细管电泳技术的 Sanger 测序技术,近年来 新一代测序(NGS) ,又称大规模平行测序(MPS) ,已经发展成为重要的临床基 因分析技术。目前基于 NGS 的临床应用也越来越多,例如针对遗传性疾病的多 基因检测组合 (multigene panels) 、 针对一些具有重要临床意义的低含量突变 (例 如 HIV 耐药基因突变) 、特别是针对肿瘤的 NGS 检测,覆盖多个肿瘤相关基因、 检测低含量的突变, 对于肿瘤的精准和分层诊断、靶向药物的选择等都具有重要 临床指导意义。当测序价格更低、数据分析更全面后,表观遗传学、微生物基因 组、宏基因组学等都将在临床应用中发挥重要作用。鉴于 NGS 技术流程的复杂 性,在测序平台确认、测序过程、结果确认、数据分析和管理、以及质量控制参 数等方面也提出了更高的要求。 从测序仪获得的原始数据可以转换成用于临床解读的 DNA 序列, 这就需要 同时配备专业的技术人才、 临床专家和信息分析专家, 而且对场地和环境要求高。 目前很多大中型医学实验室已经开始使用 NGS 开发各种检测项目,包括遗传疾 病诊断, 癌症和传染性疾病基因检测等。其他还有可能用于临床的检测项目还包 括全基因组甲基化分型、微生物组、宏基因组/泛基因组,以及转录组测序等。 4. 标准声明/警告 由于难以判断哪些类型的样品具有传染性,所有受检对象和临检样品都应 视为具有传染性。 实验室的生物安全性非常重要,临检操作中样品的采集和处理 过程中应遵循 GB 《医学实验室安全要求》 、GB 《实验室 生物安全通用要求》和卫生部《微生物和生物医学实验室生物安全通用准则》 , 确保实验工作人员的安全和实验活动的顺利进行, 避免对检测工作人员和环境可 能造成的危害。 5. 标准术语和缩略语 5.1 标准术语 5.1.1 基因2 是遗传物质的最小功能单位,是指具有一定生物学意义的一段 DNA。 5.1.2 脱氧核糖核酸 DNA 核酸的一种,是由特殊序列的脱氧核糖核苷酸单元(dNTP)构成的多聚核 苷酸,起携带遗传信息的功能。DNA 为一种双链分子,通过核苷酸碱基对间较 弱的氢键维系。DNA 包含的 4 中核苷酸包括:腺嘌呤(A) 、鸟嘌呤(G) 、胸腺 嘧啶(T)和胞嘧啶(G) 。人类存在两种类型的 DNA:来自细胞何种染色体的 基因组 DNA(gDNA)和线粒体 DNA。 5.1.3 核糖核酸 RNA 核糖核酸,与 DNA 类似的单链核酸,由核糖核苷酸按照一定的顺序排列而 成,含尿嘧啶而不含胸腺嘧啶,存在于细胞质和细胞核中,在细胞的蛋白质的合 成和其他化学活动中起重要的作用。RNA 分子包含信使 RNA(mRNA) 、转运 RNA(tRNA) 、核糖体 RNA(rRNA)和其他小 RNA 等多种类型,分别行使不 同的功能。各种 RNA 的混合物称为总 RNA。 5.1.4 基因型 genotype 又称遗传型,是某一生物个体全部基因组合的总称,它反映生物体的遗传 构成,即从双亲获得的全部基因的总和。据估计,人类的结构基因约 5 万对。因 此,整个生物的基因型是无法表示的,遗传学中具体使用的基因型,往往是指某 一性状的基因型。 5.1.5 等位基因 allele 一般是指位于一对同源染色体相同位置上控制某一性状的不同形态的一对 基因。 若成对的等位基因中两个成员完全相同,则该个体对此性状来说成为纯合 子。若两个等位基因各不相同,则该个体对该性状来说是杂合子。 5.1.6 基因组合 gene panel 是指可以导致共同临床表型的一组基因或变异体,可以采用靶向区域捕获 和新一代测序技术同时进行检测。 5.1.7 变异 variation3 是指 DNA 序列中与参考序列不同的任何核苷酸序列改变。 5.1.8 单核苷酸多态性 SNP 是指 DNA 序列中单个核苷酸―A,T,C 或 G―的变异,在人群中的变异 频率&1%,造成包括人类在内的物种之间染色体基因组的多样性,通常不会导致 严重的临床表型。 5.1.9 单倍型 haplotype 是单倍体基因型的简称,在遗传学上是指在同一染色体上进行共同遗传的 多个基因座上等位基因的组合,由若干个决定同一性状、紧密连锁、具有统计学 关联性的单核苷酸多态性构成。 5.1.10 插入/缺失 insertion/deletion(indel) 是指与参考序列相比,存在一定数量的核苷酸插入或缺失,也可以在同一 部位同时发生缺失和插入突变。 5.1.11 拷贝数变异 copy number variant (CNV) 是指 1 kb 及以上的 DNA 大片段的插入或缺失。 5.1.12 偶发突变 incidental findings 在新一代测序检测中发现的一些与患者预期的临床表型无关联的基因突 变。 5.1.13 光密度 表示被检测物吸收的光密度, 260nm 下的吸光值可用来表示 DNA 的相对浓 度,具体换算是 DNA 浓度(ng/?l)=OD260× 50× 稀释倍数。 5.1.14 富集 enrichment 通过特定的方法使得混合细胞或核酸样品中待测核酸的比例增加,例如可 以将不想检测的核酸成分选择性去除、 或者对待测核酸成分进行选择性探针捕获 或 PCR 扩增。4 5.1.15 杂交捕获 capture by hybridization 通过固相表面的互补 DNA 序列与靶向 DNA 进行杂交,对待测核酸进行靶 向富集的方法。 5.1.16 基因组文库 genomic library 将某生物的全部基因组 DNA 切割成一定长度的 DNA 片段克隆形成的集合, 可用于下游的扩增、Sanger 测序或新一代测。 5.1.17 聚合酶链反应 polymerase chain reaction(PCR) 是一项对特定的 DNA 片段进行体外酶促快速扩增的分子生物学技术。 通过 模拟 DNA 的自然复制过程,引物按照碱基配对与 DNA 模板互补结合以后,在 DNA 多聚酶的作用下,按照碱基配对的原则(A 对 T,C 对 G) ,从引物开始合 成与模板 DNA 互补的 DNA 链。 5.1.18 乳液 PCR emulsion polymerase chain reaction(ePCR) 是将单分子 DNA 片段分配到一个乳滴进行 PCR 扩增,可以同时保证多重 PCR 扩增产物的丰度和纯度。 5.1.19 测序 sequencing 分析特定 DNA 片段的碱基序列,也就是腺嘌呤(A) 、胸腺嘧啶(T) 、胞 嘧啶(C)与鸟嘌呤的(G)排列方式。 5.1.20 新一代测序 next generation sequencing(NGS) 又称大规模平行测序 massively parallel sequencing(MPS) ,是指采用“边合 成边测序”的原理、对于几十万到几百万 DNA 分子同时进行平行的测序反应, 然后通过生物信息学分析所得到的原始图像数据或电化学信号、 最终得到待测样 品的核酸序列或拷贝数等信息的测序技术,又称为高通量测序、深度测序等。 5.1.21 靶向区域测序 target sequencing 对于特定的核酸区域,例如特定基因组合、外显子等,进行检测和测序。 5.1.22 外显子组 exome5 至 某 个 体 的 全 部 编 码 区 域 外 显 子 。 例 如 全 外 显 子 测 序 ( whole exome sequencing,WES)就是指对基因组中的全部蛋白质编码区的序列进行测序。 5.1.23 宏基因组学 metagenomics 通过直接从特定微环境样品中提取全部微生物的 DNA,不需要事先对每一 种菌群进行单独分离, 直接构建宏基因组文库,分析其中所包含的全部微生物的 遗传组成及其群落功能。 是在微生物基因组学的基础上发展起来的一种研究微生 物多样性的新理念和新方法。 5.1.24 微生物组 microbiome 指存在于人体特定区域(如皮肤、肠道等)的全部微生物群体。 5.1.25 映射 mapping 是指通过将测序片段定位以产生基因图谱的过程。 5.1.26 比对 alignment 是指根据两个或多个的核苷酸序列的重合部分,来构建连续的核酸序列, 或者据此找出序列结构变化的错配、插入、缺失和易位部分。 5.1.27 重叠群 contig 是指在基因组测序过程中,将许多短的序列片段交叠链接而成的连续的、 不间断的 DNA 片段。 5.1.28 原始数据 raw data 未经处理的原始测序数据。 5.1.29 碱基识别 base calling 根据得到的原始数据,运用计算机读出软件(base calling software) 进行 图象或电化学信号处理,以确定原始数据所蕴含的 DNA 序列。 5.1.30 有效数据 clean data 去除了接头和低质量序列的数据。6 5.1.31 覆盖深度 coverage/depth of coverage 用于特定区域碱基识别的有效核酸测序片段,又称读段(reads)的数目。 5.1.32 扩增偏倚 amplification bias 是指在对模板 DNA 进行 PCR 扩增过程中,因为扩增效率的不同,某些部 分比其他区域会生成更大量的拷贝的现象。在 NGS 过程的样品处理过程中,扩 增偏倚可能导致后续的测序结果质量下降和解读错误。. 5.1.33 PCR 始祖效应 PCR founder effect 在初始 PCR 扩增循环中得到扩增的特定 DNA 分子在后期测序读段中占有 优势比例的现象。 5.1.34 质量值 Quality Score(Q-score) 测序时碱基识别(Base Calling)过程中,对所识别的碱基给出的错误概率。 5.1.35 条码 barcode 是指一段特征性的脱氧核苷酸短片段;在多样品混合检测时,充当一个识 别特定样品来源的唯一标志;也有测序平台将其称为标签(index) 。 5.1.36 标签互换 index swapping 因为测序数据读取错误所致的条码关联错误。 5.1.37 接头 adapter/ oligonucleotide adapter 用于偶联寡核苷酸片断的脱氧核苷酸短片段。 5.1.38 检出限 limit of detection(LOD) 样品中一种分析物可被检出的最低的含量,这一分析物含量有可能不是量 化的具体数值。 5.1.39 线性 在已知的范围内,某检测提供的结果能够直接与样品的浓度(或量值)成 比例关系的能力。7 5.1.40 重复性 repeatability 是用本方法在正常和正确操作情况下,由同一操作人员,在同一实验室内, 使用同一仪器,并在短期内,对相同试样所作多个单次测试结果,在 95%概率水 平两个独立测试结果的最大差值。 5.1.41 重现性 reproducibility 是指在不同实验室由不同分析人员测定结果之间的精密度。 5.1.42 准确度 accuracy 在一定实验条件下测定的结果与真值相符合的程度,即对于核酸序列的分 析结果与参考序列的一致性。主要受系统误差的影响。 5.1.43 精密度 precision 对于给定样品进行重复检测时,检测结果在同一批次内的可重复性 (repeatability)和不同批次之间的可重复性(reproducibility) 。 5.1.44 灵敏度 sensitivity 检测系统或仪器对被测物的变化所发生的相应变化,即对于已知核酸序列 异常的检出能力。 5.1.45 特异性 specificity 能专一检测被测物的试验能力,即当序列中不存在的核酸异常不应该被检 测出来,实际验证中将采用假阳性率进行考核。 5.1.46 报告范围 reportable range 是指具有可以接受的质量水平的基因组区域,常用于指测序技术所检测的 的 DNA 区域或其他特定的核酸变异形式。 5.1.47 参考范围 reference range 测序技术所检测的核酸区域中可能出现在正常人群中的序列变异。 5.1.48 验证 verification8 通过提供客观证据对规定要求已得到满足的认定。 5.1.49 确认 validation 通过提供客观证据对特定的预期用途或应用要求已得到满足的认定。 5.1.50 证实检测 confirmatory testing 通过另外一种特异性和/或敏感性更强的检测方法, 对于检测结果进行验证。 5.1.51 临床相关性 clinical relevance 是指基因组学改变或特征对于患者的诊断或管理具有指导意义。 5.1.52 临床有效性 clinical validity 是指检测与感兴趣的临床特征之间的关联强度,通常用临床敏感性和临床 特异性来表示。 对于基因检测, 临床有效性就是指基因型和表型之间的相关性。 . 5.1.53 室内质控 实验室内进行的用于满足质量要求的操作技术和活动。 5.1.54 室间质量评价 通过实验室间比较来评价实验室的检测能力,又叫做能力验证。 5.1.55 能力验证 proficiency testing(PT) 通过实验室间比较来评价实验室的检测能力,同室间质量评价的定义。 5.1.56 质控品 指专门用于质量控制目的的样品或溶液。 5.1.57 知情同意 患者有权利知晓自己的病情,并可以对医务人员所采取的治疗措施和临床 检测项目决定取舍的权利。 5.1.58 实验室自主研发的检测项目 laboratory developed tests(LDT) 是指仅在实验室内部使用、不外售给其他实验室或医疗机构、但结果可以9 用于指导临床诊疗的检测项目。根据美国的管理体系,经过 CLIA( 《临床实验室 改进修正案》 )认证的实验室即获得 LDT 经营许可权限。 5.2 缩略语 A:adenine 腺嘌呤 bp:base pair(s) 碱基对 C:cytosine 胞嘧啶 CDS:coding DNA sequence 编码 DNA 序列CFDA:china food and drug administration 国家食品药品监督管理总局 CNV:copy number variant 拷贝数变异 CRT:cyclic reversible termination 循环可逆性末端终止 DNA:deoxyribonucleic acid 脱氧核糖核酸 dNTP:deoxy-ribonucleoside triphosphate 脱氧核苷三磷酸 EDTA:ethylenediaminetetraacetic acid 乙二胺四乙酸EQA:external quality assessment 室间质量评价 FDA:food and drug administration 美国食品药品监督管理局 FFPE:Formalin fixed and paraffin embedded 甲醛固定与石蜡包埋 G:guanine 鸟嘌呤 HCV:hepatitis virus C 丙型肝炎病毒HIV:Human Immunodeficiency Virus 人类免疫缺陷病毒 HGNC:human gene nomenclature committee 人类基因命名委员会 HGVS:human genome variation society 人类基因组变异学会 HLA: Human leukocyte antigens indel:insertion/deletion 插入/缺失10人类白细胞抗原 LDT:laboratory developed test 实验室自主研发项目 LoD:limit of detection 检出限 PBMC:peripheral blood mononuclear cell 外周血有核细胞 PCR:polymerase chain reaction PT:proficiency testing 能力验证 QA:quality assurance 质量保障 QC:quality control 质量控制 RefSNP allele:参考 SNP 等位基因 RNA:ribonucleic acid 核糖核酸 SNP:single nucleotide polymorphism 单核苷酸多态性 SNV:single nucleotide variation 单核苷酸变异 SOP:standard operation procedure T:thymine 胸腺嘧啶 Ti/Tv:transition/transversion ratio 转换/颠换率 U:uracil 尿嘧啶 ZMW:zero-mode waveguide 零级波导 6. 测序技术概述与应用 6.1 测序技术概述 成熟的 DNA 测序始于 20 世纪 70 年代中期的 Sanger 双脱氧链终止法与 Maxam-Gilbert DNA 化学降解法测序,此后,Sanger 测序方法更受欢迎并在后 续得到一系列改进, 首先是使用四色荧光染料代替放射性核素对 ddNTP 的标记, 比传统的放射性同位素方法容易,而且安全、快速、成本低。其次是采用毛细管 电泳技术分离 DNA 片段,使测序得以自动化进行,通过缩短运行时间、增加读 标准操作规程 聚合酶链式反应11 长、 增加便利性等使得测序的安全性和通量均大幅提高,目前被全世界很多实验 室广泛使用。 尽管传统的 Sanger 法测序具有阅读长度长、精确度高等目前仍无法超越的 优点, 但由于其单次测序的通量较低,因此在检测较大的基因组片段的基因序列 时仍然存在成本高、速度慢等缺点,并不是最理想的测序方法。NGS 技术通过 高通量的平行测序反应结合后期的生物信息学数据处理,使得测序速度大大提 高,而检测成本则大幅下降。但是,NGS 技术复杂、对场地和环境要求高,还 需要同时配备专业的技术人才、临床专家和信息分析专家,因此,需要建立更为 详尽的质量管理体系和标准,包括系统验证、实验室内部质量控制、外部质量考 核与评价以及能力验证等,进行 NGS 临床应用的规范和指导。 目前商业化生产的 NGS 检测平台有多种,技术原理以及优、缺点也各有不 同(附录 A 表 1) 。 6.1.1 双脱氧链终止法测序(Sanger 测序) 1977 年 Sanger 等发明的 DNA 双脱氧链末端终止测序法。其基本原理为: 利用双脱氧核苷三磷酸 (ddNTP) 缺乏延伸所需的 3-OH 基团这一特点, 将 ddNTP 作为链终止试剂,通过 DNA 聚合酶的引物延伸产生一系列不同长度的 DNA 片 段,再进行分离。测定时,首先将模板分在四个 DNA 反应体系,再分别加入引 物,DNA 聚合酶,所有四种脱氧核苷三磷酸(dNTP) ,并分别混入一定比例的 带有放射性核素标记的某种双脱氧核苷三磷酸(ddNTP) 。以高分辨率凝胶电泳 分离获得一系列大小不同的 DNA 片段后,就可以通过放射自显影确定所测的 DNA 序列。此后,在 Sanger 测序法又经过不断发展和改进,80 年代中期出现了 以荧光素标记代替放射性核素标记、 以荧光信号接收器和计算机信号分析系统代 替放射性自显影的自动测序仪,90 年代中期出现的毛细管电泳技术使得测序的 通量大为提高。现今的 Sanger 测序技术也已实现了自动化,采用四色荧光染料 代替放射性核素对 ddNTP 的标记, 毛细管电泳分离 DNA 片段, 使测序的便利性, 安全性及获得的通量均大大提高。 Sanger 测序技术在人类基因组计划 DNA 测序的后期阶段起了关键作用, 加 速了人类基因组计划的完成。经过了 30 年的不断发展与完善,现在已经可以对12 长达 1,000bp 的 DNA 片段进行测序,对每一个碱基的读取准确率高达 99.999%, 测定每千碱基长度序列的成本是 0.5 美元, 每天的数据通量可以达到 600, 000 bp。 尽管由于对电泳分离技术的依赖, 第一代测序技术在速度和成本方面都已达到了 极限, 但因其久经考验的准确性和初具规模的市场占有率, Sanger 测序目前仍然 是基因测序的金标准。 6.1.2 焦磷酸测序 焦磷酸测序技术最早由瑞典皇家科学院的 Nyren Pal 于 1987 年提出,1998 年,Ronaghi 等在《Science》上首次报道了这项技术。它是一种实时定量的 DNA 测序技术,其原理可以概括为“边合成边测序” 。其核心原理是测序引物与单链 PCR 产物结合后,4 种原料 dNTP 模板发生碱基配对反应形成共价键,该 dNTP 的焦磷酸基团(PPi)被释放出来,且 PPi 的量与结合的 dNTP 量呈正比。然后, 底物 5’-磷酰硫酸(APS)在 ATP 硫化酶的催化下与 PPi 形成等量的 ATP,ATP 又为荧光素酶提供能量,介导荧光素转化成氧化荧光素并发出与 ATP 的量呈正 比的可见光信号, 这些光信号最终形成峰图,峰高与合成反应中掺入的核苷酸数 目呈正比。而 ATP 和未参加反应的 dNTP 由双磷酸酶降解,淬灭光信号后加入 下一种 dNTP 继续下一轮的反应。随着循环反应的进行,我们便可通过信号峰的 有无判断碱基的种类,通过信号峰的峰高检测碱基的数目等 DNA 序列信息。从 开始提出至今, 焦磷酸测序技术不断优化, 逐步发展成为一种高通量、 高精确度、 高稳定性的实时测序技术, 后来 Roche 公司 454 技术使用的测序方法的原理就是 焦磷酸测序技术。 6.1.3 新一代测序(next generation sequencing,NGS) NGS 又称大规模平行测序 (MPS) ,包含多种可以一次性产生大量数字化基 因序列的测序技术,是继 Sanger 测序的革命性进步,采用平行测序的理念,能 够同时对上百万甚至数十亿个 DNA 片段进行测序,实现了大规模、高通量测序 的目标。NGS 由模板制备和序列检测过程(湿实验部分)和数据分析过程(干 实验部分)两部分组成。由 NGS 所产生的大量测序数据需要复杂的生物信息学 工具进行分析和解读,以及用于存储和管理的计算机资源。因为 NGS 在速度、 通量和价格方面均具有明显的优势, 而且可以同时对多个基因区域的基因变异进13 行识别、灵敏检测低含量的突变,已使得 NGS 技术在分子诊断、医药健康等领 域展示出广阔的应用前景。 目前商业化生产的 NGS 平台有多种, 技术原理以及优、 缺点也各有不同 (附 录 A 表 1) ,主流的 NGS 技术主要有基于焦磷酸测序原理的 454 测序技术、基于 可逆链终止物和合成测序的 Solexa 及 HiSeq 测序技术,基于离子敏感场效应晶 体管检测的 Ion Torrent 测序技术, 基于连接酶和简并探针的 PSTAR 测序技术等。 虽然这些平台的化学原理各异,包括边合成边测序、边连接边测序等,但它们具 有一些类似的样品处理步骤,包括 DNA 片段化,还可以适当改动流程来控制配 对标签间的距离, 连接平台特异性的反应接头以建立待测片段文库,均有体外扩 增过程,包括乳液 PCR(emulsion PCR)或桥式 PCR(bridge PCR)等方法,并 分别依赖这些方法使文库单一分子扩增至阵列上固定空间的克隆簇, 测序过程是 对高密度 DNA 阵列进行酶法操作和荧光或化学发光图像采集(也可以检测半导 体芯片检测 DNA 合成过程中释放的氢离子浓度变化)的迭代循环,其生化反应 的实现手段各异,但都依赖于聚合酶或连接酶合成 DNA,产生引物延伸系列, 最终获得原始测序数据。一般的测序反应是从一端对片断文库进行单端测序 (single-end sequencing) ,即可获得核酸碱基或拷贝数信息,大部分 NGS 平台也 可以从两端对片断文库进行两端测序(paired-end sequencing,PE) ,从而增加测 序数据量,提高核酸序列拼接的准确性,并可以发现插入或缺失(indel)以及倒 位(inversion)等结构重排变异。此外还可以采用在双向测序基础上进一步优化 的配对测序(mate-pair sequencing,MP) ,以进一步增加对核酸结构变异的识别 能力。 6.1.4 单分子测序 单分子测序技术被认为是第三代测序技术。其中 SMRT 技术利用荧光信号 进行测序,而纳米孔单分子测序技术利用不同碱基产生的电信号进行测序。 Pacific Biosciences 公司的 SMRT 技术基于边合成边测序的思想,以 SMRT 芯片 为测序载体进行测序反应。 SMRT 芯片是一种带有很多零级波导( zero-mode waveguides,ZMW)孔的厚度为 100 nm 的金属片。将 DNA 聚合酶、待测序列 和不同荧光标记的 dNTP 放入 ZMW 孔的底部,进行合成反应。与其他技术不同14 的是,荧光标记的位置是磷酸基团而不是碱基。当一个 dNTP 被添加到合成链上 的同时,它会进入 ZMW 孔的荧光信号检测区并在激光束的激发下发出荧光,根 据荧光的种类就可以判定 dNTP 的种类。此外由于 dNTP 在荧光信号检测区停留 的时间(毫秒级)与它进入和离开的时间( 微秒级) 相比会很长,所以信号强 度会很大。其它未参与合成的 dNTP 由于没进入荧光型号检测区而不会发出荧 光。在下一个 dNTP 被添加到合成链之前,这个 dNTP 的磷酸基团会被氟聚合物 (fluoropolymer)切割并释放,荧光分子离开荧光信号检测区。SMRT 技术测序 速度很快,利用这种技术测序速度可以达到每秒 10 个 dNTP。而英国牛津纳米 孔技术公司的 GridION 和 MinION 测序仪采用了纳米孔测序技术: 采用一种特殊 的 α 溶血素蛋白七聚体整合进磷脂双分子层而形成出纳米级小洞或小孔。在膜 的一侧施加电位差将 DNA 单链(带负电)拉进纳米孔,当 DNA 的不同碱基通 过时,引起细微的电流变化,即可识别出不同的碱基序列。纳米孔单分子测序技 术还能够直接读取甲基化的胞嘧啶,而不像传统方法那样必须要用亚硫酸氢盐 (bisulfite)处理,这对于在基因组水平研究表观遗传相关现象提供很大的帮助。 但到目前为止, 单分子测序技术的准确性还没有得到明显突破,因此未能大规模 推广应用。 6.2 测序技术的应用 测序技术被广泛应用于核酸序列的分析。最早常应用于人类疾病的遗传学 检测,特别是感兴趣的靶向基因测序。后来被广泛用于各种人类核基因组、线粒 体基因组、 以及 RNA 转录产物的检测分析, 应用领域包括肿瘤诊断和预后分析、 药物基因组学检测等。此外,测序技术还被用于检测微生物的基因序列,以检测 是否存在耐药基因、决定最佳抗病毒治疗方案等。随着 NGS 的发展,测序技术 的应用范畴得到进一步拓展,可以用于检测 Sanger 测序难以检测的多样品检测、 多基因组合检测、低含量基因突变检测等。 6.2.1 胚系突变的遗传学检测 遗传检测是指针对人类染色体、DNA、RNA、基因、和/或基因产物进行的 检测分析。常用于确定单基因遗传病的致病基因、复杂疾病的易感风险、药物敏 感性和毒副作用等。虽然 NGS 已经开始应用于临床,但 Sanger 测序一直是序列15 分析技术的金标准。 1)靶向区域的基因测序 靶向区域的基因测序是仅针对基因组中的少数基因、或期望分析的关键位 点所在区域的 DNA 片段进行测序,可检测生殖细胞和体细胞突变,分析与人类 疾病相关的基因突变。 针对某个单一基因的测序通常采用 Sanger 测序完成,用于鉴定遗传病的致 病基因,也可以用于对 NGS 测序结果的准确性和重现性进行确认。 针对多基因组合进行测序(multigene panel sequencing)是指针对与某种疾 病或临床症候群相关的一组基因进行测序分析。 模板制备时多采用选择性富集的 方法,例如,与色素性视网膜炎相关的基因有 100 多个,把这些基因从基因组 DNA 中捕获或扩增出来之后,再进行测序分析。针对多基因组合的 NGS 检测项 目在研发和确认时需要大量的经费和时间投入, 但可以大大降低后续的多基因检 测成本。 2)大范围测序 大范围测序是指对于大的基因片段、外显子组、全基因组进行分析,适用于 相关的基因位于多个基因组区域内的疾病。人类全基因组测序(Whole genome sequencing) 是指利用新一代测序平台对人的不同个体或群体进行全基因组测序, 并在个体或群体水平上进行生物信息分析。 通过全基因组测序可获得个体基因组 所有的遗传信息,目前能够检测到的遗传变异包括 SNP ( single nucleotide polymorphism, 单核苷酸多态性) 、 Indel ( Insertion or deletion, 插入或缺失) 、 SV(structure variation, 结构变异)等。除了可用于在群体水平上研究物种的进化, 环境适应性及自然选择等方面,还有助于快速发现与重要临床表型相关的遗传变 异,用于分析人疾病易感性及其他遗传特性,指导个体化治疗等。帮助人们从分 子水平进行疾病的诊断、 预防和治疗,将大规模基因检测技术转化应用于临床诊 疗实践中。 全 基 因 组 测 序 分 为 两 大 类 : 从 头 测 序 和 重 测 序 。 从 头 测 序 ( de novo sequencing)是指不需要任何参考序列对某个物种进行测序,再通过生物信息学 分析方法进行拼接、 组装, 从而获得基因组的序列图谱。 而重测序 (re-sequencing)16 是指在物种基因组序列已知的条件下,对不同个体进行基因组测序。因为通过人 类基因组计划已经获得人类的基因组序列,因此,目前针对人类的基因组测序都 属于重测序。 而针对编码蛋白质的外显子组进行测序在临床中更为常用, 人类外显子包含 大约 2-2.5 万个基因,大约有 18 万个外显子,占人类基因组的 1%-1.5%。 3)染色体非整倍性检测 染色体非整倍体疾病主要指染色体在数目或结构上的改变,染色体整组或 整条的增减,可使细胞的遗传功能受到损害,扰乱基因之间的平衡,影响物质代 谢的正常过程,造成多器官、多系统的畸变和功能改变。临床中比较常见的是染 色体三体综合征, 即细胞内某染色体的数目不是正常的两条而是三条,包括最常 见的:唐氏综合征(T21) 、爱德华氏综合征(T18)和帕陶氏综合征(T13)等。 自从 Lo YM 等于 1997 年证明了孕妇外周血中存在胎儿游离 DNA (cell-free fetal DNA, cffDNA) 以来, 开启了基于 cffDNA 的非侵入性产前筛查 (Non-invasive prenatal diagnosis,NIPD)方法的研究。胎儿 cffDNA 来源于胎盘凋亡的滋养层 细胞,经过胎盘屏障进入母血,怀孕 4 周左右就可以从孕妇外周血中检出 cffDNA,孕 8 周建立胎盘循环后,cffDNA 以相对固定的比例(5%-10%)稳定 存在于母体外周血血浆中。 随着测序技术的发展和应用,目前已经可以采用新一 代测序技术对孕妇血液游离 DNA 进行深度测序、最终通过分析胎儿 DNA 片断 占正常母体 DNA 的比例, 来分析胎儿染色体数目异常导致的母体血浆中 cffDNA 含量的微量变化,判断胎儿是否存在染色体非整倍性。 6.2.2 群体测序 群体测序是指针对捕获片段或靶向扩增后的扩增子(amplicon)进行测序, 以发现基因组背景复杂的、异质性(heterogeneity)样品中低含量的突变。Sanger 测序可以检出突变比例为 15%-25%的突变,而 NGS 的检测通过将相同区域的大 量读段进行比较,检测灵敏度可以达到 1%-5%。 这种用于检测异质性样品中的低含量突变的测序技术,目前主要被用于肿 瘤、感染性疾病、宏基因组学和线粒体突变分析。17 (1)肿瘤 对于来自肿瘤患者样品的核酸定量、定性和纯度都存在问题。因为除了少 部分肿瘤穿刺样品外, 大部分肿瘤组织是一个由正常细胞和肿瘤细胞混合的异质 性细胞群体。因此,检测出来的体细胞突变比例大都小于 50%。此外,经过处理 后的 FFPE 标本中的核酸的降解比较明显,大部分肿瘤来源的核酸片段都是碎片 化的,长度小于 150bp,而且和组蛋白之间的交联很难打开。 NGS 目前已广泛用于检测肿瘤样品中的错配、插入/缺失、拷贝数变异、染 色体重排等突变类型,有助于阐明癌症机理,帮助临床医生进行癌症的诊断、治 疗指导和预后分析等。 (2)感染性疾病 在感染性疾病中,不需要培养和克隆扩增,就可以采用群体测序对某一种 或某一群病原体进行检测。 用于鉴定特定的耐药细菌。帮助临床选择合适的抗生 素。对于一些体外很难培养或生长很慢的病原体(例如结核杆菌) ,基因测序的 价值在诊断和用药指导方面的价值都很明显。 在感染性疾病暴发流行时,还可以通过全基因组测序对病原体进行鉴定。 (3)宏基因组学 宏基因组检测是指对于特定来源的样品中的全部病原体的基因序列进行检 测和分析。通常可以检测 16sRNA 的 V2 和 V6 可变区进行成份分析。 (4)线粒体基因检测 线粒体 DNA 突变可以导致母系遗传性疾病。 每个人细胞内的线粒体基本上 都是存在一定程度异质性的混合群体(由遗传来源不同的线粒体群体组成) ,只 是采用常规的测序技术不易检测到较低比例的线粒体基因突变, 而采用高覆盖深 度的 NGS 技术、则可以更灵敏地检测到低含量的线粒体基因突变。 6.2.3 RNA 测序 人体的转录组是一个混合体,包含各种编码和非编码 RNA,如 mRNA, microRNA,RNA 前体等。采用 NGS 对 cDNA 和 RNA 等进行测序,除了分析编18 码基因和 microRNA 的表达变化、在 RNA 水平发现突变以外,还可以发现各种 可变剪接、融合基因变异体等,在疾病的病因诊断、治疗药物选择等方面均发挥 重要作用。 6.2.4 甲基化检测 DNA 中胞嘧啶(C)的甲基化是真核生物表观遗传学调控的重要机制。例 如,对于基因组中 DNA 甲基化谱进行分析有利于癌症发生发展机制的理解。采 用 NGS 方法,可以将甲基化分析范围由原先的几个位点扩展到全基因组水平、 而且精度达到单碱基水平,即为甲基化组分析。 6.2.5 染色质构象分析 除了通过三联密码决定蛋白质功能之外,不同区域染色体的相互作用也可 以在基因表达、 基因组稳定性方面发挥作用。 采用 “染色体构象捕获 (chromosome conformation capture) ”和 NGS 相结合的方法,可以对染色体构象进行分析。 6.2.6 大片段的结构变异 人类遗传学变异包括很多类型,小到单一碱基改变,大到大片段染色体水 平的变异――即结构变异(structural variations,SV) 。已知结构变异与许多遗传 性疾病和复杂疾病的易感性、发生、发展相关。NGS 方法为染色体结构变异研 究提供了革命性的解决方案。与传统的芯片分析方法相比,NGS 最重要的优点 就是通过一次实验就可以发现多种结构变异。但是,采用 NGS 进行结构变异的 生物信息学分析工作仍有很多挑战,特别是大片段的结构变异,目前的拼接算法 还有很多局限性。 7. 样品处理 恰当的样品处理是确保样品完整性和核酸定性定量检测准确性的关键环 节。样品在检测前必须确保样品的采集、运输和储存符合要求。样品处置不当可 能引起核酸降解,导致基因测序失败或检测结果不准确。主要环节包括: a)确保患者样品的采集方法正确。 b)在采集过程中确保样品和信息的完整和准确性。19 c)在检测前和检测后的样品的运输和储存过程符合规范。 d)患者样品处理(例如核酸提取)符合规范。 这些环节适用于所有采用测序方法进行人或微生物基因序列测序的临床检 测项目。 7.1 样品采集、运送和保存 7.1.1 信息采集 样品采集前需填写送检申请表,提供受检者必须的信息,为医务人员进行 适当的项目检测和采取治疗措施提供参考。需采集的信息包括: a) 常规信息:包括样品唯一性编号或条码、采样日期、采样时间、受检者姓名、 性别、出生日期、样品来源(所采样品的组织类型)、采样单位、采样人姓 名。 b) 根据检测项目制定有利于临床医学指导的临床信息采集表,信息表包含的内 容包括检测项目、样品唯一性编号或条码、受检者姓名、出生日期、年龄、 民族、采样日期、样品类型、相关的临床资料(如身高、体重、疾病诊断、 疾病分型分期、合并疾病、用药情况)和临检信息、采样单位及科室名称、 医生姓名、送检目的等信息。 c) 临检实验室应有专业人员根据信息采集表对检测项目的合理性进行审核,必 要时可与送检医生讨论。 7.1.2 患者的正确识别及知情同意 患者的正确识别是确保获得正确的临床样品的前提。收集样品的容器上应 注明患者的唯一信息,通常应包括检测条码或编号、待检者的姓名、送检科室和 住院号等信息。 医护人员在采样前需首先核对确定患者的身份, 核实患者的姓名、 性别、住院号等能标示患者的信息。 样品收集前应向患者讲解基因检测的意义,以得到患者的认同,即知情同 意。对于涉及遗传基因信息的临床检测项目,所有受检者均需签署知情同意书, 告知所检测项目的目的、意义、基本过程、剩余核酸的去向及保存时间、临检样20 品是否可匿名用于科研项目等, 确保受检者的个人隐私(包括医疗记录和医疗数 据)得到保护。 对实施有创检查的分子诊断项目如穿刺取活检组织,采集人员应首先对检 查可能遇到的风险清楚地告知患者及家属,并对紧急情况下的紧急预案如实告 知, 使患者及家属全面了解某些特殊检查可能带来的后果。知情同意书是医方履 行如实告知义务的证据,也是患者行使选择权的书面依据。 7.1.3 样品的采集、运送和保存 可以用于测序的样品有很多种,包括全血样本、血浆样本、组织标本(新 鲜组织、冰冻组织、石蜡包埋组织、穿刺标本) 、口腔拭子和骨髓等。为确保样 品采集的质量, 避免污染和干扰,负责采集样品的临床医生需进行样品采集要求 培训。无论采集哪种类型的样品,采样时都必须戴手套,这样既可避免样品中病 原微生物感染, 又可防止采样人员的皮肤脱落细胞污染样品。临检实验室应向样 品采集和运输人员提出样品收集、处理、运送和保存过程合适的条件要求。 各种样品的采样过程要遵守卫生部《微生物和生物医学实验室生物安全通 用准则》和《个体化医学检测质量保证指南》中关于“样本的采集、运送和保存” 的要求。 7.2 核酸提取方法及质控 1) DNA 提取用酚-氯仿提取法和盐析法等均可。酚氯仿法提取的 DNA 可能导 致 DNA 样品中酚或氯仿残留,从而抑制后续的 PCR 反应。盐析法提取的 DNA 可能存在蛋白质及其他物质的残余,DNA 的纯度和得率不高。DNA 提 取要求在生物安全柜内进行操作。DNA 要求 OD 值介于 1.6-1.8 之间,浓度 大于 50 ng/μL。 2) DNA 相对稳定, 在无 DNA 酶的情况下,常温下纯化的 DNA 在 TE (Tris-EDTA) buffer 可放置 26 周, 2-8 ?C 冰箱中可放置至少 1 年。 为降低 DNA 酶的活性,确保 DNA 的完整性,长期保存纯化的 DNA 样品应在 0 oC 以下 的环境中。DNA 应放置在带盖密封、疏水的塑料管中(带橡胶垫片的塑料 管更好,可防蒸发) 。聚丙烯容易吸附 DNA,尤其是在高离子强度的时候;21 聚乙烯结合 DNA 的能力更强。 DNA 最适于保存在异质同晶聚合物材料的塑 料管或经特殊处理的聚丙烯塑料管中。DNA 一般溶解在 pH 为 7.2 的 TE 溶 液中,可减少 DNA 的降解。但如果 DNA 在提取后几天内用于 PCR 或酶切 目的, 也可用双蒸水进行溶解。建议将 DNA 原液保存于-70oC 或以下的环境 中。 当同一个受检者的 DNA 样品要进行多个检测时, 建议将 DNA 样品分装 后保存,这样既可以减少反复冻融引起的 DNA 降解,又可减少样品间的污 染。 3) 血浆游离 DNA 的提取过程中需要尽可能消除血浆中各种可能抑制 DNA 聚合 反应的抑制成分,包括血浆蛋白、血红蛋白、细胞碎片等,建议采用基于微 柱吸附技术的商业化提取试剂盒。根据所需检测的项目不同,提取的游离 DNA 总量应为 50 ng-1000 ng 因为血浆游离 DNA 浓度很低,需要采用实时 荧光定量 PCR 技术进行定量。对于纯化后的游离 DNA,应根据实验项目对 于 DNA 量的需求、 及时分装, 暂时不用于检测的 DNA 标本应及时冻存于-80oC 或更低的温度条件下,避免反复冻融而加剧游离 DNA 的碎片化程度、降低后续检测的灵敏度。 7.3 检测后样品的保存和处理 样品在检测后要进行一定时间的(尽可能长期)保留,以备必要时复查。 样品的保存也可为科研工作的开展和回顾性调查提供条件。完成检测后剩余的 DNA 样品至少在-80℃保存 2 年。DNA 在-70℃的环境下可保存至少 7 年。纯度 不高的 DNA 样品建议保存在-20℃或更低的温度中,以确保 DNA 的完整性。在 不影响受检者个人隐私及利益的前提条件下,DNA 及临床资料可以匿名用于科 学研究。废弃的样品应作为生物危险品处置。 8. 测序模板制备 对于特定区域的核酸片断进行成功测序的关键,是需要待检测区域的核酸 片断具有足够的质量(quality)和数量(quantity) 。Sanger 测序和 NGS 的关键步 骤参见下图:22 患者样品 核酸提取 DNA 片段化 PCR 扩增? 传统 PCR ? 多重 PCR ? 乳液 PCR(ePCR)靶向方法 探针捕获 纯化基因组 模板制备? PCR 引物特异性 ? 聚合酶扩增 ? PCR 产物纯化纯化测序文库构建 纯化 文库扩增 纯化双脱氧测序反应 纯化 毛细管电泳 NGS 测序反应? 测序酶聚合/连接反应 ? 荧光掺入和检测/电化学检测图 1 DNA 测序前的模板制备步骤 DNA 提取后,可以通过直接或靶向捕获的方法进行测序文库构建。PCR 和 探针捕获技术均可用于靶向测序区域的分离, 每种方法均可用于下游的文库扩增 和测序过程。如果靶向测序区域的数目很多时,主要考虑探针捕获技术,例如外 显子组测序就是采用探针对人类基因组中所有编码基因的外显子及其侧翼序列 进行捕获。但如果靶向序列的拷贝数较低时,则需要采用 PCR 扩增技术进行扩 增和分离。在 Sanger 测序中,PCR 获得的待测片段还需要进一步纯化才能用于 测序反应,双脱氧测序反应和毛细管电泳检测是分别进行的;而在 NGS 中,还 包括下游的文库构建、扩增和纯化等步骤才能上机测序,而且 NGS 的测序反应 和原始测序数据的信号检测是同时进行的,因此又被称为“实时(real-time) ” 测序。23 8.1 Sanger 测序的模板制备 当然,随着测序技术的不断发展,关于模板准备过程中的一些关键需求可 能也会随之改变,但一般来说目前还不可能直接对来自患者的样品进行测序。 PCR 技术是一项可以用来分离和扩增待测区域核酸片段的重要手段之一。 因 PCR 不需要进行繁复的克隆和细菌文库扩增操作,就可以对特定的核酸序列进行扩 增,已经被广泛用于 Sanger 测序和 NGS 的模板制备中。对于 PCR 产物进行成 功测序有以下基本要素: a)引物的设计和选择 b)扩增反应体系的配制 c)PCR 循环的扩增参数 d)控制 PCR 产物的气溶胶污染 每一个要素都需要进行优化才能保证获得足够的测序模板、同时减少非特 异性扩增。 用于 Sanger 测序的 DNA 模板要求进行光密度检测以分析其质量和浓度。 一般要求 A260/A280 比值大于 1.8 以上,A260/A230 比值大于 2.0 以上。 用于 Sanger 测序反应的模板浓度太高时,会导致初始的反应峰太高而之后 的信号迅速衰减,如果模板太少,则会导致峰高和信噪比明显降低。测序模板 DNA 的总量要求与特定检测项目的 PCR 产物大小、 模板是双链还是单链等有关。 一般来说,对于 100-200bp 的 PCR 产物进行测序,需要 1-3ng 模板;而对于 bp 的 PCR 产物,至少需要 10-40ng 模板。 8.2 大规模平行测序(NGS)的测序文库构建 8.2.1 文库构建概述 新一代测序的模板制备过程与经典的 Sanger 测序有所不同,首先、也是最 重要的一步就是构建文库(library) ,主要是由连接了与测序平台相匹配的各种 寡核苷酸接头(adapter)的 DNA 片段组成。应用于 NGS 的文库构建主要包括 3 个步骤(参见图 1) :1)片段化;2)富集;3)克隆生成;通常还需要经过一步24 纯化步骤。用于构建文库的核酸序列可以是基因组 DNA(gDNA) 、常规 PCR 产 物(PCR amplicon)或由 RNA 反转录而来的 cDNA。模板 DNA 的质量要求同 Sanger 测序。 用于构建文库的核酸经过超声、 雾化、 酶切等步骤完成片段化过程, 随后进行末端修复、磷酸化修饰、再连接上与测序平台相匹配的接头,即可完成 文库构建。 一般连接后的产物需要电泳分离、并选择片段长度与测序平台相匹配 的产物用于下游分析。在部分平台,还需要进一步采用与接头互补的引物进行 PCR 扩增以提高文库的浓度。 对于已经构建的文库,还需要综合采用基于荧光定量 PCR、荧光计、毛细 管电泳等技术的检测平台,对文库质量进行定量和定性评估。 8.2.2 DNA 片段化和连接 构建文库之前需要对 gDNA 进行片段化。 可以用于 DNA 片段化的方法包括 超声、雾化、酶切等。建库前的 gDNA 需要事先采用 A260/A280 或荧光染料进 行浓度和纯度分析,进行凝胶电泳分析是否已经发生降解,DNA 电泳时条带已 经明显弥散(smearing) 、或者呈现凋亡特征性的梯形 DNA 片段特征,都不适于 再进行下游处理。 8.2.3 富集 对于很多临床检测项目,并不需要检测全基因组序列,而只需要对于临床 相关的靶向区域进行富集和针对性测序即可。 对富集后的区域进行重测序除了结 余时间和成本之外,也便于下游的测序数据分析和解读。 8.2.3.1 靶向区域扩增 采用 PCR 的方法,对感兴趣区域的基因组区域进行扩增富集。采用本方法 最大的缺陷是可能导致二倍体样品的两个等位基因的不平衡扩增, 这种偏倚的产 生原因主要与扩增引物的结合位点有关。 其他问题还包括对于高 GC 含量区域或 导致扩增失败。因此需要在建立检测项目时对引物设计进行优化和校验。 8.2.3.2 靶向区域杂交捕获 通过固相或者液相的杂交探针,把感兴趣区域的基因组片段捕获下来,再25 进行下游的检测与分析。 本方法的最大优点是易于使用。而且合成和优化探针都 有比较成熟的商业化公司提供服务。 对于本方法的最大的需求就是探针能够覆盖 全部感兴趣的基因组区域,但一些富含的 GC 区域可能很难捕获,而重复区域又 会捕获的太多。 由捕获导致的测序不均衡需要在测序中增加覆盖深度,才能保证 那些捕获的较少的区域能够达到最低检测灵敏度而被检测出来。 8.2.3.3 非靶向性富集 如果 NGS 检测的目的不是局限在某个特定区域、而是想分析特定长度的 DNA 片段,可以通过剪切破碎后凝胶电泳的方式对 DNA 或 cDNA 样品进行分 离,然后将所需要分析大小的片段回收、连接接头,进行后续反应。采用本策略 进行特定长度片段富集时需注意:1)必须对 DNA 剪切破碎方法进行校准,以 确保预期的大小片段的最大分布,可以根据 DNA 质量(或是来源于 gDNA 还是 mRNA)进行调整。2)如果采用从凝胶中切除 DNA 的方法,必须用无菌的或一 次性的切除工具, 而且建议把切口的位置和宽度用照片的形式记录在案。而且纯 化也至关重要,因为任何残留的凝胶或其它提取试剂可以影响后续的各步反应。 3)对于回收后的合适大小的 DNA 进行处理和后续的寡核苷酸连接时也需要非 常小心,注意勤换手套、尽可能避免污染。 8.2.3.4 全基因组和全转录组扩增 如果对于起始量很小的生物学材料进行基因组测序时,例如循环肿瘤细胞、 母体血液中的胎儿细胞、循环中血液中的游离 DNA、细针穿刺组织标本、激光 显微切割获得的少量组织标本、 其他单细胞分析等,就需要采用全基因组或全转 录组扩增的方法对标送检本进行扩增富集, 以确保痕量的起始核酸也能够被扩增 达到 NGS 的最低检测灵敏度。对全基因组扩增过程中可能产生的扩增错误或模 板偏倚,需要采用 SNP 或 CGH 等方法进行校正。 8.2.4 克隆生成 8.2.4.1 乳液 PCR(ePCR)反应 乳液 PCR 需要先将连接了接头的片段化文库杂交到微球(bead)上,DNA 片段通过与微球表面上和接头互补的序列结合而紧密相连。乳液 PCR 是将每一26 个连接了一种 DNA 片段的微球分配到一个油包水的乳滴中, 然后进行 PCR 扩增, PCR 完成后,破碎乳液即可得到表面包被克隆和富集的文库的微球,将其均匀 分散在微孔板(边合成边测序所用的 PicoTiter?Plate)或玻片反应池中(用于连 接测序(SBL)的寡核苷酸探针) 。分散时要求每一个微球在一个孔中或与一个 寡核苷酸探针结合。通过这种克隆扩增方法,可以保证微球表面具有足够多的 DNA,从而在下一步的测序反应中产生足够检测的光学或电化学信号。 8.2.4.2 固相成蔟扩增 对于采用循环可逆性末端终止(cyclic reversible termination)的测序平台, 将连接了接头的片段化 DNA 稀释后自动散到玻片反应池、与表面的单链引物碱 基互补,从而被固定于芯片上,另一端与附近另一个引物随机进行互补结合,从 而形成“桥” ,进行 30 个左右循环的等温桥接扩增(bridge amplification)技术 进行扩增,最终,每个结合到单一表面的 DNA 分子会被放大 1000 倍以上,从 而成为单克隆 DNA 簇,可以用于下一步的测序反应、产生读段(read) 。 8.3 特殊测序模板准备时的注意事项 8.3.1 宏基因组学分析 宏基因组学分析需要直接从特定微环境样品中提取全部微生物的 DNA,而 不同微生物的核酸提取方法可能各异。因此,在选择核酸提取方法时需将由此产 生的方法学偏倚控制到最低, 尽可能选择可以将特定患者样品中全部微生物核酸 的方法。 对于采用测序技术进行病原微生物(例如细菌、病毒和霉菌)鉴定,经常 遇到的难题是如何检出样品中的痕量的微生物,因此,必要时需要事先进行靶向 捕获和富集技术以提高检测灵敏度。在开发项目过程中,需要针对样品制备的检 出限(LOD)进行专门优化和标准化。 此外,微生物核酸在环境中也无处不在,因此,在样品制备和处理的全过 程中, 均需要设立可靠的对照实验,以避免外源性微生物核酸混入待测样品中干 扰检测结果。 8.3.2 RNA 相关文库27 对于用于新一代测序的 RNA 模板检测,除了严格遵循 RNA 实验的注意事 项之外,还需要在文库构建之前再对 RNA 质量进行检测和评价。而且在提取时 还需要加上 DNA 酶处理步骤以去除所有 DNA。 建议根据实验需求, 采用专门针 对总 RNA、mRNA、microRNA 的提取和处理的商业化试剂盒。 8.4 采用 NGS 进行多样品混合检测(sample multiplexing) 因为 NGS 巨大的单次检测通量,可以将多个样品混合在一个测序泳道或反 应池中进行同步检测。NGS 通常采用在每一种样品的测序文库中加上唯一的寡 核苷酸标签的方法进行多样品检测,这些寡核苷酸标签由“条码(barcode) ” , 在不同平台中也被称为“标签(index) ”组成,在测序时与待测 DNA 片段同时 被检测出来,从而产生一个可用于区分不同样品的唯一编码。通过这种方法,可 以极大降低每单一样品的测序成本。 多样品混合检测的实施通常是在文库构建过程中, 在所有 DNA 分子测序接 头的 5’或 3’端,加入一段长 6-8bp、序列已知的短链 DNA 作为“条码”或“标 签” 。测序结束后,通过软件分析和筛选,即可从混合测序的结果中获得每个不 同样品的测序结果。 采用这种方法测序时, 在设计实验后分析结果需要注意可能存在的问题: 1) 条码检出率的不均一 (特别是采用嵌入式/in-line 条码技术时) ; 2) 标签互换 (index swapping) :因为测序数据读取错误所致的条码关联错误,一个患者的测序数据 可能被关联到另外一个患者, 可能的发生原因包括在多重检测样品制备过程中的 “条码”或“标签”相互污染、存在干扰样品、聚合酶保真性不足等,当然在测 序和测序后分析过程也可能发生。因此,在临床检测项目中,需要采取各种实验 条件优化措施,把标签互换比率(index swap rates)降到最低;一般要求标签交 换率要比整个分析的灵敏度低几个数量级(例如 0.01%) ,特别是针对低含量突 变的检测,更需要尽可能降低标签交换率以确保不能影响监测结果的准确性。 9. 测序步骤与可能存在的问题 9.1 检测方法概述 本节将重点关注测序过程中需要注意的特殊步骤以及由此可能产生的问题。28 这些问题可能是在各种测序平台和技术中都普遍存在。 Sanger 测序技术已经相当成熟, 可能产生的问题也比较清楚, 相关的质量管 理和控制重点和措施已经被许多临床实验室采用。由于该方法可直接读取 DNA 的序列, 因此是被认为是基因分型的金标准。 Sanger 测序法的操作过程主要包括 PCR 扩增和 PCR 产物纯化、测序反应、测序和结果分析四个主要步骤。分析时 需要设置阴性对照和阳性质控品,当阳性质控品没有出峰时提示实验失败,确认 DNA 质量好后,采用同批号试剂和同一台仪器重复实验,并确保检测试剂是否 按要求保存。当阴性对照品出峰时,说明有污染,需要找出污染源后重新进行实 验。该方法属于定性检测,优点是测序长度较长,可发现新的变异位点。主要不 足:灵敏度不高,尤其是在进行肿瘤组织体细胞突变检测时,当组织中靶标基因 突变比例低于 20%时,可能出现假阴性的结果;对试剂和仪器有特殊要求,不易 普及;操作复杂,成本相对较高,速度慢、通量低。 但 NGS 测序技术发展很快,相关的标准和质量参数很少、甚至没有,因此, 对于临床实验室使用时就需要特别注意遵照本指南的相关条款, 对于测序设备及 数据分析软件的性能、分析结果的确认等进行评价,才能最终获得可重复、高质 量的测序结果。而且,还需要掌握特定测序设备的性能和规格,熟悉其在用于临 床检测和分析中的优点、缺点和特殊要求,特别是在样品类型、模板质量、序列 混合方式等方面。 9.2 测序方法和仪器的选择 NGS 技术正在迅速发展。 最初的 NGS 检测平台主要是为了科研所需的大规 模检测通量而设置,随着技术进步以及面向临床的简单、快捷测序需求的增加, 又有多种小型化的台式测序仪推出。据预测,这些小型化的测序仪还将不断推陈 出新,而且价格会更便宜、性能也更优越。但正是因为有多种可供选用的技术平 台, 而且每一个都有自己的优点和缺点, 必须以动态的眼光分析现有的技术平台、 根据实验室的需求进行权衡选择。 下列的七个主要因素可供在选择测序平台时权衡考虑。29 9.2.1 测序通量 测序通量表示仪器在单次运行时可以产生多少的数据量。高测序通量可以 满足全基因组测序的需求,或者一次获得更大的覆盖深度或检测更多的混合样 品。 主要的缺点是单次运行成本较高,而且所需的计算资源明显高于中等或低通 量的测序仪。如果样品数量不多、或仅需要对靶向区域进行测序,较低通量的系 统(甚至 Sanger 测序)就可以满足需求。 9.2.2 样品通量 样品通量是指在给定的时间内可以检测的样品数目,将由仪器运行时间, 测序通量,多样品混合检测容量,以及预期的应用对象等确定。 9.2.3 读段长度(读长) 读段长度是指在单次测序反应产生的碱基的数目。更长的读长可以简化序 列比对过程, 并可以较为准确地判断特定区域的单倍型。读长的增加将直接延长 仪器运行时间、 以及单次运行的成本。较短的读长可能在变异检测方面存在局限 性。这些属性权重的高低,将取决于检测项目的范围和性质。 9.2.4 覆盖深度 覆盖深度是可以用于特定区域碱基识别的独立的读段数目。针对某一区域 的覆盖深度增加时,最终拼接完成的共有序列出错率就会下降。 由于目前 NGS 平台采用的技术原理各不相同,最终获得的测序读段长度也 长短不一;因此,在测序数据准确性相同的条件下,进行重测序时所需覆盖深度 也各不相同。不同测序读长和对应的参考覆盖深度要求如下表 1 所示:表 1 不同读长的平台进行基因重测序时所需要的覆盖深度* 平均测序读段长度(bp) 重测序所需的覆盖深度 -50 51-100 101-300 301-400 401-500 501-600 601--100 30-50 10-30 8-15 6-10 -5 参考测序平台 CG,Illumina/GA,HYK/PSTAR-IIA Illumina/HiSeq Ion Torrent 454 Sanger*推荐的覆盖深度参考 NHGRI 的数据:http://www.genome.gov/sequencingcosts/30 此外,特定基因组区域所需的覆盖深度可受到序列结构的影响,例如有些 富含 GC 区域、或碱基重复区域,可能需要更深的覆盖倍数才能产出质量合格的 序列。 针对不同的检测项目需要的具体要求,也将影响测序通量和多样品混合检 测容量。 为特定临床项目建立覆盖深度标准时,应考虑到该项目所需的分析准确 度和精密度。 如果对遗传背景不同的混合样品进行测序时,就需要更高的覆盖率 才能成功检出变异。例如,同样是读长 150 bp 的测序平台,如果检测外周血有 核细胞基因组 DNA 的胚系突变, 需要 50-80 倍覆盖深度, 如果用于检测来自 FFPE 标本的肿瘤细胞体细胞突变,则需要 500-1000 倍的覆盖深度。 9.2.5 成本 NGS 的检测成本包括初始测序设备的成本,单次运行的试剂成本,以及下 游的数据分析和生物信息学费用, 应根据实验室的预计检测通量和后续的潜在增 长进行评估。尽管供应商可能会降低试剂的费用,但在大多数情况下,检测通量 高的仪器的单次运行成本也高, 因为试剂的消耗是按照每次运行计算的,而与每 次运行时检测了多少个样品无关。因此,必须要让仪器运行接近满负荷,才能更 好地控制单个样品的平均检测成本。 另外一个需要考虑的是测序仪维护的复杂度 和所需要的时间成本。此外,NGS 测序仪需要配备训练有素的实验技术人员, 从事个体化医学检测的人员都必须经国家规定的相关培训并取得合格证书, 这都 是需要考虑的人力成本投入。 9.2.6 运行时间 运行时间指单次运行生成数据所需的时间。通常依赖于读段长度和生成的 数据量。仪器的测序通量越高、运行时间越长。但是,增加的测序通量也可以用 于混合样品的检测。 如果临床应用检测项目可以接受较长的运行时间,通过增加 测序通量就可以降低单个样品的平均成本。 检测通量低的测序平台一般运行时间 较短,可以快速返回检测结果。其他需要考虑的时间因素还包括样品制备、文库 构建以及数据处理,这些都可能显著增加测序项目完成所需的总体时间。 9.2.7 测序首次成功率31 此外,在检测项目设立和优化时还需注意,测序的首次成功率也应该是临 检项目中需考虑的重要因素,因为对于大多数 NGS 测序仪,单次运行时间都将 花费数小时甚至数天, 如果某个项目总是失败、或者需要多次重复检测才能得到 可靠的结果,将会大大影响报告发出的时间、并增加实验成本。 9.3 测序技术的潜在缺陷或特征可能导致的问题 测序的操作人员必需娴熟掌握和理解检测过程、与临床相关的检测结果的 范围, 以及测序的技术平台和生物信息学分析软件可能存在的问题。在评价原始 测序数据、数据分析过程、质量值(quality score)分析,软件得出的结果解释 等过程中也可能会出现问题。在实际检测项目开发和验证中均需要多加注意。 以在各种测序反应中广泛应用的荧光素(fluorophore)为例, 如果不是新 鲜配制的荧光素, 可能会因为暴露在光线中而快速降解,导致后续测序反应中的 检测信号明显衰减; 此外, 某些荧光素还可能会因为散射而导致临近碱基检测信 号“噪音(noise) ”增加,甚至识别错误。对于这些因为荧光素造成的测序技术 问题, 需要通过设立样品间标准化方法、或调节测序仪的检测信号时的灵敏度等 进行调节或纠正。 另外, 在数据分析时, 虽然多个高通量测序平台产出的序列文件均为 FASTQ 格式 (其中包含了每个碱基的质量值信息) ,但是对于每个碱基的质量编码标示, 即 ASCII 编码方式, 不同平台的不同的软件采用不同的方案, 例如: Sanger, Phred 质量值的范围从 0 到 92,对应的 ASCII 码从 33 到 126;Solexa/Illumina 1.0, Solexa/Illumina quality score,值的范围从-5 到 63,对应的 ASCII 码从 59 到 126; Illumina 1.3+,Phred quality score,值的范围从 0 到 62 对应的 ASCII 码从 64 到 126,在实际数据分析时需要详细查考对应平台的帮助手册,这一点在评价原始 数据以及进行质量控制时需要特别注意。 9.4 碱基识别和质量值 9.4.1 碱基的质量值 454 和其他 NGS 在很大程度上都依赖于碱基质量值来判断测序反应的性能 和产出数据的质量。 每个测序平台计算均基于仪器的规格以及测序数据生成过程32 来计算碱基质量值。 尽管计算方法会存在不同,它们都是以对数值的形式来指明 碱基的错误率(见表 2) ,这有时也被称为“Phred-like”质量值。表 2 碱基质量值与错误率的关系 碱基质量值 10 20 30 40 50 碱基识别错误率 1/10 1/100 1/ 000 1/100 000 碱基识别准确率 90% 99% 99.9% 99.99% 99.999%Phred 值最初采用大的查找表,利用峰图和其他特征来估算 Sanger 测序读 段中碱基识别的质量, Phred 值大于 30 规定为高质量。 并非所有的软件包使用原 来的查找表,但 Sanger 读段的质量值仍称为 Phred 值。Sanger 测序错误率的定 量估计限定为 Phred 值;但是,这一指标没有兼顾多个 Sanger 读段的信息联合, 也不能作为比对和变异识别的指标。比对的质量通常是由操作者控制的,缺少度 量来定义比对的好坏程度。 Phred 最初是一种研究工具,要整合到临床环境很繁琐。现在则有了许多适 合应用于临床实验室的商业软件包。 这些程序可以来自于测序仪器制造商以及独 立供应商, 后者开发多种测序平台下有用的数据分析程序。进行诊断序列分析的 实验室需要使用这些软件来控制碱基识别的质量。 评估每个测序反应所产生序列 的平均 Phred 值,可以帮助实验室分辨由于低质量模板,不充分的 PCR 扩增, 或整体仪器误差(例如,毛细管阵列问题)形成的低质量序列。 Phred 值和计算公式广泛应用于多个测序平台。这些 Phred-like 质量值,通 常称为“Q 值” ,也是计算错误的可能性,但通常明确的加入了信噪水平,簇 / 磁珠重叠(探测器无法解读) ,碱基掺入率(滞后/流速)等参数。尽管都采用类 似 Phred 格式,不同平台的 Q 值不一定是完全等价的,因为每个 NGS 平台之间 的底层数据产生和碱基质量算法存在计算差异。 当研究这些计算时需要参照仪器 和供应商手册;NGS 仪器的常规操作一般不需要修改,但需要跨平台比较时就 应当非常谨慎。除了原始碱基识别的质量值,NGS 测序仪还有其他的覆盖深度 (coverage depth) 、链偏倚(strand bias)等更多指标可用。质量控制应当综合使33 用这些质量值和整体指标。 NGS 的读段 Q 值由于测序技术和序列内容的不同可以有很大的变化。一个 例子是,在大多数 NGS 平台当出现同聚体,微卫星,插入缺失或者其他类型的 序列变异时,Q 值大于 30 的碱基数目将下降,在不同平台下降的程度不同。 另一个例子是, 对许多技术而言, “平均 Q 值” 是在序列读段的开头是高的, 但是随着读段延伸逐渐降低。 由于序列读段是独立的,整体的碱基识别质量来自 于所有的测序读段。因此这可能导致过高或过低的“整体 Q 值” 。Q 值也可以通 过重新校正来修饰。 这个过程考虑比对质量和增强或减弱特定碱基识别的其他因 素。 来自于随机序列和来自目标捕获或基因组特定区域 PCR 扩增的序列 Q 值也 需要区分对待。Q 值基于基因组水平的平均值,对于特定目标区域许多程序推荐 通过重新校正来得到更准确的数值。Q 值受到每个读段中序列变异(例如同聚体 或者微卫星)的影响。对 PCR 扩增产物来说,平均 Q 值依赖于这些因素在扩增 子中的长度和位置分布。这并不是说,这些碱基和变异不能被准确识别,但建议 仔细检查基因组的目标区域,并设置不同于一般 Q 值的有效性度量水平。 除了碱基的 Q 值,序列读段通常还给出比对质量值。这个值表面该区域比 对回参考序列的配对程度。小的变异一般不会影响这个数值;然而,插入缺失, 同聚体,和拷贝数等变异会有显著影响。此外还有来自比对方式的影响。启发式 比对算法, 主要用于大量序列读段的比对,不能很好的处理插入缺失和其他大片 段的变异。在这种情况下,通常用改进了的 SmithCWaterman 算法来重新比对。 这会增加相当多的分析时间, 但需要这么做的区域是可以识别和定位的。插入缺 失的局部重新比对,包括同聚体,微卫星,和其他变异,可以提供很大的改进。 基因组中假基因或者其他高度同源序列的存在也可以导致错配。在这些情况下, 全局比对相较于局部比对可能减少,但不消除问题。 对于存在变异的高质量序列读段,也有许多其他的衡量指标。包括序列读 段在不同链之间的平衡(链偏倚)和等位基因变异在不同链之间的平衡(等位基 因百分比) 。忽略系统误差,等位基因的数量是随机的和符合泊松分布的,因此 可以估算假阳性和阴性误差。例如,当一个样品中少于 30%的变异读段是在 3034 倍的覆盖度下观测到的,那么该个体是杂合子的概率小于 2%。很多软件包通过 不同的方式使用这些指标来识别实际的变异。 总之,虽然 Sanger 测序和 NGS 一开始采用了相似的度量指标,Phred 值和 Q 值, 后者增加了许多其它有用的指标来评估总体质量, 不只是在碱基识别阶段, 还包括了最终获取变异和频率的每一个步骤。 这些指标可用来评估单个碱基的质 量和整个序列读段的质量是否符合可接受的分值标准。 在接下来的拼接过程中就 可以自动过滤碱基和读段了。 通过这些分值,可以应用一个过滤仅保留符合质量 值,比如 Q30 的读段用于后续分析。此外,衡量相邻碱基的质量值是非常重要 的;大的偏差可能表示一个有待深入研究的问题。 9.4.2 数据清理:生成准确的序列文件 9.4.2.1 文件格式 不同 NGS 平台的原始数据文件目前尚没有一致的或者标准的质量指标;但 是,一个标准的文件格式正在逐渐得到一致认可,即 FASTQ 格式文件。FASTQ 文件是一个特定的文本文件格式,用于保存生物序列(通常是核苷酸序列)和相 应的质量值。 尽管这一格式正在成为标准,但是不同平台产生的内容和质量值的 多样性,使得直接比较不同平台产生的数据是很困难的。除了 FASTQ 文件中的 碱基识别, 还有每个测序反应过程中产生的多个文件和文件类型,并且每个都包 含不同的值, 质量值, 以及过滤低质量读段以便下游分析的特异的仪器运行指标。 临床实验室需要花时间分析验证所有的文件类型并确定要保留和要丢弃的文件。 处理和保存文件的评估基础取决于临床实验室的分析预期。使问题复杂化的是 NGS 技术由商业供应者开展,并且化学试剂,硬件,软件都定期更新。对临床 实验室来说这些更新是破坏性的,在大多情况下,需要额外的分析验证。建议保 持与商业供应商的持续联系。 9.4.2.2 序列评价 NGS 反应过程中原始数据的数量和规模巨大,使得其保留、存储和检验都 很难而且价格不菲。 在临床检测的验证过程中,需要执行一个稳健的生物信息学 分析流程,低质量数据(由质量值决定)在数据分析之前自动过滤、以避免假阳35 性。一次 NGS 反应产生的原始数据平均为万亿字节级别,这使得临床实验室必 须依赖特定 NGS 仪器内置服务器提供的碱基识别(base calling)算法。 10. 原始测序结果的比对,拼接和评价 经典的 Sanger 测序和 NGS 测序技术之间是有差别的。 Sanger 测序在 1000 bp 及以下的范围中已经、并继续发挥重要价值。NGS 测序则允许以更划算的方式 测定基因组更大的区域。两者分析过程的基本差别如下图所示:图 2 Sanger 测序与 NGS 程序策略的比较 图 2 中对 Sanger 测序(临床应用中通常采用双向测序)得到的标准电泳图 谱与 NGS 测序的结果进行了比较。前者标准化的电泳图谱描绘的信号质量和强 度与噪点有关。在杂合位点,两个等位基因的信号大致相同,但通常低于纯合位 点。由于信号混合,杂合位点的识别更具挑战性。连续的未知亚群的变异受到测 序反应中光学检测能力限制。在 NGS 测序中,每个等位基因是独立测定的;因 此,没有信号混杂,能更容易的检测亚群。然而,检测变异时必须考虑总数和采 样深度的统计学局限。 两种方法都包括需要量化每个碱基的质量值,与参考序列 的比对,和一致的碱基识别等问题。36 10.1 Sanger 测序 10.1.1 序列比对 对于来自 Sanger 测序和其他长读长的测序技术的 DNA 序列,可以使用的 开源的和商业的软件来进行比对;在某些情况下,能进行图形化检查。序列比对 的正式方法采用全局或局部优化。全局优化根据整个序列区域尝试找出最佳匹 配。局部优化在两两成对的序列中识别相似区域,采用平铺式(tiled approach) 完成序列比对或拼接。对 Sanger 测序的比对和变异识别都有常用的软件工具。 常用经典的比对算法,比如 NeedlemanCWunsch 算法和它衍生的算法,用于全局 比对优化。SmithCWaterman 算法及其衍生算法用于局部比对优化。序列比对过 程中混杂的因素还包括单核苷酸多态性,插入缺失,重复长度的差异和结构重排 的存在。 10.1.2 序列评价(Sequence Review) 10.1.2.1 软件选择 因为 Sanger 测序是一个有广泛基础的成熟技术,有许多高质量商业软件包 可用于序列数据的展示和检验。 这些软件可以从仪器制造商和第三方获得。它}

我要回帖

更多关于 实验室样品管理 的文章

更多推荐

版权声明:文章内容来源于网络,版权归原作者所有,如有侵权请点击这里与我们联系,我们将及时删除。

点击添加站长微信