Transcript SNP与SNV
疾病相关常见多态与罕见变异 的比较分析 徐良德 副教授 哈医大生物信息学院 复杂疾病的复杂性 • 复杂疾病的分子遗传特征 – 多基因 (polygenic) – 微效性 (minor effect) – 多效性 (pleiotropy) – 异质性 (heterogenity) – 上位效应 (epistasis) • 复杂疾病与生物信息学 – 高通量、数量化、系统性 SNP与SNV 量度指标 • 等位(Allele) – 最小等位频率(Minor Allele Frequency, MAF) – >5%, <5%&>1%, <1% • 基因型(Genotype) – 基因型频率 – Hardy-Weinberg平衡 • 连锁不平衡(Linkage Disequilirium) – D’, r2, LOD SNP的特点 • 人类基因组中有1000万个常见SNP,不同 人群的SNP存在异质性 • SNP分布均匀,是一种2态多态,易于分型 • SNP与附近的DNA处于连锁不平衡状态, 可以特异的代表某个区段 • 将SNP作为分子标记可以用于识别疾病相 关染色体区段或作为疾病诊断分子标志物 • 常见变异常见疾病假说是定位研究的基础 SNV的特点 • SNV的最小等位频率小于1%,数量巨大 • 很多SNV是Singleton,在人群中出现频率极 低,与某些孟德尔遗传病直接相关 • 一个世代传递会发生约200个新突变位点, 体细胞DNA也可能产生SNV • SNV与常见疾病发生有关,可能被常见SNP 俘获,也可能独立行使功能 统计遗传学实验设计 临床样本积累原则 • 记录年龄、性别、民族、BMI、吸烟史、饮 酒史等 • 检测血压、血糖、血脂值及其他与诊断有 关的重要生理、病理指标 • 存档特定疾病的特殊生化、血液指标信息 • 保存外周血样 • 条件允许时记录随访信息 • 样本量要求:参考研究经费,越多越好 候选基因的筛选 候选疾病基因 基因与疾病潜在的相关性 作用机理 功能类 分子实验 群体移植 高通量计算 SNP的筛选原则 • 利用HapMap筛选TagSNP • http://hapmap.ncbi.nlm.nih.gov/ • http://hapmap.ncbi.nlm.nih.gov/biomart/martview/50fe71 de2801008a858746a71f63bbf0 • 利用dbSNP筛选功能性SNP • http://www.ncbi.nlm.nih.gov/projects/SNP/ 关联分析的一般方法回顾 以SNP为起点的疾病基因识别流程 SNP的实验室分型:限制性内切酶法 Alu I 内切酶位点 500bp 样品A 内切酶位点突变 样品B G/G 700bp 片 段 长 度 500bp 200bp AG CT 200bp X AT CT G/T T/T • 限制性内切酶方法获得的SNP数据 PLA2G7与冠心病分析实例 • 研究对象:PLA2G7 • 研究样本:947个对照样本,827个冠心病 样本,512个心肌梗死样本 • 研究SNP:3个TagSNP,4个非同义SNP (改变三联密码子编码) • 生理指标采集与统计分析 • 单位点关联分析 • 多位点单体型关联分析 • 生理指标与疾病发生的相关性 常用的分析工具 • Plink • Merlin • SNPtest 基因组范围关联分析回顾 基因组范围关联分析流程 基因组范围关联分析特点 • 研究SNP数量大(数十万计) • 研究样本量大(case-control数据各大于 1000) • 研究的统计显著性水平要求高(p<10-7) • 研究花费大,研究结果意义重大,研究效 率不高 基因组范围关联研究方法 关联分析结果注释 肺癌的基因组范围关联研究案例 • 实验一:Texas I (1154 case:1173 control) »315450个SNP • 实验二:Texas II (711 case:632 control) • 实验三:UK (2013 case:3062 control) • 样本信息 • 显著关联的肺癌风险SNP • 肺癌基因定位15q25.1 • PSMA4\CHRNA5\CHRNA3\CHRNB4 GWAS研究成果 • Nature Genetics中的GWAs (2005-2011) 基因型与表型数据存储dbGap 多数据层面的meta分析 • Meta分析的基本流程 • Meta分析中的数据整合 Meta分析研究2型糖尿病案例 • 实验平台一:1924 case:2938 control »393 143个SNP • 实验平台二:1464 case:1467 control »378 860个SNP • 实验平台三:1161 case:1174 control »44 750个SNP SNP的测序识别 测序数据SNP 识别的流程 免费的测序数据SNP识别工具 重点推荐 • SNP识别工具日新月异,基本的提取和质量 控制工具应经过大量应用的方法,支持多样 本整合 • 单个位点质量估计推荐使用GATK或 SOAPsnp • 短读长与参考基因组比对推荐使用较为敏感 的工具,如Novoalign或Stampy • 基因型提取方法最好支持多样本贝叶斯推断 ,并考虑到LD的作用,以提高准确率 SNV与SNP在疾病研究中的差异 疾病研究的样 本量需求 疾病研究中的优势比比较 SNP与SNV的差异性比较 SNP疾病分析的特点 • 常见SNP的研究不需要前提假设 • 风险SNP OR值一般处于1.2-1.5之间 • 需大量样本和重复实验来获得稳定的风险 值,消除对照样本分层影响、对抗严格的 多重检验校正 • 显著性水平一般需小于10-7 • 识别近千个高显著性位点(NHGRI) SNV与疾病相关性研究流程 • SNV频率低,一般不能被群体遗传学方法 直接俘获 • SNV的识别依赖于群体遗传学研究结果 • 第一步对所有样本候选基因进行测序 • 识别SNV,估计SNV的功能特性:保守区 域、电势改变、结构变异、表达差异 • SNV在疾病和对照组之间的频率有差异, 与疾病相关的功能存在联系性 SNV研究的关注点 • 候选基因的选择 – 基因功能的损伤会导致严重的疾病后果 – SNP分析具有一定的家族性特点 – 参与疾病、生理相关的重要通路或生物学过程 • 适当的病例组、对照组选择 – 家族性(受累亲属对)相关病例提示存在SNV – 发病年龄相对早 • 足够大样本量的候选基因重测序 • SNV的功能分析 常用的SNV功能分析工具 依据频率的分析策略 包含SNV的关联分析策略 SNV与疾病相关性研究示例 适应于SNV的统计分析工具 基于测序的SNV分析 • SNV分析可采用全基因组(whole-genome) 和全外显子(whole-exom)测序两种方式 • 基于测序的分析样本量可以比较小 • 测序的目的是发现直接致病的变异 • 可能发现之前未知的新致病基因,甚至发 现疾病的决定子 • 家系(受累亲属对)数据测序 • 极端性状测序 SNP与SNV的未来 THANK YOU !