Transcript SNP与SNV

疾病相关常见多态与罕见变异
的比较分析
徐良德 副教授
哈医大生物信息学院
复杂疾病的复杂性
• 复杂疾病的分子遗传特征
– 多基因 (polygenic)
– 微效性 (minor effect)
– 多效性 (pleiotropy)
– 异质性 (heterogenity)
– 上位效应 (epistasis)
• 复杂疾病与生物信息学
– 高通量、数量化、系统性
SNP与SNV
量度指标
• 等位(Allele)
– 最小等位频率(Minor Allele Frequency, MAF)
– >5%, <5%&>1%, <1%
• 基因型(Genotype)
– 基因型频率
– Hardy-Weinberg平衡
• 连锁不平衡(Linkage Disequilirium)
– D’, r2, LOD
SNP的特点
• 人类基因组中有1000万个常见SNP,不同
人群的SNP存在异质性
• SNP分布均匀,是一种2态多态,易于分型
• SNP与附近的DNA处于连锁不平衡状态,
可以特异的代表某个区段
• 将SNP作为分子标记可以用于识别疾病相
关染色体区段或作为疾病诊断分子标志物
• 常见变异常见疾病假说是定位研究的基础
SNV的特点
• SNV的最小等位频率小于1%,数量巨大
• 很多SNV是Singleton,在人群中出现频率极
低,与某些孟德尔遗传病直接相关
• 一个世代传递会发生约200个新突变位点,
体细胞DNA也可能产生SNV
• SNV与常见疾病发生有关,可能被常见SNP
俘获,也可能独立行使功能
统计遗传学实验设计
临床样本积累原则
• 记录年龄、性别、民族、BMI、吸烟史、饮
酒史等
• 检测血压、血糖、血脂值及其他与诊断有
关的重要生理、病理指标
• 存档特定疾病的特殊生化、血液指标信息
• 保存外周血样
• 条件允许时记录随访信息
• 样本量要求:参考研究经费,越多越好
候选基因的筛选
候选疾病基因
基因与疾病潜在的相关性
作用机理
功能类
分子实验
群体移植
高通量计算
SNP的筛选原则
• 利用HapMap筛选TagSNP
• http://hapmap.ncbi.nlm.nih.gov/
• http://hapmap.ncbi.nlm.nih.gov/biomart/martview/50fe71
de2801008a858746a71f63bbf0
• 利用dbSNP筛选功能性SNP
• http://www.ncbi.nlm.nih.gov/projects/SNP/
关联分析的一般方法回顾
以SNP为起点的疾病基因识别流程
SNP的实验室分型:限制性内切酶法
Alu I 内切酶位点
500bp
样品A
内切酶位点突变
样品B
G/G
700bp
片
段
长
度
500bp
200bp
AG CT
200bp
X
AT CT
G/T
T/T
• 限制性内切酶方法获得的SNP数据
PLA2G7与冠心病分析实例
• 研究对象:PLA2G7
• 研究样本:947个对照样本,827个冠心病
样本,512个心肌梗死样本
• 研究SNP:3个TagSNP,4个非同义SNP
(改变三联密码子编码)
• 生理指标采集与统计分析
• 单位点关联分析
• 多位点单体型关联分析
• 生理指标与疾病发生的相关性
常用的分析工具
• Plink
• Merlin
• SNPtest
基因组范围关联分析回顾
基因组范围关联分析流程
基因组范围关联分析特点
• 研究SNP数量大(数十万计)
• 研究样本量大(case-control数据各大于
1000)
• 研究的统计显著性水平要求高(p<10-7)
• 研究花费大,研究结果意义重大,研究效
率不高
基因组范围关联研究方法
关联分析结果注释
肺癌的基因组范围关联研究案例
• 实验一:Texas I (1154 case:1173 control)
»315450个SNP
• 实验二:Texas II (711 case:632 control)
• 实验三:UK (2013 case:3062 control)
• 样本信息
• 显著关联的肺癌风险SNP
• 肺癌基因定位15q25.1
• PSMA4\CHRNA5\CHRNA3\CHRNB4
GWAS研究成果
• Nature Genetics中的GWAs (2005-2011)
基因型与表型数据存储dbGap
多数据层面的meta分析
• Meta分析的基本流程
• Meta分析中的数据整合
Meta分析研究2型糖尿病案例
• 实验平台一:1924 case:2938 control
»393 143个SNP
• 实验平台二:1464 case:1467 control
»378 860个SNP
• 实验平台三:1161 case:1174 control
»44 750个SNP
SNP的测序识别
测序数据SNP
识别的流程
免费的测序数据SNP识别工具
重点推荐
• SNP识别工具日新月异,基本的提取和质量
控制工具应经过大量应用的方法,支持多样
本整合
• 单个位点质量估计推荐使用GATK或
SOAPsnp
• 短读长与参考基因组比对推荐使用较为敏感
的工具,如Novoalign或Stampy
• 基因型提取方法最好支持多样本贝叶斯推断
,并考虑到LD的作用,以提高准确率
SNV与SNP在疾病研究中的差异
疾病研究的样
本量需求
疾病研究中的优势比比较
SNP与SNV的差异性比较
SNP疾病分析的特点
• 常见SNP的研究不需要前提假设
• 风险SNP OR值一般处于1.2-1.5之间
• 需大量样本和重复实验来获得稳定的风险
值,消除对照样本分层影响、对抗严格的
多重检验校正
• 显著性水平一般需小于10-7
• 识别近千个高显著性位点(NHGRI)
SNV与疾病相关性研究流程
• SNV频率低,一般不能被群体遗传学方法
直接俘获
• SNV的识别依赖于群体遗传学研究结果
• 第一步对所有样本候选基因进行测序
• 识别SNV,估计SNV的功能特性:保守区
域、电势改变、结构变异、表达差异
• SNV在疾病和对照组之间的频率有差异,
与疾病相关的功能存在联系性
SNV研究的关注点
• 候选基因的选择
– 基因功能的损伤会导致严重的疾病后果
– SNP分析具有一定的家族性特点
– 参与疾病、生理相关的重要通路或生物学过程
• 适当的病例组、对照组选择
– 家族性(受累亲属对)相关病例提示存在SNV
– 发病年龄相对早
• 足够大样本量的候选基因重测序
• SNV的功能分析
常用的SNV功能分析工具
依据频率的分析策略
包含SNV的关联分析策略
SNV与疾病相关性研究示例
适应于SNV的统计分析工具
基于测序的SNV分析
• SNV分析可采用全基因组(whole-genome)
和全外显子(whole-exom)测序两种方式
• 基于测序的分析样本量可以比较小
• 测序的目的是发现直接致病的变异
• 可能发现之前未知的新致病基因,甚至发
现疾病的决定子
• 家系(受累亲属对)数据测序
• 极端性状测序
SNP与SNV的未来
THANK YOU !