标准化分析 > DNA测序 > 重测序 > 全外显子组测序案例
全外显子组测序显示HSPA1L是自发性早产的遗传风险因子
Whole exome sequencing reveals HSPA1L as a genetic risk factor for spontaneous preterm birth
PLoS Genetics (2018) 14(7): e1007394
https://doi.org/10.1371/journal.pgen.1007394
绝大多数(约70%)早产是在自发性分娩后发生的。大部分自发的早产儿
分娩是自发性的;然而,家族内部的早产复发情况表明遗传因素可能很重要。遗传因素估计占出生时间变异的25-40%,母体基因组在早产中起主要作用,但不仅仅是。尽管自发性早产已经有很多遗传研究在进行,只发现少数变异与此有关
同时其功能含义尚不清楚。
先前自发性早产全基因组关联分析(GWAS)发现了涉及其中的一些常见变异,但也只解释了遗传风险中的一小部分。而稀有变异在自发性早产中的作用基本上是未开发的。全外显子组测序(WES)识别罕见变异与疾病相关变异为提供了全面的的基础。以前的早产测序研究或早产分娩前胎膜破裂(PPROM) 只少数候选基因区域,因此错过了基因组的大部分编码区。与全基因组测序不同,WES更便宜,也同样可以解释结果。
另外四个为有早产历史的祖母,早产双胎妊娠或晚期早产;二是验证重复群体(Replication population),共有来自丹麦95个家庭的192个女性,这其中包括93对姐妹(姐妹均早产)和两组三个姐妹均是早产,其中这里早产的定义为37个完整的妊娠周之前完成早产,其中83%的姐妹都有个一次自发性早产,这里所有的女性均是欧洲血统。研发群体的17个个体均进行全血和唾液样本的DNA采集并通过Illumina HiSeq 2500 进行PE125的全外显子测序。验证重复群体的192个个体通过BGI的Exon Kit进行外显子捕获并进行PE35的全外显子测序。
2. 主要分析流程:
图1 外显子测序分析流程
a. 变异寻找,利用bwa-mem和GATK进行
b. 变异注释、过滤和筛选,其中序列覆盖度<15,变异质量<20被过滤,进一步稀有变异和可能具有功能或造成功能变化的基因被保留。
c. 显性遗传基因过滤,群体中所有个体都有的基因中的稀有变异会被考虑调查,当具体某个家庭特殊的分析中,只有家庭内的所有个体均包含的变异会被考虑。
d. 通路分析,Ingenuity Variant Analysis为之前过滤的结果提供了显著通路注释,其中P-value通过和已有表型涉及基因进行重跌的Fisher检测,只有P<0.01的通路用于进一步分析。
e. GWAS分析,结合已有早产相关GWAS数据,包括来自23andMe的43,568个欧洲血统的母亲数据,来自Nordic的4,632个欧洲血统的母亲数据以及来自芬兰北部的608个经过质量控制的母亲数据。利用Illumina 人类CoreExome芯片进行基因分型,并利用ShapeIT2和IMPUTE2进行prephasing和imputation,关联分析通过SNPTEST v2.5.2完成。
f. 实验验证,通过桑格测序、体外实验功能验证、蛋白质模型预测、Western blotting以及qPCR进行等进行验证。
研发群体(Discovery population)。选取了17个个体中情况最严重的10个个体进行分析,共在406个基因中鉴定出1,510个符合标准的稀有变异,在这其中鉴定出64个通路,其中三个最显著的通路(p<=9.80e-7)在所有10个个体均有,为糖皮质激素受体信号、雌激素受体信号传导和AMPK信号通路。基于单个家庭最少有两个个体的显性遗传模型分析,平均鉴定出在243个基因(173~381)共有444个变异(278~691)通路分析发现糖皮质激素受体信号通路为所有家庭所共有,而雌激素受体信号传导同为三个家庭所有共有(p<0.01),其中糖皮质激素受体信号通路和雌激素受体信号通路的一些基因在超过一个家庭中基因型相同,有可能是疾病病因。
验证重复群体(Replication population)。在以家庭为单位(每个家庭的个体均共享的变异),所有93对姐妹中平均在593个基因(357~1112)中鉴定出807个变异(504~1553),糖皮质激素受体信号通路和雌激素受体信号通路分别在75个和79个家庭中发现。
2. 不同全外显子分析软件分析结果比较及两个群体的稀有变异比较
Ingenuity Variant Analysis, Varseq 和 CMH Variant Warehouse三个外显子分析软件被用于分析。只有通过之前优化步骤并且三个软件中至少两个软件的稀有变异被认为是有效的。这样的好处是极大的降低了分析的假阳性错误率,这样共在研发群体中鉴定出844个变异。而对于验证重复群体,共鉴定出8,431个变异通过两个软件的检测,其中CMH Variant Warehouse对于该群体不可行。对于两个群体,变异的效应被分为功能丢失、中等或者其他几大类。
3. HSPA1L变异与GWAS数据集(40,000母亲)的早产相关
稀有变异分析结果和23andMe、北部欧洲的大量母亲数据进行GWAS分析发现,在23andMe中的早产数据集中,在糖皮质激素受体信号通路的HSPA1L中的rs34620296的次要等位基因要比对照中基因频率更高(0.0025而对照仅有0.0010,p=0.002)。同时这样的关联和早产时间也是显著关联的(p=0.0016,效应值-0.8238,标准误0.2608)。
表3 HSPA1L变异的GWAS分析结果和自发性早产的关联
4. 通过Sanger 测序验证HSPA1L中的变异以及家庭成员的表型
在研究群体中通过Sanger测序验证了HSPA1L中的两个造成错义的稀有变异,rs34620296 和rs150472288。同时这两个变异在六个来自四个不相干家庭的母亲中发现。在验证群体中的两个家庭中发现带有母系遗传的rs150472288 T等位基因的女性是早产儿,同时,两个带有母系遗传的rs150472288 T等位基因的男性也是早产儿,但是这些携带者由于数量过少而难以之间下结论。
5. HSPA1L变异的潜在功能影响评估
对来自研究群体的rs34620296 和rs150472288以及来自验证重复群体的rs482145 和 rs139193421利用SIFT和PolyPhen-2进行计算机模拟致病性预测。同时,MutationTaster和MutationAssessor将所有四种变异分别预测为致病和预测功能性。根据CADD(Combined Annotation Dependent Depletion)评分(>20),除了rs139193421之外的变异,均为人类基因组中前1%的致死性变异。
表4 HSPA1L错义变异的功能预测
为了评估这些变异对转录活性的潜在影响,利用组蛋白修饰或DNase I超敏反应的证据进行评估。其中HaploReg4.1和RegulomeDB评价的结果显示所有四种变体都具有组蛋白标记的区域,以及免疫系统各种细胞中强大的转录调控特征,尤其是来自外周血的T淋巴细胞(表4)。同时在HeLa-S3宫颈癌细胞系中和包皮成纤维细胞原代细胞分别发现rs34620296和rs482145的积极转录证据(表4)。同时在在卵巢组织中和腰肌组织中分别发现rs150472288和rs13919342的1DNA活性的进一步证据(表4)。还有证据表明在卵巢和胎儿肾上腺中rs34620296和rs150472288具有转录作用。将来自HaploReg 4.1和RegulomeDB的结果汇集在一起发现,HSPA1L变异参与到内分泌系统以及适应性免疫细胞中。这些变异因此可以在SPTB的病因学中发挥作用。
图2 HSPA1L变异在蛋白质序列和结构上的效应
通过对HSPA1L变异rs34620296在蛋白质结构的可能效应进行调查,发现这个变异造成了氨基酸变化Ala268Thr。同时基于NeTPhos 3.1的预测结果,Ala268Thr产生了额外的磷酸化位点紧邻现有的磷酸化位点(T267-p)。此外,Ala268Thr领进下游的ATP绑定位点(图2A)。
为了验证错义突变在蛋白质结构上造成的可能影响,包含Ala268Thr变异的HSPA1L蛋白质结构通过UCSF Chimera进行比较。发现有蛋白质没有明显的变化(图2B),但ADP配体绑定位点的化学键长度略有变化(图2C)。这有可能是小尺寸的Ala到中等尺寸的Thr的原因。而氨基酸上这样的变化会导致ADP分子的绑定效应。
图2 HSPA1L和GR在蜕膜化人子宫内膜间质成纤维细胞的蛋白水平
6. HSPA1L Ala268Thr突变体的功能结果
为了研究HSPA1L Ala268Thr突变体是否影响糖皮质激素受体信号通路的活性,对蜕膜化过程中糖皮质激素暴露进行了分析。用含有WT或者Ala268Thr的cDNA的质粒转入到人子宫内膜基质成纤维细胞中,并用空载体作为对照。细胞
在糖皮质激素(100nM地塞米松)存在下用蜕膜培养基培养72小时作为压力的替代。用WT HSPA1L-pcDNA 3.1侵入的细胞趋向于比用Ala268Thr HSPA1L-pcDNA3.1侵入的细胞有更大的增长(图3)。此外,蛋白质印迹分析显示糖皮质激素的相关胞质蛋白水平在WT和Ala268Thr之间显着不同,WT组中存在的GR明显多于Ala268Thr组(图3)
此外也通过qPCR确定了WNT4的相对基因表达。 WNT4是一个在最近研究中的发现了与妊娠期相关的蜕膜化目标基因。在WT组中观察到WNT4的表达增加,而在Ala268Thr组中观察到更不能激活WNT4信号通路,导致WNT4表达降低(p = 0.04)。
Whole exome sequencing reveals HSPA1L as a genetic risk factor for spontaneous preterm birth
PLoS Genetics (2018) 14(7): e1007394
https://doi.org/10.1371/journal.pgen.1007394
背景
早产,定义为在37个完整的妊娠周之前出生,是一个主要的全球性公共卫生问题。全世界每年有超过1500万婴儿(超过十分之一的婴儿)是早产儿和其中有超过一百万死于与早产相关的并发症。早产及其并发症是新生儿的主要死亡原因并成为五岁以下儿童死亡的主要原因。此外,早产儿不仅会导致短期并发症,而且还会造成终身残疾,如呼吸和认知障碍。早产也增加成年后发病的风险,如肥胖,糖尿病和心血管疾病。目前,通常没有有效的预防早产的方法。绝大多数(约70%)早产是在自发性分娩后发生的。大部分自发的早产儿
分娩是自发性的;然而,家族内部的早产复发情况表明遗传因素可能很重要。遗传因素估计占出生时间变异的25-40%,母体基因组在早产中起主要作用,但不仅仅是。尽管自发性早产已经有很多遗传研究在进行,只发现少数变异与此有关
同时其功能含义尚不清楚。
先前自发性早产全基因组关联分析(GWAS)发现了涉及其中的一些常见变异,但也只解释了遗传风险中的一小部分。而稀有变异在自发性早产中的作用基本上是未开发的。全外显子组测序(WES)识别罕见变异与疾病相关变异为提供了全面的的基础。以前的早产测序研究或早产分娩前胎膜破裂(PPROM) 只少数候选基因区域,因此错过了基因组的大部分编码区。与全基因组测序不同,WES更便宜,也同样可以解释结果。
主要材料方法
1. 数据:用于研究自发性早产的群体,包括两部分,一是研发群体(Discovery population),从17个芬兰北部的混合家庭的母亲,包括13个已经自发性早产的母亲(其中10个妊娠期少于36周且多达复发两到四次的自发性流产),另外四个为有早产历史的祖母,早产双胎妊娠或晚期早产;二是验证重复群体(Replication population),共有来自丹麦95个家庭的192个女性,这其中包括93对姐妹(姐妹均早产)和两组三个姐妹均是早产,其中这里早产的定义为37个完整的妊娠周之前完成早产,其中83%的姐妹都有个一次自发性早产,这里所有的女性均是欧洲血统。研发群体的17个个体均进行全血和唾液样本的DNA采集并通过Illumina HiSeq 2500 进行PE125的全外显子测序。验证重复群体的192个个体通过BGI的Exon Kit进行外显子捕获并进行PE35的全外显子测序。
2. 主要分析流程:
图1 外显子测序分析流程
a. 变异寻找,利用bwa-mem和GATK进行
b. 变异注释、过滤和筛选,其中序列覆盖度<15,变异质量<20被过滤,进一步稀有变异和可能具有功能或造成功能变化的基因被保留。
c. 显性遗传基因过滤,群体中所有个体都有的基因中的稀有变异会被考虑调查,当具体某个家庭特殊的分析中,只有家庭内的所有个体均包含的变异会被考虑。
d. 通路分析,Ingenuity Variant Analysis为之前过滤的结果提供了显著通路注释,其中P-value通过和已有表型涉及基因进行重跌的Fisher检测,只有P<0.01的通路用于进一步分析。
e. GWAS分析,结合已有早产相关GWAS数据,包括来自23andMe的43,568个欧洲血统的母亲数据,来自Nordic的4,632个欧洲血统的母亲数据以及来自芬兰北部的608个经过质量控制的母亲数据。利用Illumina 人类CoreExome芯片进行基因分型,并利用ShapeIT2和IMPUTE2进行prephasing和imputation,关联分析通过SNPTEST v2.5.2完成。
f. 实验验证,通过桑格测序、体外实验功能验证、蛋白质模型预测、Western blotting以及qPCR进行等进行验证。
主要结果
1. 变异分析和通路分析研发群体(Discovery population)。选取了17个个体中情况最严重的10个个体进行分析,共在406个基因中鉴定出1,510个符合标准的稀有变异,在这其中鉴定出64个通路,其中三个最显著的通路(p<=9.80e-7)在所有10个个体均有,为糖皮质激素受体信号、雌激素受体信号传导和AMPK信号通路。基于单个家庭最少有两个个体的显性遗传模型分析,平均鉴定出在243个基因(173~381)共有444个变异(278~691)通路分析发现糖皮质激素受体信号通路为所有家庭所共有,而雌激素受体信号传导同为三个家庭所有共有(p<0.01),其中糖皮质激素受体信号通路和雌激素受体信号通路的一些基因在超过一个家庭中基因型相同,有可能是疾病病因。
验证重复群体(Replication population)。在以家庭为单位(每个家庭的个体均共享的变异),所有93对姐妹中平均在593个基因(357~1112)中鉴定出807个变异(504~1553),糖皮质激素受体信号通路和雌激素受体信号通路分别在75个和79个家庭中发现。
2. 不同全外显子分析软件分析结果比较及两个群体的稀有变异比较
Ingenuity Variant Analysis, Varseq 和 CMH Variant Warehouse三个外显子分析软件被用于分析。只有通过之前优化步骤并且三个软件中至少两个软件的稀有变异被认为是有效的。这样的好处是极大的降低了分析的假阳性错误率,这样共在研发群体中鉴定出844个变异。而对于验证重复群体,共鉴定出8,431个变异通过两个软件的检测,其中CMH Variant Warehouse对于该群体不可行。对于两个群体,变异的效应被分为功能丢失、中等或者其他几大类。
3. HSPA1L变异与GWAS数据集(40,000母亲)的早产相关
稀有变异分析结果和23andMe、北部欧洲的大量母亲数据进行GWAS分析发现,在23andMe中的早产数据集中,在糖皮质激素受体信号通路的HSPA1L中的rs34620296的次要等位基因要比对照中基因频率更高(0.0025而对照仅有0.0010,p=0.002)。同时这样的关联和早产时间也是显著关联的(p=0.0016,效应值-0.8238,标准误0.2608)。
表3 HSPA1L变异的GWAS分析结果和自发性早产的关联
4. 通过Sanger 测序验证HSPA1L中的变异以及家庭成员的表型
在研究群体中通过Sanger测序验证了HSPA1L中的两个造成错义的稀有变异,rs34620296 和rs150472288。同时这两个变异在六个来自四个不相干家庭的母亲中发现。在验证群体中的两个家庭中发现带有母系遗传的rs150472288 T等位基因的女性是早产儿,同时,两个带有母系遗传的rs150472288 T等位基因的男性也是早产儿,但是这些携带者由于数量过少而难以之间下结论。
5. HSPA1L变异的潜在功能影响评估
对来自研究群体的rs34620296 和rs150472288以及来自验证重复群体的rs482145 和 rs139193421利用SIFT和PolyPhen-2进行计算机模拟致病性预测。同时,MutationTaster和MutationAssessor将所有四种变异分别预测为致病和预测功能性。根据CADD(Combined Annotation Dependent Depletion)评分(>20),除了rs139193421之外的变异,均为人类基因组中前1%的致死性变异。
表4 HSPA1L错义变异的功能预测
为了评估这些变异对转录活性的潜在影响,利用组蛋白修饰或DNase I超敏反应的证据进行评估。其中HaploReg4.1和RegulomeDB评价的结果显示所有四种变体都具有组蛋白标记的区域,以及免疫系统各种细胞中强大的转录调控特征,尤其是来自外周血的T淋巴细胞(表4)。同时在HeLa-S3宫颈癌细胞系中和包皮成纤维细胞原代细胞分别发现rs34620296和rs482145的积极转录证据(表4)。同时在在卵巢组织中和腰肌组织中分别发现rs150472288和rs13919342的1DNA活性的进一步证据(表4)。还有证据表明在卵巢和胎儿肾上腺中rs34620296和rs150472288具有转录作用。将来自HaploReg 4.1和RegulomeDB的结果汇集在一起发现,HSPA1L变异参与到内分泌系统以及适应性免疫细胞中。这些变异因此可以在SPTB的病因学中发挥作用。
图2 HSPA1L变异在蛋白质序列和结构上的效应
通过对HSPA1L变异rs34620296在蛋白质结构的可能效应进行调查,发现这个变异造成了氨基酸变化Ala268Thr。同时基于NeTPhos 3.1的预测结果,Ala268Thr产生了额外的磷酸化位点紧邻现有的磷酸化位点(T267-p)。此外,Ala268Thr领进下游的ATP绑定位点(图2A)。
为了验证错义突变在蛋白质结构上造成的可能影响,包含Ala268Thr变异的HSPA1L蛋白质结构通过UCSF Chimera进行比较。发现有蛋白质没有明显的变化(图2B),但ADP配体绑定位点的化学键长度略有变化(图2C)。这有可能是小尺寸的Ala到中等尺寸的Thr的原因。而氨基酸上这样的变化会导致ADP分子的绑定效应。
图2 HSPA1L和GR在蜕膜化人子宫内膜间质成纤维细胞的蛋白水平
6. HSPA1L Ala268Thr突变体的功能结果
为了研究HSPA1L Ala268Thr突变体是否影响糖皮质激素受体信号通路的活性,对蜕膜化过程中糖皮质激素暴露进行了分析。用含有WT或者Ala268Thr的cDNA的质粒转入到人子宫内膜基质成纤维细胞中,并用空载体作为对照。细胞
在糖皮质激素(100nM地塞米松)存在下用蜕膜培养基培养72小时作为压力的替代。用WT HSPA1L-pcDNA 3.1侵入的细胞趋向于比用Ala268Thr HSPA1L-pcDNA3.1侵入的细胞有更大的增长(图3)。此外,蛋白质印迹分析显示糖皮质激素的相关胞质蛋白水平在WT和Ala268Thr之间显着不同,WT组中存在的GR明显多于Ala268Thr组(图3)
此外也通过qPCR确定了WNT4的相对基因表达。 WNT4是一个在最近研究中的发现了与妊娠期相关的蜕膜化目标基因。在WT组中观察到WNT4的表达增加,而在Ala268Thr组中观察到更不能激活WNT4信号通路,导致WNT4表达降低(p = 0.04)。