靶点预测与验证平台
赛业生物积累了大量的生物信息及基因编辑方面的数据,结合AI人工智能技术,建立了数据集和算法模型,目前开发的罕见病数据中心(RDDC)可进行人类基因突变的致病风险预测,通过预测模型还可得到导致疾病表型的突变位点,进而构建相关的细胞或动物模型进行验证,为基因治疗研究开展提供极大便利。
罕见病数据库(RDDC)
罕见病数据中心(Rare Disease Data Center, 简称“RDDC”)是由清华珠三角研究院人工智能创新中心联合赛业生物自主研发的数据库, 整合了国内外开源的流行病学、药物研发、疾病相关基因图谱、基因突变位点、大小鼠模型等数据信息。基于遗传大数据资源, 结合人工智能与生物信息技术,RDDC部署了致病性预测工具(Pathogenicity Predictor)、RNA剪接预测模型(RNA Splicer)等AI工具,有望极大推动罕见病相关的研究工作。
罕见病数据中心(RDDC)优势
- AI驱动:基于海量疾病、基因和突变数据,利用机器学习和深度学习算法模型,开发罕见病遗传性疾病研究和辅助诊断工具。
- 聚焦突变靶点:聚焦突变与表型之间的关联,利用AI工具,探索遗传性罕见病致病机理,帮助用户精准定位靶点基因和突变。
- 关注核心数据:关注疾病、基因和动物模型数据,为罕见病临床前研究和药物开发提供核心数据支撑。
- 数据可视化:高度数据可视化和丰富的数据比对工具,提高研发者信息获取效率,颠覆传统生物类数据库只重数据,不重用户体验的弊端。
- 大模型高效辅助:融合自研数据库API调用大模型,用户只需以对话方式提出问题,模型便可判断用户意图调取答案,极大减轻用户学习成本。
AI辅助预测的应用案例——杜氏肌营养不良(DMD)
临床特征
杜氏肌营养不良(DMD)属于X连锁隐性遗传病,致病基因DMD是人类基因组中最大的基因(2.5 Mb)。60-65%的病例是由一个或多个DMD外显子的大量缺失引起疾病的发生;约20%的突变是由单核苷酸变异引起,包括移码突变、无义突变、错义突变和插入缺失突变。通常框内突变会导致不太严重的肌营养不良症,称为贝克尔肌营养不良症(Becker muscular dystrophy, BMD),而移码突变会导致更严重的DMD表型。患者样本采用全基因组测序,结果显示DMD基因有1个半合子突变:c.4675-2A>G突变导致发生异常剪接。
项目类型 | 详细信息 |
---|---|
基因 | DMD |
染色体位置 | chrX:32398799 |
转录本/外显子 | NM_004006;Exon34 |
核苷酸/氨基酸 | c.4675-2A>G |
纯合/杂合 | 杂合 |
正常人频率 | - |
ACMG致病性分析 | Pathogenic |
疾病/表型(遗传方式) | 杜氏肌营养不良(XLR),贝氏肌营养不良(XLR),扩张性心肌病3B型(XL) |
变异来源 | 自发 |
表1. DMD患者全外显子测序结果
AI预测结果
使用罕见病数据中心(RDDC)开发的AI线上预测工具,即致病性预测工具(Pathogenicity Predictor)和RNA剪接预测模型(RNA Splicer),进行突变致病性及RNA剪接的预测:
01 结果显示该突变的致病性与患者表型相符
Probability | Prediction | Gene Name | Chromosome X | Coordinate | PHRED | Gene ID | Consequence |
---|---|---|---|---|---|---|---|
0.84 | Pathogenic | DMD | X | 32380682 | 35 | 1756 | Canonical splice |
表2. 突变致病性预测模型预测结果
02 致病的原因可能是突变引起的两种剪接异常方式,其一是发生了34号外显子跳跃;其二是基因组上丢失7个碱基(非三倍数),造成了移码继而发生提前终止。

图1. RNA剪接模型预测结果
验证结果
文献报道过DMD携带者中同样出现该位点的突变,并且产生了新剪接受体位点(Hofstra et al. 2004),文献结果与工具页面展示的结果一致。到目前为止,已经报道的DMD致病突变超过四千多种,使用RNA Splicer预测工具尝试对几十种影响DMD剪接的突变进行计算,AI模型计算的结果与报道结果高度一致。