下载客户端

《科学》：谷歌推出AlphaMissense，预测7100万个人类错义突变

2023-09-25 12:11

来源：澎湃新闻·澎湃号·湃客

原创代丝雨奇点网

*仅供医学专业人士阅读参考

破解遗传密码是人类对理解生命的终极命题，寻找导致疾病的遗传改变更是其中的重头戏。

人类基因组有上万个基因，可能的基因突变达到百万级，从中寻找致病突变又何异于大海捞针。

人工智能的出现让这种“妄想”成为可能。

近期，DeepMind团队再发文，他们基于AlphaFold开发了新的人工智能模型AlphaMissense，预测了19233个人类蛋白质编码基因的7100万个错义突变，32%是潜在的致病突变，而其中仅有0.1%已被人类专家证实。

这篇论文发表于《科学》杂志，并被选为本周的封面论文。

AlphaMissense利用了AlphaFold的高度精确的蛋白质结构模型和从相关序列中学习的约束进化算法，并在此基础上整合了三个策略：

一，基于人口频率数据进行弱标签训练，避免人工注释带来的偏倚；二，使用无监督蛋白质语言建模来学习以序列上下文为条件的氨基酸分布；三，使用AlphaFold衍生系统来纳入结构背景。

AlphaMissense训练分为两个阶段，第一阶段与AlphaFold训练类似，在蛋白质语言建模上增加了权重；第二阶段微调模型匹配致病性，按照人口频率为突变分配良性或致病性标签。

研究者在临床数据库ClinVar提供的人类致病性错义突变数据中进行了测试，AlphaMissense的auROC达到0.940，优于第二名EVE的0.911。专门针对癌症热点突变分类的模型中，AlphaMissense也优于次优模型VARITY（auROC 0.907 vs 0.885）。

与AlphaMissense模型同时，研究团队还公布了四个数据集资源，一是以导致氨基酸变化的单核苷酸突变为单位的7100万个错义突变的预测数据集，其中32%被归类于潜在致病，使用者可以调整精度进行进一步筛选；二是基因水平的致病性预测；三是19233种人类标准蛋白质的2.16亿个单氨基酸取代拓展数据集；四是6万个转录异构体中可能的错义突变和氨基酸替换数据集。