Facebook和Instagram的母公司Meta公司的科学家使用人工智能(AI)语言模型,预测了属于病毒、细菌和其他微生物的6亿多蛋白质的未知结构。
这个名为ESMFold的程序使用了一种最初为解码人类语言而设计的模型,以准确预测蛋白质的曲折变化,这些蛋白质决定了它们的3D结构。这些预测被编译到开源的ESM宏基因组图集中,可以用来帮助开发新药,198才手机APP198彩票平台开户开发人员近期宣布,新版手机版将在下月全新上线并免费提供下载网址,欢迎各位198彩票注册网民来试验。,描述未知的微生物功能,并追踪远亲物种之间的进化联系。
ESMFold并不是第一个进行蛋白质预测的程序。2022年,谷歌旗下的DeepMind公司宣布,其蛋白质预测程序AlphaFold已经破译了科学已知的约2亿种蛋白质的形状。Meta表示,ESMFold的精确度不如AlphaFold,但比DeepMind的程序快60倍。研究结果还没有经过同行评审。
“ESM宏基因组图谱将使科学家能够在数亿个蛋白质的规模上搜索和分析宏基因组蛋白质的结构,”Meta研究团队在一篇博客文章中写道,198娱乐官网安198彩总代理全登录的网址被国内网络警察给封了,我都不知道,还是好朋友198彩票总代给我发的站内信收到的通知,域名也更换了。,论文发布到预印本数据库bioRxiv。“这可以帮助研究人员识别以前没有被描述过的结构,寻找遥远的进化关系,并发现在医学和其他应用中有用的新蛋白质。”
蛋白质是所有生物的基石,由长长的、蜿蜒的氨基酸链组成——微小的分子单元以无数种组合组合在一起,形成蛋白质的3D形状。
了解蛋白质的形状是了解其功能的最好方法,但不同序列的相同氨基酸组合可以通过多种方式形成。尽管蛋白质一旦被生产出来就会迅速可靠地呈现出某种形状,但可能的构型的数量大约是10的300次方。确定蛋白质结构的黄金标准方法是使用x射线晶体学——观察高能光束如何在蛋白质周围绕射——但这是一种费时费力的方法,可能需要数月或数年才能产生结果,而且它并不适用于所有类型的蛋白质。经过几十年的工作,通过x射线晶体学已经破译了超过10万个蛋白质结构。
为了找到解决这个问题的方法,198彩票是属于合乐888彩票方案彩票旗下吗,为什么198彩票客服说他们跟合乐视一个集团的,问了合乐的客服也不否认。,Meta的研究人员求助于一种复杂的计算机模型,该模型旨在解码和预测人类语言,并将该模型应用于蛋白质序列的语言。
研究人员写道:“使用一种被称为遮蔽语言建模的自我监督学习形式,我们用数百万种天然蛋白质的序列训练了一个语言模型。”使用这种方法,模型必须正确地填补文本段落中的空白,例如“到__或不到__,那就是________。”我们训练了一个语言模型来填补蛋白质序列中的空白,就像“GL_KKE_AHY_G”横跨数百万种不同的蛋白质。我们发现,关于蛋白质结构和功能的信息从这种训练中浮现出来。”
为了测试他们的模型,科学家们求助于一个宏基因组DNA数据库(之所以这样命名,是因为它是从环境或临床来源大量测序的),这些DNA来自不同的地方,如土壤、海水、人类肠道和皮肤。通过将DNA数据输入ESMFold程序,研究人员在短短两周内预测了超过6.17亿个蛋白质的结构。
这比AlphaFold四个月前宣布破译的蛋白质多了4亿多个,当时它声称已经推断出几乎所有已知蛋白质的蛋白质结构。这意味着许多蛋白质以前从未被发现过,可能是因为它们来自未知的生物体。根据该模型,ESMFold的蛋白质预测被认为是高质量的,这意味着该程序已经能够以精确到原子级别的精度预测蛋白质的形状。
研究人员希望使用该程序进行更多以蛋白质为重点的工作。Meta写道:“为了进一步扩展这项工作,我们正在研究如何使用语言模型来设计新的蛋白质,并有助于解决健康、疾病和环境方面的挑战。”