改进的深度学习算法揭示了变形蛋白的功能

导读 使用旨在模拟人脑内部工作原理的人工神经网络,深度学习算法可以巧妙地细读和分析大量数据。将这种技术应用于科学问题可以帮助挖掘历史上难...

使用旨在模拟人脑内部工作原理的人工神经网络,深度学习算法可以巧妙地细读和分析大量数据。将这种技术应用于科学问题可以帮助挖掘历史上难以捉摸的解决方案。Fs肽的分子动力学模拟表明,在蛋白质折叠过程中至少存在八个不同的中间阶段。该图像描绘了一个完全折叠的螺旋线(1),各种过渡形式(2-8)和一个错误折叠的状态(9)。通过研究这些蛋白质折叠途径,科学家们希望找出影响人类健康的潜在因素。

这样的挑战之一涉及称为蛋白质折叠的生物物理现象。尽管研究人员知道蛋白质必须通过此过程才能变形为特定的3D形状才能正常运行,但初始展开状态和最终折叠状态之间的中间阶段的复杂性对于最终目的至关重要,而且难以表征。

能源部(DOE)橡树岭国家实验室(ORNL)的研究人员采用了一套深度学习技术来识别和观察这些临时但值得注意的结构。他们 在BMC生物信息学中发表了他们的发现 。

通过研究三种不同蛋白质(即Fs肽,villin头部片段和BBA)的折叠途径,研究人员在计算上比较了多种蛋白质折叠机制。他们依靠从其他研究小组获得的数据集,这些研究小组进行了广泛的模拟来检查这些途径。在每种情况下,CVAE都揭示了许多中间阶段,可作为“指导”,以帮助团队从头到尾导航折叠过程,同时观察蛋白质行为的潜在方面。

“我们采用了运行MD模拟所编译的蛋白质折叠轨迹,并将其输入到深度学习网络中,该网络会自动发现各种蛋白质的相关指南,”负责这项工作的前ORNL研究人员Arvind Ramanathan说。

ORNL计算科学家Debsindhu Bhowmik补充说:“这些相关路标是从高维折叠轨迹中完全不受监督地挑选出来的,从而只选择了对该特定系统重要的生物物理相关特征。”蛋白质系统。

Ramanathan将这种确定过渡蛋白状态的能力与选择从一个区域到另一个区域的逻辑进站的驾驶员进行了比较。

Ramanathan说:“如果您要从东田纳西州的诺克斯维尔一直行驶到西田纳西州的孟菲斯,那么自然的停车点就是纳什维尔。” “就像您可以采用多种不同的途径来到达公路目的地一样,蛋白质也可以通过多种不同的途径折叠成最终的形状。”

但是,即使这些折叠途径发生最微小的变化,也可能导致蛋白质“错误折叠”为功能失调的形状。折叠错误通常被认为是包括阿尔茨海默氏病,心血管疾病和糖尿病在内的疾病发展的主要因素。

Ramanathan说:“蛋白质的整体形状决定了它的功能,因此某种形状的微小扰动会产生错误折叠的蛋白质,并导致严重的医疗状况。”

凭借这种区分正确折叠和错误折叠的蛋白质的能力,研究人员可以进一步了解蛋白质错误折叠的原因,其他因素如何导致致命疾病的发展以及最有可能预防或治愈它们的治疗方案。例如,鉴定特定蛋白质中有问题的位点可能表明需要种植结合剂或药物来改变该蛋白质的行为。

要实现这一目标,将需要越来越精确的技术,该团队希望通过在NVIDIA DGX-2 盒子上对多种机器学习算法进行建模来开发这些技术,从而使 计算系统能够实现新颖的人工智能应用。DGX-2最近安装在ORNL的科学计算和数据环境(CADES)中,该数据库为ORNL员工提供了完成数据密集型项目所需的基础设施和专业知识。

研究人员专注于优化强化学习算法,该算法无需预先培训即可执行任务,然后稳定地从经验中学习,以最大程度地提高回报并最大程度地减少负面结果。一个著名的例子是Google的AlphaGo计算机程序,在棋盘2022世界杯足球比赛时间 Go中击败了一位世界冠军。类似的强化学习算法也被嵌入到街机和控制台视频2022世界杯足球比赛时间 中,该团队计划出于科学目的定制此方法,包括收集和解释蛋白质折叠数据。

Ramanathan说:“引导MD模拟的一种方法是使用这些强大的强化学习技术,但要使它们适应这些类型的模拟,则需要大量的工作和计算能力。”

为了改进算法,团队必须优化超参数,这些超参数是在算法开始做出决策之前设置的参数。团队可以同时在DGX-2上运行多种算法,从而使团队能够快速编译用于开发HyperSpace的数据,HyperSpace是一种专用软件包,可简化和简化超参数优化的过程。

研究人员在2018年高性能机器学习研讨会上介绍了这项工作,这是一年一度的盛会,机器学习,人工智能和高性能计算专家齐聚一堂,讨论经验并分享专业知识。

“我们发现,对于诸如深度学习算法,卷积神经网络和强化学习算法之类的各种机器学习算法,HyperSpace相当成功,并且优于同类模型,” Ramanathan说。

现在,科学家们正在构建可扩展的工作流程,以使未来涉及蛋白质折叠和其他生物学现象的研究受益,他们计划在Summit上研究其中的一些现象。

Ramanathan说:“尽管到目前为止,我们主要集中在蛋白质折叠上,但我们仍在积极探索其他问题,例如两种分离的蛋白质如何相互作用。”

ORNL的实验室指导研究与开发计划为该项目提供了支持。HyperSpace软件的开发是Exascale计算项目支持的CANcer分布式学习环境项目的一部分。

免责声明:本文由用户上传,如有侵权请联系删除!