首页 > 资讯 > 正文

IBM Research在深度学习性能方面达到了新的里程碑

来源：资讯 2022-05-03 00:11:47

导读由IBM FellowHillery Hunter领导的IBM科学家团队（如图所示）发明了突破性的深度学习软件。IBMResearch在分布式深度学习(DDL)方面取得了...

由IBM FellowHillery Hunter领导的IBM科学家团队（如图所示）发明了突破性的深度学习软件。

IBMResearch在分布式深度学习(DDL)方面取得了一个新的里程碑，它以近乎理想的效率构建了在数百个GPU上扩展DDL的软件。

这项研究解决了部署深度学习的主要挑战之一：大型神经网络和大型数据集有助于深度学习蓬勃发展，但也会导致更长的训练时间。培训大规模的、基于深度学习的人工智能模型可能需要几天或几周的时间。

随着缩放的GPU数目彼此通信，该过程需要很长的时间。事实上，随着GPU变得更快，它变得更糟糕了。更快的GPU可以更快地学习，但与传统软件相比，它们的通信无法跟上。

"基本上，更聪明和更快的学习者(GPU)需要更好的通信手段，或者他们不同步并且花费大部分时间来等待彼此的结果，"的HillaryHunter在博客文章中写道."因此，通过使用更多更快速学习的GPU，您不会获得加速和甚至降级的性能。"

新的DDL软件解决了这个问题，它应该能够在海量的神经网络和数据集上运行流行的开源代码，如TensorFlow、Caffe、Torch和Chainer，具有很高的性能和准确性。

IBM的研究表明，在64个IBM电力系统中，在256个GPU上，在Caffe深度学习框架上实现了记录通信开销和95%的缩放效率。以前的缩放记录是由FacebookAIResearch设置的，它在较高的通信开销下，在Caffe2上运行的培训效率达到了接近90%。

此外，在这个新的软件中，IBM的研究为在一个非常大的数据集(来自ImaGenet-22K数据集的7.5百万个图像)上训练的神经网络实现了33.8％的新图像识别精度，并且仅在7小时内实现。微软持有上一份记录，在10天内显示了29.8%的准确性。

"精度的4％提高是一大飞跃；过去的典型改进是小于1％，"猎人写道。

Hunter解释说，IBM的研究能够实现这些快速而准确的结果，他们利用了数十台服务器的强大功能，每个服务器都配备了数百个GPU。

"最流行的深度学习框架扩展到服务器中的多个GPU，但不限于具有GPU的多个服务器，"猎人解释了。"特别是，我们的团队（MinsikCho、UuliFinkler、DavidKung及其合作者）编写了软件和算法，这些软件和算法能够自动和优化与数十台服务器相连的数百个GPU加速器的这一非常大和复杂的计算任务的并行化。"

随着深度学习培训的这些改进，IBM希望我们能够看到一系列人工智能用例的进展，例如更精确的医学图像分析或更好的语音识别技术。IBM正在对目前在Powerai版本4中提供的软件进行技术预览，它的深度学习软件分发软件包。

免责声明：本文由用户上传，如有侵权请联系删除！

上一篇:谁真正拥有你的物联网数据

下一篇:最后一页

IBM Research在深度学习性能方面达到了新的里程碑

猜你喜欢

最新文章