IBM Research在深度学习性能方面达到了新的里程碑

导读 由IBM FellowHillery Hunter领导的IBM科学家团队(如图所示)发明了突破性的深度学习软件。IBMResearch在分布式深度学习(DDL)方面取得了...

由IBM FellowHillery Hunter领导的IBM科学家团队(如图所示)发明了突破性的深度学习软件。

IBMResearch在分布式深度学习(DDL)方面取得了一个新的里程碑,它以近乎理想的效率构建了在数百个GPU上扩展DDL的软件。

这项研究解决了部署深度学习的主要挑战之一:大型神经网络和大型数据集有助于深度学习蓬勃发展,但也会导致更长的训练时间。培训大规模的、基于深度学习的人工智能模型可能需要几天或几周的时间。

随着缩放的GPU数目彼此通信,该过程需要很长的时间。事实上,随着GPU变得更快,它变得更糟糕了。更快的GPU可以更快地学习,但与传统软件相比,它们的通信无法跟上。

"基本上,更聪明和更快的学习者(GPU)需要更好的通信手段,或者他们不同步并且花费大部分时间来等待彼此的结果,"的HillaryHunter在博客文章中写道."因此,通过使用更多更快速学习的GPU,您不会获得加速和甚至降级的性能。"

新的DDL软件解决了这个问题,它应该能够在海量的神经网络和数据集上运行流行的开源代码,如TensorFlow、Caffe、Torch和Chainer,具有很高的性能和准确性。

IBM的研究表明,在64个IBM电力系统中,在256个GPU上,在Caffe深度学习框架上实现了记录通信开销和95%的缩放效率。以前的缩放记录是由FacebookAIResearch设置的,它在较高的通信开销下,在Caffe2上运行的培训效率达到了接近90%。

此外,在这个新的软件中,IBM的研究为在一个非常大的数据集(来自ImaGenet-22K数据集的7.5百万个图像)上训练的神经网络实现了33.8%的新图像识别精度,并且仅在7小时内实现。微软持有上一份记录,在10天内显示了29.8%的准确性。

"精度的4%提高是一大飞跃;过去的典型改进是小于1%,"猎人写道。

Hunter解释说,IBM的研究能够实现这些快速而准确的结果,他们利用了数十台服务器的强大功能,每个服务器都配备了数百个GPU。

"最流行的深度学习框架扩展到服务器中的多个GPU,但不限于具有GPU的多个服务器,"猎人解释了。"特别是,我们的团队(MinsikCho、UuliFinkler、DavidKung及其合作者)编写了软件和算法,这些软件和算法能够自动和优化与数十台服务器相连的数百个GPU加速器的这一非常大和复杂的计算任务的并行化。"

随着深度学习培训的这些改进,IBM希望我们能够看到一系列人工智能用例的进展,例如更精确的医学图像分析或更好的语音识别技术。IBM正在对目前在Powerai版本4中提供的软件进行技术预览,它的深度学习软件分发软件包。

免责声明:本文由用户上传,如有侵权请联系删除!