想独立开展深度学习研究，你准备好了吗？_库卡机器人维修_KUKA机械手保养

机器人资讯

技术教程

达明机器人新产品TM12,14 亮相中

示教器维修

库卡KUKA机器人运行的方式有哪些

伺服电机维修

KUKA机器人伺服电机编码器报警维

首页 > 机器人资讯 > 想独立开展深度学习研究，你准备好了吗？

想独立开展深度学习研究，你准备好了吗？

日期：2020-01-07 人气：来源:互联网

简介：想独立开展深度学习研究，你准备好了吗？深度学习是一门经验科学，具备优质的研发基础架构通常能令科研团队事半功倍。幸运的是，依托现有的开源生态，任何人都能构建出非常不错的深度学习基础架构。在这篇文章中，我们会和大家分享如何开展深度学习的研……

想独立开展深度学习研究，你准备好了吗？

深度学习是一门经验科学，具备优质的研发基础架构通常能令科研团队事半功倍。幸运的是，依托现有的开源生态，任何人都能构建出非常不错的深度学习基础架构。

在这篇文章中，我们会和大家分享如何开展深度学习的研究，也会一并介绍我们在研究中选用的基础架构和开源技术kubernetes-ec2-autoscaler，这是一种用于Kubernetes批处理任务的弹性伸缩管理器（batch-optimizedscalingmanager）。

用例

深度学习的演进通常源于一个能够在小问题上被验证的构想。在这个阶段，你需要快速地进行大量随机实验。理想情况下，只需远程登录到一台机器，运行一个脚本，不到一个小时就可以得到结果。

但是构建一个真正可用的模型通常会经历很多次失败，需要我们不停地去修复这些缺陷。（这和其他新建的软件系统一样，你需要多次运行代码才能判断它是如何运转的。）

你需要通过多个角度的计算来检测模型，从而意识到它是如何学习的。DarioAmodei的这种增强学习机制（控制右侧的球拍）可以在击球游戏中获得很高的分数，但你会发现，游戏中右侧的球拍完全没有移动。

因此深度学习的基础架构要能允许用户灵活地反观模型，仅仅展示一些统计结果是不够的。

当模型表现出一定的应用前景，你会希望将它扩展到更大的数据集和更多的GPU上运行，但这会花费大量的时间。而且你需要认真地管理实验并非常谨慎地去选择超参数（hyperparameters）的范围。

这种科研的过程在早期是快速且缺乏系统性的；到了后期，过程会逐渐有条理却很耗费精力，但为了获得完美的结果，这是必不可少的。

案例

论文ImprovedTechniquesforTrainingGANs开篇讲述了TimSalimans对于如何改进生成对抗网络（GAN）训练机制的一些看法。我们会挑其中较简单的一个进行介绍（这虽然不是最好的半监督学习案例，但它生成了最好看的样本）。

GANs由一个生成器网络和一个鉴别器网络构成。生成器会不停地去干扰鉴别器，而鉴别器会尽力地将生成器造出的数据和真实数据区分开来。通常来说，判断生成器的好坏，看它能不能骗过所有鉴别器就行了，但难题仍然存在：如果生成器一直输出完全相同的（几乎和真实的一样）样本会造成网络的崩溃。

Tim提出可以用小批次的样本数据代替原先的一整个样本提供给鉴别器。这样鉴别器就可以判断生成器是否一直在传同样的图像。当崩溃发生时，生成器将会进行梯度调整来修正这个问题。

下一步就是基于MNIST和CIFAR-10将构想转化为原型。这需要快速地构建出一个初步的模型，然后运行真实的数据并检测结果。在经过几次快速的迭代之后，Tim得到了CIFAR-10的样本，这次的结果十分振奋人心，几乎是我们见过的在这个数据集上跑出的最好样本了。

深度学习（以及常说的AI算法）如果要真正形成一定影响就必须扩大实验规模，一个小型神经网络可以验证概念，而大型的神经网络才能真正解决问题。因此IanGoodfellow开始把模型扩展到ImageNet进行验证。

模型学习生成ImageNet的图像

有了更大的模型和数据集，Ian就需要用更多的GPU来并行地运行模型。任务运行时机器的CPU和GPU利用率会飙升至90%，但是即使这样仍需要花费很多天才能完成模型训练。在这种模式下，每一次实验机会都显得无比珍贵，他也会非常细致地记录下每次实验的结果。

虽然实验最终得到了不错的结果，但仍没有达到我们的预期。为了找到原因我们做了很多尝试，但仍然攻克不了。这大概就是科学的本质吧。

基础架构

软件

TensorFlow代码的样例

我们绝大部分的研究代码是用Python完成的，详细内容可以在我们的开源项目中查看到。我们通常使用TensorFlow（在特殊情况下也会使用Theano）来进行GPU计算；使用Numpy或其他方法来进行CPU计算。研究人员有时也会使用更上层的框架，比如基于TensorFlow的Keras。

和多数深度学习社区一样，我们会使用Python2.7。Anaconda也经常会用到，它可以方便地给OpenCV打包，并对一些科学算法库进行性能优化。

硬件

对于理想的批处理任务，将集群计算节点的数量翻倍会减半任务执行时间。不幸的是，在深度学习中，机器人维修，GPU数量的增加只会引起任务亚线性的加速。因此顶级的计算性能只能依靠顶级的GPU来实现。我们也使用了许多CPU用于构建模拟器、增强学习环境或是小规模的模型（这类模型跑在GPU上时运行效率不会有明显的增加）。

nvidia-smi下满载的TitanXs

AWS慷慨地为我们提供了大量计算资源。这些资源被用于CPU实例以及GPU任务的水平扩展。我们也有自己的物理机，用的是TitanXGPU。我们期望之后可以使用混合云：对不同的GPU、连接以及其他技术开展实验是非常具有价值的，这对深度学习未来的发展也有着重要影响。

相同物理单元上的htop显示了大量空闲的CPU。我们通常将CPU密集型和GPU密集型的任务分开运行。

配置

我们对待基础架构就像许多公司对待他们的产品一样：它的界面必须简洁，必须兼顾功能性和可用性。我们会使用一致的工具来统一管理所有服务器，并且尽可能地对他们进行相同的配置。

用于管理弹性伸缩组的Terraform配置文件片段。Terraform可以创建、修改或销毁正在运行的云资源来匹配配置文件。

我们使用Terraform来创建AWS的云资源（实例、网络路由、DNS记录等）。我们的云端节点和物理节点都运行Ubuntu系统，并使用Chef来做配置。为了实现加速，www.zr-kuka.com，我们使用Packer来预先制作集群镜像（AMI）。我们的所有集群都使用非交叉的IP范围，用户可以通过笔记本上的OpenVPN及物理节点上的strongSwan（AWS的客户网关）连接到公网。

最后，我们将用户的home目录、数据集和结果存储在NFS（基于物理硬件）和EFS/S3（基于AWS）上。

编排

可扩展的基础架构通常会使原本简单的用例复杂化。我们在对不同规模作业的基础架构研究上投入了同等的精力，也在同步优化工具套件，使得分布式的用例能像本地用例一样好用。

我们为随机实验提供了SSH节点的（有些有GPU有些没有）集群，并且使用Kubernetes来调度物理节点和AWS节点。我们的集群横跨3个AWS域因为有时任务量会突然爆发，从而占满单个区域的所有资源。

Kubernetes要求每一个任务都是一个Docker容器，这样就可以实现依赖隔离和代码快照。但是创建一个新的Docker容器会增加迭代周期的时间，库卡机器人何服电机维修，这个时间十分宝贵，所以我们也提供工具，将研究人员笔记本上的代码转成标准镜像。

TensorBoard中的模型学习曲线

免责声明：本网部分文章和信息来源于互联网，本网转载出于传递更多信息和学习之目的。如转载稿涉及版权等问题，请立即联系网站所有人，我们会予以更改或删除相关文章，保证您的权利。

上一篇：论会玩还是日本民众丰田机器人真是够骚气了
下一篇：想让孩子远离网络伤害？这个AI线上保姆可以为他们撑起“保护

400-878-2528

想独立开展深度学习研究，你准备好了吗？

相关阅读：