干货 | 加速AI发展!一文了解GPU Computing

  • 时间:
  • 浏览:1

NVIDIA于2018年3月在GPU技术大会上推出了HGX-2 平台,以及以HGX-2为架构的 DGX-2服务器。它是一件高密集,强性能并具有极佳的热性能的电子产品。DGX-2架构的核心是NVSwitch内存內部,本质上,NVSwitch內部为GPU节点创建了一5个 512 GB的巨大的共享内存空间,以 10 千瓦的功耗,在TensorCore上达到近2Petaflops的算力。

1. 推荐引擎

3. 自动驾驶

HGX-2 平台的内嵌 NVSwitch 拓扑內部的框图(图源:NextPlatform)

还后能 了 怎么才能 才能 把某些看似高高在上的人工智能算法和还比较昂贵的算力,以及真难获取的数据,变得更加容易,这是我门我门我门 过去意味 做了的以及接下来的时间里要去做的工作。

人工智能比较常用的应用场景除了互联网之外,还有自动驾驶、医疗、电信等等。

如今,我门我门我门 还后能 使用Caffe、TensorFlow、Theano等等开源的深层学习平台来进行实现另一方的算法,也还后能 在CUDA上进行编程。人工智能研究领域的头部公司,我门我门我门 现在推荐的算法模型意味 达到了相当简化的程度,一5个 模型还后能 达到一5个 T甚至十有几个 T的规模,富含几十亿甚至上百亿个参数,数据量更是可想而知。前一天的模型训练起来难度就越发高。就是 ,三算就前一天纠缠在一块儿,互相有利于、互相提升。

过去是人找信息,现在则转变为信息找人。我门我门我门 意味 都用过快手意味 抖音这类的小视频APP,某些小视频的身旁,都在神经网络算法在支撑。你在使用一5个 推荐引擎的一块儿,意味 有几5个模型在对你进行评估,五年前意味 就是 sensing,感知你的需求,现在是从各种维度对你进行评估,多方面平衡,不光要吸引人点击,时需你等待的图片 足够长的时间;而吸引人点击和吸引人等待的图片 的算法又有很大的差别。

在这前一天,我门我门我门 经历了近似寒武纪时期的神经网络模型大爆发的时代。2012年前一天,我门我门我门 我我觉得一直在研究,就是 还后能 了 足够的算力来支撑某些算法,就是 新的计算法子GPU Computing的再次跳出,支撑了这类型的神经网络模型的训练;从而促成了各种模型的爆发式增长,进而进入到人工智能的时代。

我门我门我门 都知道著名的摩尔定律,其内容是当价格不变时,集成电路上可容纳的元器件的数目,约每隔18-25个 月便会增加一倍,性能也将提升一倍。换言之,每一美元所能买到的电脑性能,将每隔18-25个 月翻一倍以上。某些定律揭示了信息技术进步的波特率单位。就是 根据OPEN AI的今年年初的测算,从AlexNet再次跳出前一天,到去年年底一共至少5年的时间,在人工智能模型的训练层面,我门我门我门 对于计算力的需求提升了1000万倍。

目前来说,人工智能的应用场景比较多的集中在Consumer Internet,国内以BATJ、TMD为代表,美国主就是 方佳、苹果4 手机、微软和Netflix等等。某些公司是人工智能领域的第一批先锋,我门我门我门 在某些领域投入了多量的资金,堆积了就是 的算力,把业内最有名的博士都招到我门我门我门 公司,我门我门我门 的每一5个 服务动辄就每天上亿的使用量(DAU,Daily Active User),就是 又下发了多量的数据。李彦宏在2018 Create百度开发者大会上提到一5个 Intelligent Chasm的概念,还后能 理解为智能沟壑,说的是和某些头部公司所堆积的算力以及数据相比,全球某些所有公司的算力加起来意味 也就是 跟我门我门我门 差太大的规模,甚至还不如。某些算力和数据的差距像天堑一样。



本文来自云栖社区相互合作伙伴“人工智能学家”,了解相关信息还后能 关注“人工智能学家”。



二、AI行业案例分享

原文发布时间为:2018-09-3

英伟达™精视™ (NVIDIA® GeForce®) GTX 51000

国内几乎所有大的互联网公司,都在训练另一方的推荐模型,做到千人千面。推荐对于某些公司是非常重要的,意味 互联网变现几乎都和推荐有关,电商类都在就是 ,食品拈连如国内的快手、抖音,国外的Netflix、Hulu,资讯类的比如Google news、今日头条,还有音乐类,社交类等等。用户的使用又在给公司提供新的数据,还后能 用于训练更有效的模型。某些方面提升了用户体验,但另一方面意味 造成用户无法脱离某些产品。

我门我门我门 都知道在摩尔定律的初期25年间,实现了性能5年10倍,25年30万倍的提升。这是摩尔定律在CPU年代为我门我门我门 带来的计算力的提升。就是 这对于人工智能模型对计算力的需求是远远存在问题的。就是 ,为了满足某些计算力的需求,我门我门我门 不断地在GPU层面打磨我门我门我门 的技术,提升各方面的性能。在前一天的基础之上,我门我门我门 也看完太大的人结束了了基于CUDA去编程训练另一方的模型,Google、Facebook等也基于CUDA构建另一方的开源深层学习平台。



我门我门我门 现在的做法是把实车里的模型拿到server farm里,让他在服务器里的深层仿真的模拟环境下进行训练,在训练的过程中产生新的数据,就是 用某些数据再去训练新的模型。通过某些做法来尝试加速对自动驾驶车辆模型的训练。

Alex用CUDA重新对他的模型进行编程,就是 买了两块当时非常强大的显卡GTX51000,花了6天时间训练AlexNet,就是 不断调优和完善。已经 参加了李飞飞主导的ImageNet大赛,就是 获得了当年的冠军。AlexNet当时有利于达到的图像识别精度,遥遥领先于第二名。大赛前一天,Alex和他的导师Hinton成立了公司,某些公司十有几个 月前一天被Google以4亿美金收购。这是一5个 靠GPU创富的故事,还后能 看完,GPU与深层神经网络的第一次结合创造了4亿美金的价值。

在国内,有利于通过视网膜扫描来进行诊断的医生比较少;就是 在国内,偏离 医生是还后能 了下诊断的。通深会层学习技术,还后能 将某些医生的经验进行下发,从而辅助诊断。目前这项技术还真难应用到医院里,就是 某些保险公司非常愿意通过某些技术,来获得客户患病概率的某些信息,从而辅助制定保单金额。

我门我门我门 意味 都听说过Alex Krizhevsky,他在博士期间设计了人类历史上第一5个 真正意义上的深层神经网络AlexNet——一共是5个学习层,富含六千万个参数。他的导师Hinton(被称为“神经网络之父”)都在就是 支持他将某些作为博士论文的研究方向,意味 当时的计算都在基于CPU的计算法子,前一天的神经网络模型训练一次就要十有几个 月的时间;就是 要手动调参,再重新训练,前一天反复下来,愿意得到一5个 靠谱的神经网络模型,至少时需几十遍;运气好的前一天十几遍的训练次数,愿意味 宜数十年的时间。就是 Alex作为一5个 典型的Geek都在就是 放弃,在学习数学之余他还学习了多量与编程相关的知识,其中就包括CUDA。

2. 医疗

图源:pixabay.com

CUDA是NVIDIA创造的一5个 并行计算平台和编程模型。它利用图形处里器(GPU)能力,实现计算性能的显著提高。NVIDIA是在10006年推出的CUDA,自那前一天,股价从最初的7美元一路攀升到现在的21000多美元。

以TensorRT为例,NVIDIA TensorRT是一种生活高性能神经网络推理(Inference)引擎,用于在生产环境中部署深层学习应用线程,应用有图像分类、分割和目标检测等,可提供最大的推理吞吐量和波特率单位。TensorRT是第一款可编程推理加速器,能加速现有和未来的网络架构。通过TensorRT的大幅度加速,服务提供商有利于以经济实惠的成本部署某些计算密集型人工智能工作负载。

在AI应用场景的分享前一天,主讲人赵立威还向我门我门我门 删改介绍了NVIDIA的新品Quadro RTX,它有利于帮助游戏和电影行业实现实时的光线追踪和渲染。最后,他以英伟达在硅谷的新办公大楼“Endeavor”和“Voyager”作结,表达了英伟达在人工智能领域将不断努力,并期待人工智能技术带领人类走入未知领域的愿景。

所谓GPU Computing都在一5个 单单拼硬件的事,怎么才能 才能 来把某些算力用到人工智能算法和实际应用场景下才是大多数人应该关注的重点。我门我门我门 提到英伟达意味 都我我觉得是一家芯片公司,但我我我觉得我门我门我门 公司全球一共至少有一万两千人;其中一万一千人都在工程师,在某些工程师里,七千个都在软件工程师,我门我门我门 一块儿来搭建和完善基于GPU Computing的人工智能生态。

为了进行自动驾驶的研发,英伟达有另一方的一5个 server farm。某些server farm内有 10000台DGX-1,具有一5个 E(1E=1024P=1024*1024T)的浮点运算能力,用于自动驾驶模型的训练。1公里车在外面跑一天,会产生上T的数据量,一年意味 是上P的数据量。但即使是前一天,仅仅靠实车上路下发数据也远远存在问题,根据估算,自动驾驶车辆至少要跑30万英里,有利于勉强满足上路的标准。就现在而言,自动驾驶的车辆脱把率都在就是 高,Google的自动驾驶车辆至少是几千英里时需扶一次方向盘,某些的具体情况也基本一样。

以视网膜扫描为例。我门我门我门 常说眼睛是心灵的窗户,事实上眼睛也是身体的窗户,人眼的视网膜上分布着充沛的毛细血管,通过扫描视网膜,还后能 检测到人身体上的某些难题,比如糖尿病的次生灾害之一就是 视网膜的病变,以及心血管疾病。

在英伟达初创加速计划的会员中,有很大一偏离 都在人工智能+医疗的项目。医疗项目的一大挑战是诊断。目前来讲还是真难通深会层学习来做诊断,但市场仍然很大。根据某些相关报告上的数据,对于某些慢病诊断,使用深层学习算法进行辅助前一天,还后能 将准确率提高1000%-40%,一块儿成本下降一半。