tensorrt加速(NVIDIA与VMware合作将GPU加速带进虚拟化应用提升云端协作效率)-国际网络专线

NVIDIA与VMware合作将GPU加速带进虚拟化应用提升云端协作效率

NVIDIA宣布加入支援vSphere、vCenter或vMotion，将可透过NVIDIAGPUCloud串接使用者从自有伺服器到VMwareCloudonAWS在内GPU加速需求，并且让NVIDIA的GPU虚拟化技术应用到更广泛领域，除了应用在科学研究、数据分析或人工智慧领域，更可针对布署在云端的现代化应用服务运作进行加速。

在此次VMWorld2019开始前，NVIDIA宣布针对人工智慧、学习训练与资料分析等需求，打造名为vComputeServer的应用服务，并且将NVIDIAGPUCloud、NGCContainers，甚至可将GPU加速平台RAPIDS在内资源带进VMware与AWS合作的云端服务－VMwareCloudonAWS，让更多科学研究、数据分析、人工智慧技术应用能借由虚拟化GPU进行加速。

相比过往借由云端协同运算，多半会因为云端服务采用的CPU运算阵列效能限制，使得运算效能不如预期，甚至无法对应资料量越来越庞大的运算需求。因此，NVIDIA在此次VMWrold2019与WMware的合作，并将GPU虚拟化应用带进VMware所提供服务，其中包含在VMware提供的vSphere整合名为vComputeServer的应用服务，同时也串接NVIDIAGPUCloud运算资源。

在此项合作里，将可让原本运用vSphere虚拟化平台的运算模式串接GPU运算资源，让vSphere平台产生的虚拟化机器可额外配置一张或多张虚拟化GPU，同时借由GPU加速整体运算效率，使得人工智慧学习、研究分析效率可大幅提升。除此之外，借由此项合作，使用者将能以更具弹性方式调用GPU加速运算资源，而不一定必须建置自有GPU加速资源。

相比部分企业会在自有数据伺服器整合GPU加速资源，借此让整体数据运算效率提升，但难免必须承担建置与维护成本，同时仍可能面临运算规模成长时，必须有更大运算效能支撑的情况。因此，NVIDIA从2017年提出NVIDIAGPUCloud服务，并且标榜能串接GoogleCloud、AWS、阿里云、DGX、OracleCloud等云端平台，透过GPU虚拟化方式协助推动更大运算规模，同时缩减运算所需时间。

而在今年的GTC2019期间，NVIDIA更提出全新CUDA-XAI加速演算平台，透过Turing显示架构、TensorRT运算框架，并且可相容TuringTensorCores设计，进而推动各类人工智慧运算模型，NVIDIA强调约可带来50倍以上的加速运算效果，并且带来更大的人工智慧运算应用成长推力。

此次宣布加入支援vSphere、vCenter或vMotion，将可透过NVIDIAGPUCloud串接使用者从自有伺服器到VMwareCloudonAWS在内GPU加速需求，并且让NVIDIA的GPU虚拟化技术应用到更广泛领域，除了应用在科学研究、数据分析或人工智慧领域，更可针对布署在云端的现代化应用服务运作进行加速。

就NVIDIA说明，过去已经在GPU虚拟化技术投入深度发展，例如早期借由GRID技术建立的虚拟化PC，以及后来推动的虚拟化工作站，让GPU虚拟化能应用在更进阶的专业绘图应用，甚至支援专业数据分析、机器学习、人工智慧、深度学习，或是超算领域等应用，另外也能对应各类伺服器运算加速，并且确保运算资源能即时无缝串接、整合。

相比单纯以CPU阵列加速模式，借由GPU加速约可提升50倍以上的深度学习效率，同时也能确保资料校正，或是降低资料比对错误机率，另外借由GPU虚拟化也能减少企业必须自行建置硬体设备成本，而NVIDIA更提供可依照运算需求选择使用NVIDIAT4、V100，或是采用QuadroRTX8000、6000在内Turing显示架构GPU，甚至也能选择以Pascal显示架构打造的P40、P100与P60作为GPU虚拟化应用。

高性能计算主要是研究什么的？

高性能计算主要研究方向有四个方面：高性能计算理论基础；高性能计算系统；高性能计算系统的设计；高性能计算驱动力。高性能计算机的发展趋势主要表现在网络化、体系结构主流化、开放和标准化、应用的多样化等方面。网络化的趋势将是高性能计算机最重要的趋势，高性能计算机的主要用途是网络计算环境中的主机。

蓝海大脑高性能计算一体机融合计算、网络、存储、 GPU、虚拟化的异构计算水冷服务器，支持主流虚拟化平台如Vmware、Redhat、Microsoft Hyper-V 等，支持在线压缩、重复数据自动删除、数据保护、容灾备份及双活等功能，引领高性能计算行业以节能、绿色、低碳、静音的发展方向为宗旨。

型号蓝海大脑高性能计算服务器

英特尔

处理器 Intel Xeon Gold 6240R 24C/48T,2.4GHz,35.75MB,DDR4 2933,Turbo,HT,165W.1TB

Intel Xeon Gold 6258R 28C/56T,2.7GHz,38.55MB,DDR4 2933,Turbo,HT,205W.1TB

Intel Xeon W-3265 24C/48T 2.7GHz 33MB 205W DDR4 2933 1TB

Intel Xeon Platinum 8280 28C/56T 2.7GHz 38.5MB,DDR4 2933,Turbo,HT 205W 1TB

Intel Xeon Platinum 9242 48C/96T 3.8GHz 71.5MB L2,DDR4 3200,HT 350W 1TB

Intel Xeon Platinum 9282 56C/112T 3.8GHz 71.5MB L2,DDR4 3200,HT 400W 1TB

AMD

处理器 AMD锐龙Threadripper Pro 3945WX 4.0GHz/12核/64M/3200/280W

AMD锐龙Threadripper Pro 3955WX 3.9GHz/16核/64M/3200/280W

AMD锐龙Threadripper Pro 3975WX 3.5GHz/32核/128M/3200/280W

AMD锐龙Threadripper Pro 3995WX 2.7GHz/64核/256M/3200/280W

AMD锐龙Threadripper Pro 5945WX 4.1G 12核/64M/3200/280W

AMD锐龙Threadripper Pro 5955WX 4.0G 16核/64M/3200/280W

AMD锐龙Threadripper Pro 5965WX 3.8G 24核/128M/3200/280W

AMD锐龙Threadripper Pro 5975WX 3.6G 32核/128M/3200/280W

AMD锐龙Threadripper Pro 5995WX 2.7G 64核/256M/3200/280W

显卡 NVIDIA A100×4, NVIDIA GV100×4

NVIDIA RTX 3090×4, NVIDIA RTX 3090TI×4,

NVIDIA RTX 8000×4, NVIDIA RTX A6000×4,

NVIDIA Quadro P2000×4,NVIDIA Quadro P2200×4

硬盘 NVMe.2 SSD: 512GB，1TB； M.2 PCIe – Solid State Drive (SSD),

SATA SSD: 1024TB, 2048TB, 5120TB

SAS:10000rpm15000rpm,600GB,1.2TGB,1.8TB

HDD : 1TB，2TB,4TB,6TB,10TB

外形规格立式机箱

210尺寸mm（高*深*宽) : 726 x 616 x 266

210A尺寸mm（高*深*宽) : 666 x 626 x 290

210B尺寸mm（高*深*宽) : 697 x 692 x 306

tensorrt加速(NVIDIA与VMware合作将GPU加速带进虚拟化应用提升云端协作效率)

声卡：7.1通道田声卡

机柜安装 : 前置机柜面板或倒轨（可选）

电源功率 : 1300W×2; 2000W×1

软件环境可预装 CUDA、Driver、Cudnn、NCCL、TensorRT、Python、Opencv 等底层加速库、选装 Tensorflow、Caffe、Pytorch、MXnet 等深度学习框架。

前置接口 USB3.2 GEN2 Type-C×4

指承灯电和硬盘LED

灵动扩展区 : 29合1读卡器，eSATA，1394，PCIe接口（可选）

读卡器 : 9合1SD读卡器（可选）

模拟音频 : 立体声、麦克风

后置接口 PS2接口 : 可选

串行接口 : 可选

USB3.2 GEN2 Type-C×2

网络接口 : 双万兆 (RJ45)

IEEE 1394 : 扩展卡口

模拟音频 : 集成声卡 3口

连接线专用屏蔽电缆（信号电缆和电源电缆）

资料袋使用手册、光盘1张、机械键盘、鼠标、装箱单、产品合格证等再不明白自己去百度下。

NVIDIA 、 VMware 携手，使混合云运算也能应用虚拟 GPU 资源大幅加速运算

NVIDIA藉VMware年度大会VMWorld举办之际宣布两大重要技术，其一是宣布名为vComputeServer的虚拟化运算伺服器，另一项则是携手VMware、AWS，将基于GPU加速平台的资源整合到VMwareCloudonAWS混合云服务，使科学研究、数据分析、AI等，可在云端透过GPU虚拟化技术进行。

▲vComputeServer的目的是将GPU虚拟化技术带到云端协同运算

虽然GPU虚拟化技术行之有年，不过传统的云端协同运算仍是基于CPU进行，但对于现代化的运算内容却已经不敷使用，而vComputeServer即是将GPU虚拟化带到云端协同运算中的概念，透过与VMware的合作，使VMware的vSphere虚拟化平台可运用GPU资源进行运算，能够在vSphere平台的虚拟机器搭配一张甚至多张虚拟GPU资源，还可串接NVIDIAGPUCloud的运算资源。

▲VWmare与NVIDIA让VMwareCloudonAWS混合云也能使用虚拟GPU

借由两者的合作，在这些虚拟机器环境中能够借由加入虚拟化GPU提升在现代运算应用的性能，例如AI、科学研究等应用；此举有助于降低企业在面临自有伺服器性能不足、意图结合云端虚拟化服务扩充性能时，可利用具备虚拟化GPU的vComputeServer进行协同运算，降低企业的建置与维护成本，又具备临时调度性能的弹性。

▲可依运算量、运算类型在虚拟机器搭配合适的虚拟化GPU

另一项宣布的重点，则是使GTC2019所公布的CUDA-XAI平台能够串接VMware的vSphere、vCenter与vMotion等服务，利用结合新一代Turing图灵架构的新技术、TensorCore与结合TensorRT框架等，取得更强的运算力，在此次宣布后，使用者能透过NVIDIAGPUCloud将自有的伺服器与VMwareCloudonAWS连接进行加速。

▲虚拟GPU为企业使用混合云带来更强的运算力

使用者可依照运算的类型不同，自VMwareCloudonAWS调度NVIDIAT4、QuadroRTX8000、QuadroRTX6000等图灵架构GPU，Volta架构的TeslaV100，或是选择Pascal世代架构的TeslaP40、TeslaP60、TeslaP100等虚拟化GPU搭配。NVIDIA强调，在结合虚拟GPU后，可望将运算性能提升约50倍以上，更在AI相关的训练与推论项目获得显著的加速。

为什么需要GPU来处理高性能计算？

高性能计算(HPC) 指通常使用很多处理器（作为单个机器的一部分）或者某一集群中组织的几台计算机（作为单个计算资源操作）的计算系统和环境。有许多类型的HPC 系统，其范围从标准计算机的大型集群，到高度专用的硬件。大多数基于集群的HPC系统使用高性能网络互连，比如那些来自 InfiniBand 或 Myrinet 的网络互连。基本的网络拓扑和组织可以使用一个简单的总线拓扑，在性能很高的环境中，网状网络系统在主机之间提供较短的潜伏期，所以可改善总体网络性能和传输速率。

基于GPU的通用计算已成为近几年人们关注的一个研究热点。将GPU用于通用计算的主要目的是为了加速计算，加速的动力来自GPU在高性能计算方面所具有的优势。

（1）高效的并行性。

通过GPU多条绘制流水线的并行计算来体现的。百度下在目前主流的GPU中，多条流水线可以在单一控制部件的集中控制下运行，也可以独立运行。GPU的顶点处理流水线使用MIMD方式控制，片段处理流水线使用SIMD结构。相对于并行机而言，GPU提供的并行性在十分廉价的基础上，为很多适合于在GPU上进行处理的应用提供了一个很好的并行方案。

（2）高密集的运算。

GPU通常具有128位或256位的内存位宽，因此GPU在计算密集型应用方面具有很好的性能。

（3）超长图形流水线。

GPU超长图形流水线的设计以吞吐量的最大化为目标，因此GPU作为数据流并行处理机，在对大规模的数据流并行处理方面具有明显的优势。

CPU中的大部分晶体管主要用于构建控制电路（如分支预测等）和Cache，只有少部分的晶体管来完成实际的运算工作。GPU与CPU的设计目标不同，其控制电路相对简单，而且对Cache的需求较小，所以大部分晶体管可以组成各类专用电路和多条流水线，使GPU的计算速度有了突破性的飞跃，拥有惊人的处理浮点运算的能力。

正是由于GPU在并行处理和计算密集型问题求解等方面所具有的诸多优势，GPU已成为目前普通PC机所拥有的强大、高效的计算资源。从系统架构上看，GPU是针对向量计算进行了优化的高度并行的数据流处理机。这种以数据流作为处理单元的处理机，在对数据流的处理上可以获得很高的效率。

蓝海大脑高性能计算GPU服务器兼容的部件会依据产品兼容性的改善和技术演进存在增加或正常的替换，由3个节点以上构成，也可1-2节点。为保证性能，SAS HDD的数量应为SSD的2倍或更多，工作温度、噪音、功率等适应性依据配置。整机尺寸可依配置做适应性调整。更好地为生命科学、医药研发、元宇宙、大数据、地质遥感、高性能计算等行业服务。

型号蓝海大脑高性能计算服务器

英特尔

处理器 Intel Xeon Gold 6240R 24C/48T,2.4GHz,35.75MB,DDR4 2933,Turbo,HT,165W.1TB

Intel Xeon Gold 6258R 28C/56T,2.7GHz,38.55MB,DDR4 2933,Turbo,HT,205W.1TB

Intel Xeon W-3265 24C/48T 2.7GHz 33MB 205W DDR4 2933 1TB

Intel Xeon Platinum 8280 28C/56T 2.7GHz 38.5MB,DDR4 2933,Turbo,HT 205W 1TB

Intel Xeon Platinum 9242 48C/96T 3.8GHz 71.5MB L2,DDR4 3200,HT 350W 1TB

Intel Xeon Platinum 9282 56C/112T 3.8GHz 71.5MB L2,DDR4 3200,HT 400W 1TB

AMD

处理器 AMD锐龙Threadripper Pro 3945WX 4.0GHz/12核/64M/3200/280W

AMD锐龙Threadripper Pro 3955WX 3.9GHz/16核/64M/3200/280W

AMD锐龙Threadripper Pro 3975WX 3.5GHz/32核/128M/3200/280W

AMD锐龙Threadripper Pro 3995WX 2.7GHz/64核/256M/3200/280W

AMD锐龙Threadripper Pro 5945WX 4.1G 12核/64M/3200/280W

AMD锐龙Threadripper Pro 5955WX 4.0G 16核/64M/3200/280W

AMD锐龙Threadripper Pro 5965WX 3.8G 24核/128M/3200/280W

AMD锐龙Threadripper Pro 5975WX 3.6G 32核/128M/3200/280W

AMD锐龙Threadripper Pro 5995WX 2.7G 64核/256M/3200/280W

显卡 NVIDIA A100×4, NVIDIA GV100×4

NVIDIA RTX 3090×4, NVIDIA RTX 3090TI×4,

NVIDIA RTX 8000×4, NVIDIA RTX A6000×4,

NVIDIA Quadro P2000×4,NVIDIA Quadro P2200×4

硬盘 NVMe.2 SSD: 512GB，1TB； M.2 PCIe – Solid State Drive (SSD),

SATA SSD: 1024TB, 2048TB, 5120TB

SAS:10000rpm15000rpm,600GB,1.2TGB,1.8TB

HDD : 1TB，2TB,4TB,6TB,10TB

外形规格立式机箱

210尺寸mm（高*深*宽) : 726 x 616 x 266

210A尺寸mm（高*深*宽) : 666 x 626 x 290

210B尺寸mm（高*深*宽) : 697 x 692 x 306

声卡：7.1通道田声卡

机柜安装 : 前置机柜面板或倒轨（可选）

电源功率 : 1300W×2; 2000W×1

软件环境可预装 CUDA、Driver、Cudnn、NCCL、TensorRT、Python、Opencv 等底层加速库、选装 Tensorflow、Caffe、Pytorch、MXnet 等深度学习框架。

前置接口 USB3.2 GEN2 Type-C×4

指承灯电和硬盘LED

灵动扩展区 : 29合1读卡器，eSATA，1394，PCIe接口（可选）

读卡器 : 9合1SD读卡器（可选）

模拟音频 : 立体声、麦克风

后置接口 PS2接口 : 可选

串行接口 : 可选

USB3.2 GEN2 Type-C×2

网络接口 : 双万兆 (RJ45)

IEEE 1394 : 扩展卡口

模拟音频 : 集成声卡 3口

连接线专用屏蔽电缆（信号电缆和电源电缆）

资料袋使用手册、光盘1张、机械键盘、鼠标、装箱单、产品合格证等{变量12}

TensorRT 4是什么应用平台

根据老黄的介绍，TensorRT 4是一款应用平台，并且TensorRT 4应用平台是能够进行可编程的，大大给开发者带来了便利。

据悉，利用TensorRT 4可编程平台来进行编程操作，就能够快捷地将已经训练好的神经网络快速部署到NVIDIA的GPU上，方便快捷。

新版的TensorRT 4应用平台也同时能够支持INT8以及FP16精度运算，并且对于数据中心的功耗可以降低到70%。

此外，NVIDIA还会和谷歌进行相关的深度合作，旨在要想TensorRT 4整合到现在AI开源框架中去，并且加速AI应用的推广实行。

训练好的深度学习模型是怎么部署的？

先说结论：部署的方式取决于需求

需求一：简单的demo演示，只要看看效果的，像是学校里面的demo展示这种

caffe、tf、pytorch等框架随便选一个，切到test模式，拿python跑一跑就好，顺手写个简单的GUI展示结果

高级一点，可以用CPython包一层接口，然后用C++工程去调用

需求二：要放到服务器上去跑，但一不要求吞吐二不要求时延的那种，说白了还是有点玩玩的意思

caffe、tf、pytorch等框架随便选一个，按照官方的部署教程，老老实实用C++部署，例如pytorch模型用工具导到libtorch下跑（官方有教程，很简单）

这种还是没有脱离框架，有很多为训练方便保留的特性没有去除，性能并不是最优的；

另外，这些框架要么CPU，要么NVIDIA GPU，对硬件平台有要求，不灵活；还有，框架是真心大，占内存（tf还占显存），占磁盘

需求三：放到服务器上跑，要求吞吐和时延（重点是吞吐）

这种应用在互联网企业居多，一般是互联网产品的后端AI计算，例如人脸验证、语音服务、应用了深度学习的智能推荐等。由于一般是大规模部署，这时不仅仅要考虑吞吐和时延，还要考虑功耗和成本。所以除了软件外，硬件也会下功夫，比如使用推理专用的NVIDIA P4、寒武纪MLU100等。这些推理卡比桌面级显卡功耗低，单位能耗下计算效率更高，且硬件结构更适合高吞吐量的情况软件上，一般都不会直接上深度学习框架。对于NVIDIA的产品，一般都会使用TensorRT来加速（我记得NVIDIA好像还有TensorRT inference server什么的，名字记不清了，反正是不仅可以加速前传，还顺手帮忙调度了）。TensorRT用了CUDA、CUDNN，而且还有图优化、fp16、int8量化等。反正用NVIDIA的一套硬软件就对了

需求四：放在NVIDIA嵌入式平台上跑，注重时延

比如PX2、TX2、Xavier等，参考上面（用全家桶就对了），也就是贵一点嘛

需求五：放在其他嵌入式平台上跑，注重时延

硬件方面，要根据模型计算量和时延要求，结合成本和功耗要求，选合适的嵌入式平台。比如模型计算量大的，可能就要选择带GPU的SoC，用opencl/opengl/vulkan编程；也可以试试NPU，不过现在NPU支持的算子不多，一些自定义Op多的网络可能部署不上去对于小模型，或者帧率要求不高的，可能用CPU就够了，不过一般需要做点优化（剪枝、量化、SIMD、汇编、Winograd等）顺带一提，在手机上部署深度学习模型也可以归在此列，只不过硬件没得选，用户用什么手机你就得部署在什么手机上23333。为老旧手机部署才是最为头疼的上述部署和优化的软件工作，在一些移动端开源框架都有人做掉了，一般拿来改改就可以用了，性能都不错。

需求六：上述部署方案不满足我的需求

比如开源移动端框架速度不够——自己写一套。比如像商汤、旷世、Momenta都有自己的前传框架，性能应该都比开源框架好。只不过自己写一套比较费时费力，且如果没有经验的话，很有可能费半天劲写不好

------本页内容已结束，喜欢请分享------

感谢您的来访，获取更多精彩文章请收藏本站。

展开阅读全文

版权声明 1、本网站名称：国际网络专线
2、本站永久网址：https://urenkz.com
3、本网站的文章部分内容可能来源于网络，仅供大家学习与参考，如有侵权，请联系站长进行删除处理。
4、本站有关技术文章相关资讯不代表本站立场，也不代表本站赞同其观点和对其真实性负责。
5、本站一律禁止以任何方式发布或转载任何违法的相关信息，访客发现请向站长举报。

THE END