深度学习硬件配置

公司需要进行深度学习方面的探索,所以让我选择和配置机型,并安装当做前期开发使用。综合价格、GPU扩展4个、兼容性参考(https://pcpartpicker.com/)等因素买了以下的硬件,总价在39000元。

型号网址单价
1. CPUi7-7820x 816线程https://item.jd.com/5251872.html4499
2. 主板技嘉(GIGABYTE) X299-WU8https://item.jd.com/100001121024.html4798
3. GPU英伟达(NVIDIA) GeForce RTX 2080 Ti Founders Editionhttps://item.jd.com/8858025.html9999*2
4. 内存金士顿骇客神条DDR4 16G 2666https://item.jd.com/8391349.html789*2
5. 固态硬盘三星(SAMSUNG) 512Ghttps://item.jd.com/6680360.html1199
nvlink桥NVIDIA GEFORCE RTX NVLINK BRIDGE 4-SLOThttps://item.jd.com/100000971978.html699
6. 机械硬盘西部数据(WD)蓝盘 2TB https://item.jd.com/100000961842.html369
7. 散热器Tt(Thermaltake)蛟龙 360水冷https://item.jd.com/7763387.html879
8. 机箱美商海盗船AIR780T全塔https://item.jd.com/1209630.html1259
9. 电源美商海盗船USCorsair 1600whttps://item.jd.com/8850977.html3449

 


 

1. CPU

尽量选择PCIe较多的服务器版cpu。独立显卡、ssd等硬件基本使用PCIe传输,如果cpu本身PCIe通道多,在传输输信息时会更快,当只有一个GPU,PCIe通道的作用只是快速地将数据从内存传输到显存。但是网上也说影响不是太大,ImageNet里的32张图像(32x225x225x3)在16通道上传输需要1.1毫秒,在8通道上需要2.3毫秒,在4通道上需要4.5毫秒。这些只是是理论数字,实际上PCIe的速度只有理论的一半。PCIe通道通常具有纳秒级别的延迟,因此可以忽略延迟。

同时每个GPU至少4个线程,两个CPU核心;貌似提前准备好数据处理可以把上面的指标都降低到一半。我考虑价格和cpu核数之后买了这个老版的8核16线程处理器。

 

2. 主板

买了CPU之后芯片接口定下了LGA2066,主板的类型定下了X299,另外还需要能支持4GPU的PCIe数量和距离。在没有特殊散热的情况下,一般显卡需要占用两个PCIe插槽,所以使用的显卡是公版的牺牲了部分散热性。

 

3. GPU

显卡的计算能力决定了深度学习的速度,专业的显卡太贵,我们就在桌面显卡中看是否能挑一个性能较好的。显卡有些必要指标显存大于11G、CUDA的算力5以上、散热。bert模型要求显存大于11G,tensorflow现在的要求是CUDA算力在3.5以上,四块的显卡放在一起,主板是刚好满足,但是基本显卡之间没啥空余的位置,散热是一个大问题,当显卡过热降频,引发性能下降30%,那还达不到三块显卡性能。

以为主板的PCIe距离,装2块显卡可以买非公版,自带散热和超频等优化。当要装4块显卡,大小基本只能买公版的,所以买散热器也需要加强很多。

查了一下多块显卡nvidia提供共享内存的协议,买了一块nvlink桥,增加显存的共享,提高执行速度。

显卡的性能对比http://www.mydrivers.com/zhuanti/tianti/gpu/

显卡天梯图2019年2月
GeForce900GeForce1000GeForce2000显卡等级Radeon RX500Radeon R400Radeon R300
  RTX2080Ti    
 Titan V     
   高端   
 Titan XpRTX2080  Redeno Pro Duo
 GTX1080Ti    
      
      
  RTX2070RX Vega 64水冷 R9 295X2
GTX Titan Z  RX Vega 64  
 GTX 1080    
 GTX1070Ti    
   RX VEGA 56 R9 Fury X
 GTX 1070 RX 590(11月发布)  
     R9 Nano
      
 GTX1060 GDDR5X版 RX 580 R9 Fury
 GTX1060 6G   R9 390X
 GTX1060 5G 中端 RX 480R9 390
   RX580 2048SP  
 GTX1060 3G RX 570RX 470 
      
    RX 470D 
      
   RX 470D  
 GTX1050Ti   R9 380X
   RX 560 R9 380
GTX 960GTX1050 RX 560D  
   RX 560 2G版 R9 370X
GTX 950  RX 550  
    RX 460 4GB版R7 370
GTX 750Ti  低端 RX 460 2GB版 
   RX 540 R7 360
GTX 750GT1030    
      
      
     R7 350
     R7 340
      
     R5 230

 

4. 内存

内存考虑CPU的时钟频率就是DDR4-2666,大小必须是显存以上,现在的显卡为11G*2=22G,还有你使用的数据量,有些数据的处理工作比较耗费内存,所以买了16G*2。

 

5. 固态硬盘

在跑hadoop程序时发现磁盘的io一直拖慢了集群的性能,在模型迭代训练时,数据是分批次和多次重复读取,当数据增加时io也会增加模型计算时间,同时为了安装系统和计算框架等我选择512G的主流容量。

 

6. 机械硬盘

为了方便测试模型,我们使用Jupyter Notebook在服务器上测试,尽量数据一次性导入,我就另外配置了2T的磁盘。

 

7. 散热器

单个GPU风冷可以满足,价格及后期维护成本较低。当几个GPU时,必须使用水冷或者放在恒温机房靠近机房的风口位置,活着就是安装水冷,一般价格为700元一个GPU,还有CPU的部分。现在我的机器只有两个GPU准备放机房对空调对着方向,暂时只买了单个水冷和机箱上内置的风扇。

 

8. 机箱

机箱是考虑以后安装水冷和4*GPU的情况下,防止空间不够选择了全塔的,因为空间大了很多散热相对好一点,最好买游戏等性能机箱。

 

9. 电源

一个显卡的功率估计在300w,还有CPU功率在150w,另外还有风扇等配置为CPU和GPU的10%,300*4 + 150 + 135=1485,所以买了一个1600w的电源。

 

 

 

 

 

 

 

 

 

 

 


版权声明:本文为channelyoung原创文章,遵循CC 4.0 BY-SA版权协议,转载请附上原文出处链接和本声明。