GPU云服务器提供GPU加速计算能力,实现GPU计算资源的即开即用和弹性伸缩。作为阿里云弹性计算家族的一员,GPU云服务器结合了GPU计算力与CPU计算力,满足您在人工智能、高性能计算、专业图形图像处理等场景中的需求。

EGS平台介绍

GPU作为一种计算芯片,其优势非常明显,具有实时高速、强并行计算能力和强浮点计算能力等特点。阿里云弹性GPU服务EGS(Elastic GPU Service)将阿里云的弹性计算和GPU高速的并行异构加速器组合在一起,兼具弹性计算的特点和GPU的加速能力。

阿里云基于EGS平台推出了GPU云服务器,在提供GPU加速能力的同时,保留了与普通ECS实例一致的使用体验。您在创建ECS实例时,选择企业级异构计算规格即可。实例规格的详细信息,请参见实例规格族

功能特性

  • 高弹性提供系列化的规格族,分钟级创建GPU实例,支持水平扩容和垂直变配。
  • 高性能高安全性支持GPUDirect,GPU之间点对点通信。GPU可以直接通过NVLink总线互联通信,具备高带宽低时延的特点,无需CPU干预。多租户间弹性GPU安全隔离 ,并通过Hypervisor授权和管理。允许灵活配置多块GPU实现互相高速通信的同时,还具备隔离带来的安全性。
  • 易部署和阿里云生态深度融合,您可以轻松搭配其他阿里云产品构建应用,例如搭配OSS、NAS等产品满足存储要求,搭配EMR进行深度学习数据预处理等。支持云原生(阿里云Kubernetes),交付更加便捷。
  • 易监控提供全面的GPU监控数据,包括GPU、实例和分组维度,免去您的运维压力。详情请参见GPU监控

相关工具

阿里云提供以下工具,供您更高效地使用GPU资源:

  • 神龙AI加速训练引擎:阿里云自研的AI加速器,可以显著提升训练性能。更多信息,请参见使用神龙AI加速训练引擎
  • 神龙AI加速推理引擎:阿里云自研的AI加速器,可以显著提升推理性能。更多信息,请参见使用神龙AI加速推理引擎
  • cGPU:隔离GPU资源,实现多个容器共用一张显卡。更多信息,请参见使用cGPU服务隔离GPU资源
  • FastGPU:阿里云推出的人工智能计算任务构建工具,提供便捷的接口和命令行,供您在阿里云IaaS资源上构建人工智能计算任务。更多信息,请参见FastGPU构建一键训练任务