网络知识 娱乐 思腾合力高效助力中科院自动化所智能决策算力平台建设

思腾合力高效助力中科院自动化所智能决策算力平台建设

本次需要强大算力支持强化学习以满足兵棋智能推演,基本算法是所谓的策略网络,用来训练模仿人类行为,看过数百万计的对局后,目标学会提取特征、原则和经验法则。

项目背景及核心需求

中国科学院自动化研究所(以下简称自动化所)成立于1956年10月,是我国最早成立的国立自动化研究机构和最早开展类脑智能研究的国立研究机构。自动化所同时是中国科学院率先布局成立的“人工智能创新研究院”的总体牵头单位,“脑科学与智能技术卓越创新中心”的依托单位之一,也是国内外首个“人工智能学院”牵头承办单位,具有从智能机理、智能芯片、智能算法到智能系统完整的学科分布和优势领域。

随着深度学习、强化学习、人机协同等技术的快速发展,人工智能将成为未来战争的制高点。以 Al phaGo 为代表和标志的技术突破,预示着一种具有直觉、认知和自我进化能力的新的人工智能时代的到来,也预示着智能化时代可能很快即将到来。

思腾合力高效助力中科院自动化所智能决策算力平台建设

人机对抗首页 (ia.ac.cn)

本次需要强大算力支持强化学习以满足兵棋智能推演,基本算法是所谓的策略网络,用来训练模仿人类行为,看过数百万计的对局后,目标学会提取特征、原则和经验法则。算法在对局中的工作就是观察棋盘的状态,并产生一些看起来更有希望的步数提供给第二个算法考虑。第二个算法叫做价值网络,用来评估一个步数的取胜概率。机器会根据策略网络的建议,评估数以千计的走法。

思腾合力解决方案

解决方案

4节点 DGX A100

​200G ​IB组网

​千兆以太网管理

​AI ​SDK

​NGC

DGX A100发挥出了最新NVIDIA GPU的全部潜力,采用了最新的NVLINK3.0,而且单台设备中有6个NVSWITCH,使得8块卡实现全互联,卡与卡之间带宽高达600GB/s,同时,单卡显存高达80GB,单台设备总显存640GB,相比其他基于GPU的系统,DGX A100对于主流的AI框架做了优化,并且依托于最新的Tensorcore,可实现5P的AI算力。

思腾合力高效助力中科院自动化所智能决策算力平台建设

现场实施图片

NVIDIA A100 Tensor Core GPU 可针对 AI、数据分析和高性能计算 (HPC) 实现出色的加速,应对极其严峻的计算挑战。借助第三代 NVIDIA Tensor Core 提供的巨大性能提升,A100 GPU 可高效扩展至数千块,或在使用多实例 GPU 时,可将其分配为七个较小的专用实例对各种规模工作负载进行加速。

思腾合力高效助力中科院自动化所智能决策算力平台建设

多实例 GPU (MIG)

​借助 MIG,可将 DGX A100 中的八块 A100 GPU 配置为多达 56 个 GPU 实例,每个实例都具有自己的高带宽内存,高速缓存和计算核心,完全隔离。这使管理员可合理调配 GPU 资源,确保多个工作负载的服务质量。

新一代 NVLink 和 NVSwitch

DGX A100 中的第三代 NVIDIA® NVLink® 使 GPU 至 GPU 直接带宽提高一倍,达到600 GB/s,几乎比 PCIe 4.0 高出 10 倍。DGX A100 还采用新一代 NVIDIA NVSwitch™,其速度是前一代的两倍。

思腾合力高效助力中科院自动化所智能决策算力平台建设

Mellanox ConnectX-6 VPI HDR InfiniBand

DGX A100 采用最新 Mellanox ConnectX-6 VPI HDR InfiniBand/以太网适配器,每个适配器的运行速度高达200 Gb/s,为大规模 AI 工作负载创建高速网络结构。

思腾合力高效助力中科院自动化所智能决策算力平台建设

优化的软件堆栈

DGX A100 集成经过测试和优化的 DGX 软件堆栈,包括通过 AI 调整的基本操作系统、所有必需的系统软件以及 GPU 加速应用、预训练的模型以及 NGC™ 提供的更多功能。

思腾合力高效助力中科院自动化所智能决策算力平台建设

内置安全机制

DGX A100 采用多层方法为 AI 部署提供了最强大的安全性,该方法可以保护所有主要的硬件和软件组件,包括自加密驱动、签名软件容器、安全管理和监控等。

思腾合力高效助力中科院自动化所智能决策算力平台建设

客户收益

DGX A100 发挥出了最新 A100 GPU 的全部潜力,采用了最新的NVLINK3.0,而且单台设备中有 6 个 NVSWITCH,使得 8 块卡实现全互联,卡与卡之间带宽高达 600GB/s,相比其他基于 GPU 的系统,DGX A100 对于主流的 AI 框架做了优化,并且依托于最新的 Tensorcore,单台可实现 5P 的 AI 算力。

思腾合力专注人工智能领域,拥有自主品牌 AI 服务器及通用 X86 服务器,为 NVIDIA 精英级别的合作伙伴,公司扎根高性能计算领域多年,已经打造出了一套完全自主的软硬件结合的产品生态。能提供深度学习,GPU 高性能计算、虚拟化、分布式储存、集群管理等产品和整体解决方案,致力于成为行业领先的人工智能基础架构解决方案商。

目前,思腾拥有完善的研发、生产、制造基地,已形成以天津为生产基地、以北京为营销及研发中心、以南京、深圳、成都、武汉、西安、内蒙古覆盖全国主要区域的营销和售后服务机构,为更高效地服务客户提供了有力保障。

| 案例分享来自:客户成功部-售前组