我可以: 邀请好友来看>>
ZOL论坛 > 技术论坛 > AI引爆算力需求,思腾推出支持大规模深度学习训练的高性能AI服务器
帖子很冷清,卤煮很失落!求安慰
返回列表
签到
手机签到经验翻倍!
快来扫一扫!

AI引爆算力需求,思腾推出支持大规模深度学习训练的高性能AI服务器

14浏览 / 0回复

qq_7i8748132...

qq_7i8748132246

0
精华
113
帖子

等  级:Lv.5
经  验:6150
  • Z金豆: 720

    千万礼品等你来兑哦~快点击这里兑换吧~

  • 城  市:广东
  • 注  册:2023-07-04
  • 登  录:2024-04-12
发表于 2024-02-22 09:27:33
电梯直达 确定
楼主

随着这些应用AIGC应用的发布,人工智能变成了街头巷尾人们热议的话题,英伟达CEO黄仁勋在2023年GTC开发者大会上发表了主题演讲时表示:“我们正处于AI的iPhone时刻。可见AIGC技术对社会的变革性影响,同时也引爆了AI行业对训练和推理的大模型需求。


AI引爆算力需求,思腾推出支持大规模深度学习训练的高性能AI服务器
AI引爆算力需求,思腾推出支持大规模深度学习训练的高性能AI服务器

思腾合力是一家人工智能基础架构解决方案供应商,公司成立于 2009年,在成立之初就一直致力于AI 行业,是英伟达的精英级合作伙伴,拥有自主品牌AI服务器及通用服务器,适用于深度学习训练及推理等场景,尤其是思腾合力自有产品IW4221-8GRs,一款专为AI大模型计算打造的新型GPU集群,接下来给大家介绍一下这款服务器的那些让人不可抗拒的优点:


第一 天花板级的算力配置



英伟达是行业翘楚,而A800又是英伟达的明星产品,其算力更是行业望其项背的存在,思腾合力IW4221-8GRs这款产品,单台服务就搭载了8个拥有第三代NVIDIA Tensor Core的A800 GPU单机可提供 5PFLOPS 的 AI 计算性能,比传统的双路 CPU 服务器提高 300 倍。


任意两个 GPU 之间可以直接进行数据 P 2 P 交互,GPU 间 P 2 P 通信速率为 400GB/s;具备更高的带宽和更低的延迟,可以依据不同需求完成GPU-GPU节点内部的高速互联,同时还能在GPU-CPU甚至CPU-CPU之间形成高速互联,特别是GPU与CPU之间的直接互连,提高了系统整体的性能和可扩展性。


搭载2颗Intel 高性能CPU原本,在CPU与GPU的极致配合下原本要花费10小时的双精度模拟过程缩短到4小时之内,多任务处理不卡顿,高效完成训练/推理任务,支持大规模的深度学习模型、高性能计算任务和机器学习工作负载。


第二 算力资源高效利用合理分配



运用英伟达的MIG技术可扩展 GPU 的应用范围,单张A800卡最多可被划分为7个实例,每个实例均完全独立于各自的高带宽显存、缓存和计算核心;且能为每项工作负载提供适当规模的 GPU 实例,最终优化利用率并使数据中心投资充分发挥成效


凭借 MIG确定性延迟和吞吐量,在单个 GPU 上同时运行推理、训练和高性能计算 (HPC) 工作负载每个 MIG 实例借助专用于计算、内存和缓存的硬件资源,从而能够提供稳定可靠的服务质量 (QoS) 和有效的故障隔离。

AI引爆算力需求,思腾推出支持大规模深度学习训练的高性能AI服务器

第三 极致的扩展性



单台服务器集成8通道内存控制器,32个内存插槽,速率最高支持3200,内存容量可扩展至4TB,最大支持 8 个热插拔 NVMe SSD 和 2 个 SATA 总线 M.2 SSD,10个PCIe 4.0 x16插槽,2个PCIe 4.0 x16插槽(PCIe 4.0 x8速率),1个OCP3.0插槽,最大支持 10 个 100G/200G 可远程直接内存访问(RDMA)高速网卡;用户可根据实际需求进行扩展,极大的提高的机器适用性。


第四 超强兼容性



X86 CPU 市场占有率超过90%,NVIDIA目前占据整个独立显卡市场的多达88%,上层软硬件应用基本与他们兼容为基础而进行开发,所以国内外主流软硬件及AI框架、工具、应用程序等都兼容。


第五 全方位的安全呵护



整机 6U 标准尺寸,3+3 冗余供电设计,使其适用于 更广泛的数据中心部署环境,为客户提供极高的可靠性和稳定性;支持可信平台模块(TPM 2.0)和可信密码模块(TCM),可提供高级加密功能。


支持Intel可信执行技术(Trusted Execution Technology),可基于硬件抵御恶意软 件攻击;支持 Intel SGX 技术(Software Guard Extensions),允许应用运行在自己的独立空间中,避免关键代码和数据被恶意窃取或修改;支持基于数字签名的固件更新机制,防止非授权固件的更新; 支持 UEFI 安全引导,保护系统免受恶意启动加载程序的侵害;支持 BIOS 分级密码保护,保证系统启动及管理安全;支持BIOS Secure Flash及Lock Enable(BLE)功能,消减恶意软件对 BIOS Flash 区域的攻击;支持 BMC、BIOS 双镜像机制,在检测到固件被破坏后进行恢复;支持 BMC 安全启动,防止 BMC 被恶意篡改; 支持灵活的 BMC 访问控制策略,提高 BMC 管理安全性。


第六 简约不简单的运维管理



技术人员可以通过 BMC Web 管理界面、故障诊断 LED 等指引设备进行整机管理,并 可通过前面板上的 UID 指示灯标记有故障的机器,快速找到已经发生故障(或者即将 发生故障)的组件,从而简化维护工作、加快解决问题的速度,并且提高系统可用性;通过 BMC 监控系统参数,提前发出告警信息,使技术人员能够采取相应措施,保证机器稳定运行; 配备 ISPIM 智能管理软件,实现服务器的集中管理,支持设备部件级资产管理、智能监控告警、自动巡检、故障诊断与报修、能耗管理、固件升级/配置等功能,实现服务器全生命周期管理。


高级模式
论坛精选大家都在看24小时热帖7天热帖大家都在问最新回答

针对ZOL论坛您有任何使用问题和建议 您可以 联系论坛管理员查看帮助  或  给我提意见

快捷回复 APP下载 返回列表