(转载:www.idcew.com) 人工智能革命即将来临。所有行业的组织都在采用人工智能来应对业务挑战,包括提高效率、执行深入的预测分析和改善客户体验。当公司准备好他们的人工智能策略时,选择it和数据中心合作伙伴包括他们的托管(colo)解决方案就变得至关重要。
然而,并不是所有的托管设施都准备支持人工智能。与传统工作负载相比,人工智能需求对数据中心的要求不同。随着新的人工智能应用需要更高水平的计算能力,用电量和热量也随之增加。高密度工作负载需要专门的电源和冷却需求。
技术的进步提高了什么是“高密度”的标准,因此随着时间的推移,我们可以预期这一标准会提高。1961年,德国物理学家Rolf Landauer提出了一个理论证明,现在被称为Landauer原理,证明每千瓦时可以处理多少计算是有上限的。从根本上讲,计算机必须在物理定律的范围内运行,额外的计算能力会导致更高的能量消耗和产生更多的热量。使colo环境“为ai做好准备”的是它支持高密度工作负载的能力,并具有先进的冷却能力,以保持它们的稳定和运行。当根据这些标准进行评估时,大多数科洛设施都不能胜任这项任务。
对人工智能的正确支持
使colo设施ai就绪的许多细节传统上受到其功率密度和冷却能力的物理限制;然而,用户体验和保证的正常运行时间也是成功的数据中心解决方案的重要组成部分。当您考虑为您的人工智能应用程序提供托管服务时,请根据以下标准评估您的潜在客户,以帮助促进成功的部署。
处理能力
人工智能需要大量的处理能力。如果不是采用创新的技术方法来处理解决方案,企业将面临计算时间过长的风险,这可能会导致糟糕的用户体验和失去机会。gpu(图形处理单元)的出现为训练复杂的人工智能模型提供了突破性的性能,而其他平台所花费的时间只有一小部分。现代的人工智能设备正在利用gpu加速应用,并为未来的指数级处理机会做好计划。
例如,nvidia的dgx-1服务器使用gpu可以比仅使用cpu的服务器学习速度快140倍。使用DGX-1,只需711小时的CPU服务器就可以在5个多小时内完成深度学习培训。这相当于性能超过1petaflop,而nvidia的dgx-2产品提供了超过2petaflop。这些绩效水平直接转化为IT团队增加的机会和对业务目标的更好贡献。
电源管理
随着人工智能的普及,数据中心的能源效率变得越来越重要。机器学习应用需要大量的训练数据和复杂的算法才能获得满意的结果,并且随着密度的增加,功耗需求急剧增加。
人工智能工作负载所需的能量远远大于7千瓦每机架,这被认为是许多数据中心的平均目标。对于一个人工智能应用来说,每个机架使用30千瓦以上的功率并不是闻所未闻的,因此每个机架的功率需求很容易超过标准数据中心所能提供的。再加上减少停机时间所需的冗余电源,很明显,人工智能应用程序需要持续、可靠的能源——大量的能源会迅速增加开支。与具有控制成本和有效管理用电的专门知识的colo提供商合作至关重要。
冷却要求
随着机架功率需求的增加,对高效冷却的需求也随之增加。据高德纳(gartner)称,由于人工智能驱动的工作负荷密度增加,到2020年,超过30%的数据中心将不再经济运行。如果您的托管环境不准备支持冷却功能以达到所需的ai应用程序阈值,那么您的基础设施很可能不会准备支持您未来的计算。
不断增长的工作负载需要更多的资源来维持服务器运行所需的较低温度。风机冷却在16千瓦及以上时变得更加困难,但对于许多高密度应用来说是不够的;较高的功耗表明需要替代冷却方法,以防止设备故障并确保高效运行。
数据中心前沿报告称,在数据中心行业,液体冷却的增长是一个渐进(但值得注意)的趋势。液体冷却通常使用水;这些冷却系统的工作方式取决于具体的系统。一些解决方案 (转载:www.idcew.com) |