图形工作站、集群应用方案
  • 网站首页
  • 商城
  • 产品
  • 行业计算
  • 科学工程计算
  • 化学&生物
  • 图形设计
  • 图像处理
  • 视景仿真
  • 人工智能
  • 影视后期
全球领先的高端图形工作站供应商

免费测试 热线 : 400-7056-800 【 为任何应用提供 最快计算设备 如不符,退货】【最新报价】【选购指南】【京东商城】



企业通用模版网站

  • 科研团队全能超算平台25v1
  • 超高分拼接 数字孪生
  • 科学计算MatLAB工作站24
  • 地质建模 油藏模拟工作站
  • 工业CT扫描 机器视觉计算
  • 电力系统关键应用配置24
  • 网站首页
  • 商城
  • 产品
  • 行业计算
  • 科学工程计算
  • 化学&生物
  • 图形设计
  • 图像处理
  • 视景仿真
  • 人工智能
  • 影视后期
  • 送无人机啦 8核6.4GHz  96核4.8GHz 加速改装 

  • 高性能集群 虚拟并行计算 芯片设计 光学仿真 

  • 蛋白质预测 生物信息 冷冻电镜 材料模拟

  • RSS订阅
  • 理科计算推荐
  • 仿真计算最快最完美25v1
  • 电磁仿真单机与集群25v1
  • 航拍实景建模单机集群
  • 遥感图像处理工作站集群
  • 4K/8K剪辑特效调色24v1
  • AI大模型工作站集群25v1
  • Abaqus硬件配置大全24v3
  • CST电磁仿真工作站25v1
  • 多物理场仿真单机与集群
  • 流体/空气动力学仿真25v1
  • 量子化学 分子动力模拟
  • 三维设计24v2  3D打印

 

您的位置:UltraLAB图形工作站方案网站 > 人工智能 > 深度学习 > 解锁最大推理能力:深入研究80GB A100 GPU 上的Llama2–70B

解锁最大推理能力:深入研究80GB A100 GPU 上的Llama2–70B

时间:2024-03-11 10:08:34   来源:UltraLAB图形工作站方案网站   人气:26333 作者:管理员

在不断发展的自然语言处理领域,模型的性能是最重要的问题。研究人员、工程师和数据科学家不断利用日益强大的硬件和复杂的算法突破可能的界限。其中一项追求是确定 Llama2-70B 等模型在专用硬件(如 80GB A100 GPU)上运行时的最大推理能力。在本文中,我们深入探讨了此类调查的理论、实践和结果。

为什么要研究推理能力?

出于多种原因,了解模型的最大推理能力至关重要。首先,它可以帮助研究人员和开发人员就模型部署做出明智的决策。了解模型在特定硬件上的限制对于高效资源分配和避免意外瓶颈至关重要。

其次,这些知识对于在实时应用程序中依赖自然语言处理模型的组织至关重要。聊天机器人、虚拟助理和自动化客户支持系统等应用程序需要模型能够快速、准确地做出响应。确定推理能力可确保这些应用程序能够有效地处理不同的工作负载。

Llama2–70B 型号

在本次研究中,Llama2-70B 模型占据了中心位置。Llama2–70B 是 Llama2 模型的变体,具有 4 位量化功能。术语“4 位量化”是指一种用于降低模型权重精度的技术,使模型的存储和计算效率更高,同时牺牲最小的精度。

理论与实践

为了测试 Llama2-70B 模型在 80GB A100 GPU 上的最大推理能力,我们要求一位研究人员部署 Llama2 模型并将其推向极限,以查看它到底可以处理多少个令牌。不同的输入标记长度对应于不同的近似字数。每次测试运行时都会监控并记录 GPU 使用情况。

我们还将其与理论计算进行了比较,看看它们在现实世界中的表现如何。

为了计算 Llama2 推理所需的内存,我们需要考虑以下两点:

1.模型权重所需的内存。

2. 推理过程中中间变量所需的内存。

模型权重所需的内存

在计算部署模型所需的 GPU 使用率时,我们主要考虑的是模型的参数大小。Llama2–70B 模型是一个拥有 700 亿个参数的大型语言模型。当我们使用 4 位量化时,这意味着每个参数将使用 4 位来存储。因此,对于 700 亿个参数,我们需要等于 70 * 1000000000 * 4 位的 GPU 内存。这大约相当于 35 GB。

中间变量所需的内存

在计算模型中推理所需的中间变量时,最重要的中间变量包括注意力机制中的Query、Key和Value矩阵,以及Query矩阵与Key矩阵相乘得到的Attention Weights矩阵。下表显示了这四个矩阵的形状及其在 Llama2-70b 模型中的实际大小。

 

由于本实验中输入的token长度超过2000,因此四个矩阵中内存密集的部分是注意力权重矩阵。在调试 HuggingFace 的代码来推断 Llama2-70b 模型时,观察到通过将 Query 矩阵与 Key 矩阵相乘来计算 Attention Weights 矩阵时,其 dtype 为 16 位,但在实际计算过程中使用了两次空间。此外,在 Softmax 计算期间,dtype 扩展到 32 位。因此,可以理解,模型实际推理时,需要四倍的16位Attention Weights矩阵。

因此,我们可以使用以下公式来估计中间变量所需的内存:

内存(以 GB 为单位):

= 4 * 16位注意力权重矩阵 / 8 / 1000 / 1000 / 1000

= 4 * 16 * 注意力权重矩阵的大小 / 8 / 1000 / 1000 / 1000

= 4 * 16 * (1 * 64 * 输入长度 * 输入长度) / 8 / 1000 / 1000 / 1000

= (4 * 16 * 64 / 8 / 1000 / 1000 / 1000) * 输入长度 * 输入长度

= 5.12 * 10e-7 * 输入长度**2

用于推理的总内存使用量

根据上面提到的模型权重和中间变量两部分,我们可以估计 GPU 的总使用量(以 GB 为单位):

总内存使用量 = 模型权重内存使用量 + 中间变量内存使用量

≈ 35 + 5.12 * 10e-7 * 输入长度**2

结果和启示

我们随后进行了实验来评估真实场景中 GPU 的使用情况。在我们的实验中,我们使用 HuggingFace 框架对 4 位量化的 Llama2-70b 模型进行推理。下表展示了不同负载下的GPU使用情况:

 

然后,我们将实际实验数据点(蓝色)与我们计算的理论使用曲线(红色)绘制在一张图表上,如下所示:

上图的结果可以清楚地了解 Llama2–70B 模型在 80GB A100 GPU 上的行为:

· 当不提供输入标记时,GPU 使用量约为 35.0 GB,这与我们计算的模型参数值相符。

· 我们可以看到我们测试的实际GPU使用率与我们计算的理论曲线非常吻合。随着输入令牌计数的增加,GPU 使用率呈二次方上升。这与我们理论计算公式中输入长度的二次项一致。

· 根据 GPU 的容量限制,最大推理能力达到约 8500 个令牌。

8500 个令牌的推理能力大致相当于 5100 个单词,代表 GPU 得到充分利用的时刻,输入令牌长度的进一步增加会导致 CUDA 内存不足错误。此外,该观察结果与理论理解相一致,即 Transformers 中的注意力机制是 Llama2-70B 等模型的关键组成部分,随着输入长度的增加,GPU 使用率会呈二次方增长。

基础 Llama2–70B 模型的上下文长度为 4096 个标记,因此该实验表明该模型可以轻松安装到一张 80Gb 卡上(使用 4 位量化)。然而,由于存在扩展可用上下文窗口的技术,因此了解一张卡可以处理的最大值极其重要,即使它超出了理论最大值。

结论

为了最大化自然语言处理模型的推理能力,理解模型架构和硬件之间的相互作用至关重要。在这项研究中,4 位量化的 Llama2-70B 模型在 80GB A100 GPU 上展示了大约 8500 个令牌的最大推理能力。

这一发现为旨在优化自然语言处理管道并确保在专用硬件上高效部署模型的从业者和组织提供了宝贵的见解。它还强调了仔细平衡模型复杂性和硬件资源以在实际应用中实现最佳性能的重要性。


信息来源:https://nigelcannings.medium.com/unlocking-maximum-inference-capability-a-deep-dive-into-llama2-70b-on-an-80gb-a100-gpu-2ab1158d6b0b



2023年人工智能训练与推理工作站、服务器、集群硬件配置推荐

https://xasun.com/article/110/2508.html






关闭此页
上一篇:700亿(70B)规模的多模态大模型微调和推理的硬件配置分析与推荐
下一篇:Llama-2 LLM的所有版本和硬件配置要求

相关文章

  • 05/13体系化仿真计算设备系统组成分析及工作站/服务器/存储配置推荐
  • 05/12AMD 第 6 代 EPYC Venice:发现 CCD 配置和线程性能
  • 05/12UltraLAB定制图形工作站产品介绍2025v2
  • 05/09Xeon6代+4块GPU--图灵超算工作站GT450M介绍
  • 05/09汽车风阻测试模拟分析、算法,及服务器/工作站计算设备硬件配置推荐
  • 04/26高频交易(HFT)应用分析、算法,服务器/工作站硬件配置推荐
  • 04/25衍生品定价与风险对冲应用分析、算法,及服务器工作站硬件配置
  • 04/25量化交易策略应用算法分析、服务器工作站硬件配置
  • 04/24金融风险管理应用算法分析、服务器/工作站硬件配置推荐
  • 04/19油藏模拟软件的算法分析以及图形工作站/服务器硬件配置推荐25v2

工程技术(工科)专业工作站/服务器硬件配置选型

    左侧广告图2

新闻排行榜

  • 1如何在本地运行 Llama 3 8B 和 Llama 3 70B及硬件配置推荐
  • 2NVIDIA GeForce GTX 280测试报告
  • 3比GTX280快10倍-Quadro VX200专业卡评测
  • 4深度学习训练与推理计算平台硬件配置完美选型2020v1
  • 5高性能仿真计算集群(结构、流体、多物理场耦合)配置推荐2024v1
  • 62019年最快最全深度学习训练硬件配置推荐
  • 7Llama-2 LLM的所有版本和硬件配置要求
  • 8支持7块RTX3090静音级深度学习工作站硬件配置方案2021v2
  • 9HFSS电磁仿真应用与工作站配置方案
  • 10解锁最大推理能力:深入研究80GB A100 GPU 上的Llama2–70B

最新信息

  • 性能直逼6710亿参数DeepSeek R1--- QwQ-32B推理模型本地硬件部署
  • 史上最神的AI静音工作站---算命、炒股、看病、程序设计、销售策划、仿真计算、3D设计、药物设计、基因测序、大数据分析
  • 用中文训练更快-满血版Deepseek R1本地部署服务器/工作站硬件配置精准分析与推荐
  • DeepSeek R1训练和推理一体式服务器/工作站硬件配置、部署具体步骤
  • DeepSeek V3推理和训练一体式服务器/工作站硬件配置、部署具体步骤
  • DeepSeek R1/V3应用-服务器/工作站/集群配置推荐
  • 生成式AI热门应用、算法及对计算机硬件配置要求
  • llama3.2本地系统+软件安装运行、主要应用、计算硬件要求、最新GPU服务器配置参考

应用导航:

工作站产品中心 京东商城 中关村商城 淘宝商城 超高分可视化商城 便携工作站商城 ANSYS CATIA Microsoft INTEL NVIDIA 网站统计

公司简介-业务咨询-招聘英才-资料下载-UM-

本网站所有原创文字和图片内容归西安坤隆计算机科技有限公司版权所有,未经许可不得转载
陕ICP备16019335号 陕公网安备61010302001314号
Copyright © 2008-2023 , All Rights Reserved

首页
热线
商城
分类
联系
顶部