根据LLM参数量估算显存/内存占用

✨ Tips:文中“显存”指GPU可使用的内存空间,如有SoC使用Unified Memory(如Apple M1~M3系列、Nvidia AGX Orin等)则可简单理解为系统内存。

推理显存

对于一个70亿参数(7B)的模型,以 qwen2-7B 为例,预计需要的显存需求如下:

  • FP32浮点精度:28GB
  • BF16精度:14GB
  • int8精度:7GB

虽然其他因素也在占用显存,但推理期间使用显存的主要是参数量。

  • 比如,qwen2-7B-BF16 模型需要的显存等于参数数量乘以类型大小:70亿参数 x 2字节 = 140亿字节。因此,140亿字节 = 14 x 1,000 x 1,000 x 1,000 / 1024 / 1024 / 1024 ≈ 13 GB(考虑1000/1024)³ ≈ 0.93。

    注1:(1000/1024)³ ≈ 0.93,为了估算目的,简单地将此比率视为1。

    注2:对于7B-BF16模型,显存需求大约是7 x 2 = 14 GB。上述估算略高于精确计算,但更实用,因为推理需要超出参数之外的额外内存。

  • 假设要估算llama2-13B模型的显存需求,对应各种类型的分别是:float:13 x 4 = 52 GB,half/BF16:13 x 2 = 26 GB,int8:13 GB,int4:13 x 0.5 = 6.5 GB

阅读更多

NVIDIA GPU 架构与 CUDA 算力

使用NVCC编译时,Gencodes(’-gencode‘)后带arch和code参数。arch标志(’arch‘)指定了CUDA文件将被编译的英伟达(NVIDIA®)GPU架构名称,code标志(’code‘)指定了GPU算力。例如 (’-gencode arch=compute_75,code=sm_75‘)

以下是 NVIDIA GPU 架构名称及其算力对照表:

Fermi †Kepler †Maxwell ‡PascalVoltaTuringAmpereAdaHopperBlackwell
sm_20sm_30sm_50sm_60sm_70sm_75sm_80sm_89sm_90sm_95
sm_35sm_52sm_61sm_72
(Xavier)
sm_86sm_90a (Thor)
sm_37sm_53sm_62sm_87 (Orin)

从 CUDA 9 和 11 开始,Fermi 和 Kepler 已被弃用
自 CUDA 11.6 起,Maxwell 已被弃用

阅读更多

Autoware 软件开发指南

目录

一、Autoware 概述及安装指南

1.1 Autoware简介

​ Autoware 最早是由名古屋大学研究小组在加藤伸平教授(Prof. Shinpei Kato)的领导下于2015年8月正式发布。2015年12月下旬,加藤伸平教授创立了Tier IV,以维护Autoware并将其应用于真正的自动驾驶汽车。随着时间的流逝,Autoware已成为公认的开源项目。Autoware 也是世界上第一个用于自动驾驶技术的“多合一”开源软件。Autoware.ai版本基于ROS 1,并在Apache 2.0许可下可用。Autoware的功能主要适合与城市,但也可以覆盖高速公路。支持以下功能:路径规划、路径跟随、加速/制动/转向控制、数据记录、汽车/行人/物体检测、3D本地化、3D映射、交通信号检测、交通灯识别、车道检测、对象跟踪、传感器校准、传感器融合、面向云的地图连接自动化、智能手机导航、软件仿真、虚拟现实等。

​ Autoware 作为第一款开源的自动驾驶框架,当前各大自动驾驶公司的框架几乎都借鉴过,Autoware框架是理解自动驾驶系统知识最好的学习模板之一。其包含了自动驾驶所有关键技术模块:建图、定位、感知、规划和运动控制。

autoware.ai

阅读更多