nivida-smi

nvidia-smi(NVIDIA System Management Interface)是 NVIDIA 提供的 GPU 监控和管理工具,主要用于查询 GPU 使用情况、显存占用、温度等信息。以下是一些常见的用法:


1 1. 查看 GPU 运行状态

nvidia-smi

显示所有 GPU 设备的当前状态,包括 GPU 使用率、温度、风扇速度、功耗、显存使用情况、运行的进程等。


2 2. 持续刷新 GPU 信息

nvidia-smi -l 2

每 2 秒刷新一次 GPU 信息,方便实时监控。


3 3. 查看 GPU 详细信息

nvidia-smi -q

显示更详细的 GPU 信息,包括 GPU 版本、BIOS 版本、驱动信息、显存信息等。

nvidia-smi -q -d MEMORY

仅显示显存相关信息。

nvidia-smi -q -d TEMPERATURE

仅显示温度相关信息。


4 4. 查看 GPU 进程

nvidia-smi pmon

以较高频率显示 GPU 进程信息,包括 PID、使用率等。

nvidia-smi | grep "python"

查看运行 Python 相关的进程。


5 5. 限制 GPU 功耗

nvidia-smi -pl 250

将 GPU 功耗上限设为 250W(适用于支持此功能的显卡)。


6 6. 限制 GPU 频率

nvidia-smi --lock-gpu-clocks=1000,1500

将 GPU 频率锁定在 1000-1500 MHz 之间。


7 7. 设置 GPU 风扇速度(需要 root 权限)

nvidia-smi -i 0 -fan 70

将 GPU 0 的风扇速度设为 70%。


8 8. 清除 GPU 进程

nvidia-smi --gpu-reset

重置 GPU,终止所有正在运行的进程(部分 GPU 可能不支持)。

nvidia-smi --process-kill

杀死当前运行的 GPU 计算进程(需要 root 权限)。


9 9. 显示驱动版本

nvidia-smi | grep "Driver Version"

获取当前安装的 NVIDIA 驱动版本。


10 10. 监控 GPU 使用情况

watch -n 1 nvidia-smi

每秒刷新 nvidia-smi 输出,便于实时监控。


你有更具体的需求,比如优化深度学习训练、限制特定进程的 GPU 资源等吗?