nivida-smi
nvidia-smi
(NVIDIA System Management Interface)是 NVIDIA 提供的 GPU 监控和管理工具,主要用于查询 GPU 使用情况、显存占用、温度等信息。以下是一些常见的用法:
1 1. 查看 GPU 运行状态
nvidia-smi
显示所有 GPU 设备的当前状态,包括 GPU 使用率、温度、风扇速度、功耗、显存使用情况、运行的进程等。
2 2. 持续刷新 GPU 信息
nvidia-smi -l 2
每 2 秒刷新一次 GPU 信息,方便实时监控。
3 3. 查看 GPU 详细信息
nvidia-smi -q
显示更详细的 GPU 信息,包括 GPU 版本、BIOS 版本、驱动信息、显存信息等。
nvidia-smi -q -d MEMORY
仅显示显存相关信息。
nvidia-smi -q -d TEMPERATURE
仅显示温度相关信息。
4 4. 查看 GPU 进程
nvidia-smi pmon
以较高频率显示 GPU 进程信息,包括 PID、使用率等。
nvidia-smi | grep "python"
查看运行 Python 相关的进程。
5 5. 限制 GPU 功耗
nvidia-smi -pl 250
将 GPU 功耗上限设为 250W(适用于支持此功能的显卡)。
6 6. 限制 GPU 频率
nvidia-smi --lock-gpu-clocks=1000,1500
将 GPU 频率锁定在 1000-1500 MHz 之间。
7 7. 设置 GPU 风扇速度(需要 root 权限)
nvidia-smi -i 0 -fan 70
将 GPU 0 的风扇速度设为 70%。
8 8. 清除 GPU 进程
nvidia-smi --gpu-reset
重置 GPU,终止所有正在运行的进程(部分 GPU 可能不支持)。
nvidia-smi --process-kill
杀死当前运行的 GPU 计算进程(需要 root 权限)。
9 9. 显示驱动版本
nvidia-smi | grep "Driver Version"
获取当前安装的 NVIDIA 驱动版本。
10 10. 监控 GPU 使用情况
watch -n 1 nvidia-smi
每秒刷新 nvidia-smi
输出,便于实时监控。
你有更具体的需求,比如优化深度学习训练、限制特定进程的 GPU 资源等吗?