OOM 现象
OOM 是 "Out of Memory" 的缩写,表示内存不足。它通常出现在运行深度学习模型时,特别是在使用大型模型(如 GLM-4-9B-Chat)时。如果显存或内存不够,模型无法处理给定的任务,就会触发 OOM 错误。
在运行像 GPT、BERT 等大型模型时,内存需求非常高,尤其是在处理长输入序列或较大批量的情况下。为防止 OOM 错误,可以采取以下措施:
- 减少模型的输入长度 (
max_model_len
) 或批量大小 (batch_size
)。 - 增加显存 或 启用模型的分布式计算,比如使用多张 GPU。
- 启用模型的分块执行(chunking),如代码中的
enable_chunked_prefill=True
可以帮助缓解显存压力。
这些方法可以有效降低内存占用,从而避免 OOM 错误。