OOM 现象

OOM 是 "Out of Memory" 的缩写,表示内存不足。它通常出现在运行深度学习模型时,特别是在使用大型模型(如 GLM-4-9B-Chat)时。如果显存或内存不够,模型无法处理给定的任务,就会触发 OOM 错误。

在运行像 GPT、BERT 等大型模型时,内存需求非常高,尤其是在处理长输入序列或较大批量的情况下。为防止 OOM 错误,可以采取以下措施:

  1. 减少模型的输入长度 (max_model_len) 或批量大小 (batch_size)。
  2. 增加显存启用模型的分布式计算,比如使用多张 GPU。
  3. 启用模型的分块执行(chunking),如代码中的 enable_chunked_prefill=True 可以帮助缓解显存压力。

这些方法可以有效降低内存占用,从而避免 OOM 错误。