By 胸口碎大石 in ai — Sep 9, 2024

vLLM和transformers的详细对比

vLLM 和 Hugging Face 的 Transformers 库是用于自然语言处理（NLP）的大型语言模型(Large Language Models, LLM)框架，它们各自有不同的设计目标和特点。以下是两者的详细对比：

1. 目标和用途

vLLM：vLLM 是为优化 LLM 的推理性能而设计的框架，特别是处理大规模模型的高效推理。它专注于通过增强内存管理、优化并发执行、减少延迟等来提升性能，适合需要处理高吞吐量任务的应用场景，例如 API 服务或需要快速响应的系统。
Transformers：Hugging Face 的 Transformers 是一个通用的 NLP 框架，广泛支持多种预训练模型和任务。它不仅支持推理，还包括训练、微调和推理的完整支持，适用于研究、生产环境和快速开发。

2. 架构设计

vLLM：
- 专注于推理（Inference）优化。
- 提供高效的 分片内存管理 (PagedAttention) 技术，通过优化 GPU 和 CPU 之间的内存传输，减少内存消耗，使得可以在更少的资源下推理大型模型。
- 更好的异步并发执行模型，支持批量推理和更高的推理吞吐量。
Transformers：
- 通用 NLP 框架，支持训练、微调和推理。
- 提供了丰富的模型支持（BERT, GPT, T5, RoBERTa 等）和任务（文本分类、机器翻译、文本生成等）。
- 灵活的接口设计，支持多种深度学习框架（如 TensorFlow、PyTorch、Flax）。
- Hugging Face Hub 提供大量预训练模型，易于使用和集成。

3. 性能和优化

vLLM：
- PagedAttention 技术允许更高效地在有限内存中处理大模型（如 GPT-3 级别模型）。
- 针对推理的性能优化，使得 vLLM 特别适合需要处理高并发请求的场景。
- 提供更高的推理吞吐量和更低的延迟，尤其在批量请求中表现优异。
Transformers：
- 提供了广泛的微调和训练优化工具，但在推理优化方面相对没有 vLLM 针对性强。
- 可通过集成其他工具（如 ONNX、TensorRT）优化推理性能，但这需要额外的设置和配置。
- 支持分布式训练和推理，适合大规模训练和模型扩展，但推理性能可能不如 vLLM 专门优化的那样出色。

4. 模型支持

vLLM：
- 专注于 GPT 类别的大模型，特别是处理高效的语言生成任务。
- 主要支持的模型是基于自回归生成模型，适用于像 GPT-3 这样的大型语言模型。
Transformers：
- 支持数百种模型架构，包括 BERT、GPT、T5、BART 等流行的预训练模型。
- 适合更多任务类型，包括文本生成、文本分类、序列标注、机器翻译等。

5. 易用性和生态系统

vLLM：
- 专为推理任务设计，提供简洁的 API，方便集成到高性能推理系统中。
- 针对服务场景的性能优化，使其在处理多用户并发请求时有极大优势。
- 生态系统相对较新，主要是围绕高效推理进行开发，社区和工具链相对较小。
Transformers：
- 拥有庞大的社区支持和丰富的生态系统，特别是 Hugging Face Hub 提供了开箱即用的预训练模型。
- 与 Hugging Face 的 Datasets、Tokenizers 等工具深度集成，支持端到端的 NLP 项目开发。
- 适用于广泛的研究和应用场景，社区和文档支持非常全面。

6. 使用场景

vLLM：
- 适合需要高吞吐量、低延迟的推理任务，比如 AI 服务、聊天机器人 API、生产级推理服务等。
- 在资源有限的情况下推理超大模型（如 GPT-3 级别模型）。
Transformers：
- 适合从研究到生产的完整 NLP 任务，包括模型训练、微调、推理等。
- 适合需要快速迭代开发、实验和部署的团队。

7. 扩展性和分布式支持

vLLM：
- 主要优化单机多 GPU 环境的推理性能，但也有一定的分布式扩展能力。
Transformers：
- 支持分布式训练和推理，通过像 DeepSpeed 和 PyTorch 的分布式库来扩展模型训练和推理。
- 可以运行在多 GPU、TPU 以及云环境中，支持跨设备并行计算。

总结

特性	vLLM	Transformers
主要用途	高效推理、大模型推理	通用 NLP 任务，训练、微调和推理
性能优化	内存和并发优化，低延迟、高吞吐量	依赖外部工具进行推理优化
模型支持	主要支持 GPT 类生成模型	支持多种模型架构和任务类型
易用性	针对推理简化 API，适合生产环境	丰富的社区支持，广泛的文档和教程
扩展性	单机多 GPU 优化，有限的分布式支持	强大的分布式支持，适合大规模训练和推理

两者的选择取决于具体的应用需求。如果你主要关注高效推理和部署 vLLM 是更好的选择，而如果你需要支持各种 NLP 任务并且进行研究或快速原型开发，Transformers 可能是更合适的选择。

性能差距大概多少？

vLLM 和 Hugging Face Transformers 框架之间的性能差距主要体现在推理性能，尤其是在处理大型语言模型（LLM）的高吞吐量和低延迟需求上。以下是两者在推理性能方面的具体差异：

1. 推理延迟

vLLM：vLLM 针对推理延迟进行了专门优化，使用了 PagedAttention 技术，这种机制能够显著减少内存占用，并提升在大型模型推理时的效率。对于高并发的请求，vLLM 可以保持较低的延迟，尤其是当需要处理大量批量请求时。
- 延迟差异：在某些测试中，vLLM 能将推理延迟降低 30% 到 50%，尤其是在高并发负载下。
Transformers：Transformers 的推理时间相对较高，特别是在处理非常大的模型时。虽然 Hugging Face 可以通过集成工具（如 ONNX、TensorRT）来提升推理速度，但这些优化需要额外的配置和调整。
- 典型表现：在未进行深度优化的情况下，Transformers 的推理延迟可能会比 vLLM 高出 50% 或更多，尤其是在处理大规模并发请求时。

2. 吞吐量

vLLM：vLLM 的架构设计使得它可以处理大量并发请求，并且吞吐量随模型大小的增长表现出较好的线性扩展。由于更高效的 GPU 内存管理和并发执行，它能够在单机或多 GPU 环境中处理比 Transformers 框架更多的推理任务。
- 吞吐量差异：vLLM 在高负载下的吞吐量通常比 Transformers 高出 2 倍到 5 倍，特别是在需要处理批量请求的场景中。
Transformers：尽管 Transformers 框架提供了广泛的模型支持，但在推理过程中，由于缺乏特定的并发优化，处理大规模模型或并发请求的吞吐量表现可能不如 vLLM。
- 典型表现：在推理任务上，Transformers 的吞吐量往往较低，尤其是在大规模模型（如 GPT-3 级别）上，吞吐量可能是 vLLM 的一半甚至更少。

3. 内存效率

vLLM：vLLM 的 PagedAttention 可以动态分配内存，优化 GPU 和 CPU 之间的内存交换，使得在有限的硬件资源上可以运行更大的模型，并保持稳定的推理性能。这种内存优化机制极大地减少了内存压力。
- 内存差异：vLLM 的内存占用率比 Transformers 较低，特别是在推理大型模型时，vLLM 可以减少 30% 到 50% 的内存使用。
Transformers：Transformers 主要依赖基础的内存管理机制，虽然在小模型或单一推理任务上表现尚可，但在处理大模型时，内存占用通常较高，需要更多的硬件资源才能达到相同的推理效果。

4. 硬件要求

vLLM：通过优化 GPU 内存和并发性能，vLLM 可以在较少的 GPU 资源下高效运行，并且在同样的硬件配置下，可以推理更大的模型。适合在硬件资源有限的场景中部署。
Transformers：Transformers 在推理时对 GPU 内存的需求较大，特别是在处理大型模型时，通常需要更多的 GPU 或者更高规格的硬件支持。

5. 典型场景的性能测试

GPT-3 类模型：
- 在 vLLM 中推理 GPT-3 大约可以比 Transformers 快 1.5 到 2 倍，内存占用减少约 30%，尤其在批量请求下吞吐量更是大幅提升。
BERT 类模型：
- 对于 BERT 类的小型模型，差距相对较小，因为 Transformer 在小型模型上的性能优化已经足够良好。但 vLLM 依然在并发推理和批量推理任务中表现更优。

总结：性能差距概述

推理延迟：vLLM 比 Transformers 框架低 30% 到 50%。
吞吐量：在批量推理任务中，vLLM 的吞吐量比 Transformers 高 2 倍到 5 倍。
内存使用：vLLM 的内存优化使得它在处理大模型时能节省 30% 到 50% 的内存。
硬件要求：vLLM 在相同的硬件配置下能够更高效运行大模型。

因此，vLLM 在专门优化推理任务，特别是对于大规模并发和批量任务的场景中，性能大幅优于 Transformers。如果你正在寻找高性能推理的解决方案，特别是服务端部署场景，vLLM 是更好的选择。

vllm.git@minicpm3 和 vllm 有什么区别？

ubuntu MiniCPM 3.0 vLLM 安装