LLM 엔진
다음은 중국어로 번역된 비교 표입니다:
引擎 | 描述 | 主要特点 | 支持的硬件 | 速度 | 缺点 |
---|---|---|---|---|---|
Pytorch Transformers | 一个广泛使用的库,用于训练和推理变换器模型。 | 集中于Hugging Face | 通用(CPU/GPU) | 中等到快速,取决于模型大小 | 较慢。 |
vLLM | 一个快速的库,用于LLM推理和服务,优化了高吞吐量。 | 连续批处理,高效的内存管理(PagedAttention),优化的CUDA内核。 | 主要支持Linux和CUDA | 非常快,优化了高吞吐量 | 限于特定硬件配置(CUDA)。 |
Llama.cpp | 一个轻量级引擎,用于在各种硬件上运行LLaMA模型,包括Apple Silicon。 | 简单的模型转换,支持量化,在任何合适的机器上运行,活跃的社区支持。 | 支持AMD、Intel和Apple Silicon | 快,特别是在量化模型上 | 可能缺乏大型库中的一些高级功能。 |
SGLang | 为复杂的LLM程序设计的高性能推理运行时。 | RadixAttention加速执行,自动KV缓存重用,支持连续批处理和张量并行。 | 通用(CPU/GPU) | 非常快,优化了性能 | 复杂性可能需要更陡峭的学习曲线。 |
MLX | 专门为在Apple Silicon上运行LLM而优化的高效运行时。 | 针对Mac用户进行优化,支持MLX格式模型,专注于高效资源使用。 | Apple Silicon(M1、M2等) | 快,专为Apple硬件量身定制 | 限于Apple生态系统;灵活性较低。 |
모형 형식
文件后缀 | 支持的引擎 | |
---|---|---|
pt bin | 传统 | |
safetensors | vLLM, Transformers, SGLang | 是一种新的文件格式扩展名,主要用于安全、高效地存储和加载模型权重和数据张量。它由 Hugging Face 推出,旨在替代传统的 PyTorch *.pt 或 *.bin 格式,解决这些格式中的潜在安全问题和性能瓶颈。 |
ggufv2 | llama.cpp | |
gptq | vLLM, Transformers, SGLang | |
awq | vLLM, Transformers, SGLang | |
mlx | MLX |