LLM 엔진

다음은 중국어로 번역된 비교 표입니다:

引擎	描述	主要特点	支持的硬件	速度	缺点
Pytorch Transformers	一个广泛使用的库，用于训练和推理变换器模型。	集中于Hugging Face	通用（CPU/GPU）	中等到快速，取决于模型大小	较慢。
vLLM	一个快速的库，用于LLM推理和服务，优化了高吞吐量。	连续批处理，高效的内存管理（PagedAttention），优化的CUDA内核。	主要支持Linux和CUDA	非常快，优化了高吞吐量	限于特定硬件配置（CUDA）。
Llama.cpp	一个轻量级引擎，用于在各种硬件上运行LLaMA模型，包括Apple Silicon。	简单的模型转换，支持量化，在任何合适的机器上运行，活跃的社区支持。	支持AMD、Intel和Apple Silicon	快，特别是在量化模型上	可能缺乏大型库中的一些高级功能。
SGLang	为复杂的LLM程序设计的高性能推理运行时。	RadixAttention加速执行，自动KV缓存重用，支持连续批处理和张量并行。	通用（CPU/GPU）	非常快，优化了性能	复杂性可能需要更陡峭的学习曲线。
MLX	专门为在Apple Silicon上运行LLM而优化的高效运行时。	针对Mac用户进行优化，支持MLX格式模型，专注于高效资源使用。	Apple Silicon（M1、M2等）	快，专为Apple硬件量身定制	限于Apple生态系统；灵活性较低。

모형 형식

文件后缀	支持的引擎
pt bin		传统
safetensors	vLLM, Transformers, SGLang	是一种新的文件格式扩展名，主要用于安全、高效地存储和加载模型权重和数据张量。它由 Hugging Face 推出，旨在替代传统的 PyTorch `.pt` 或 `.bin` 格式，解决这些格式中的潜在安全问题和性能瓶颈。

ggufv2	llama.cpp
gptq	vLLM, Transformers, SGLang
awq	vLLM, Transformers, SGLang
mlx	MLX