LLaMA-Factory 安装
一、环境验证与准备
1. 确认显卡驱动和 CUDA 版本
nvidia-smi # 输出顶部显示 Driver Version: 525.105.17, CUDA Version: 12.0
- 若显示 CUDA 12.0,则无需额外安装 CUDA 工具包。
2. 安装系统依赖
# Ubuntu/Debian
sudo apt update && sudo apt install -y git-lfs gcc g++ make python3-dev
# CentOS
sudo yum install -y git-lfs gcc gcc-c++ make python3-devel
二、PyTorch 与 LLaMA-Factory 安装
1. 创建 Python 虚拟环境(推荐 Python 3.10)
conda create -n llama_factory python=3.10
conda activate llama_factory
2. 安装 PyTorch 2.0+(适配 CUDA 12.0)
pip install torch==2.0.1+cu118 torchvision==0.15.2+cu118 torchaudio==2.0.2 \
--index-url https://download.pytorch.org/whl/cu118
📌 注意:虽然你系统显示 CUDA 12.0,但 PyTorch 官方预编译包暂未提供 CUDA 12.0 版本。此处选择 CUDA 11.8 的 PyTorch 2.0.1(向下兼容 CUDA 12.0),实测可正常调用 GPU。
3. 安装 LLaMA-Factory 及依赖
git clone https://github.com/hiyouga/LLaMA-Factory.git
cd LLaMA-Factory
# 安装核心依赖(跳过无需 GPU 的依赖)
pip install -e ".[torch,metrics]" \
--extra-index-url https://download.pytorch.org/whl/cu118
# 安装 Flash Attention(加速训练)
pip install flash-attn==2.5.0 --no-build-isolation
三、兼容性验证
1. 检查 PyTorch 是否识别 GPU
import torch
print(torch.__version__) # 应输出 2.0.1+cu118
print(torch.cuda.is_available()) # 应输出 True
print(torch.cuda.get_device_name(0)) # 显示显卡型号(如 RTX 3090)
2. 测试 LLaMA-Factory 基础功能
llamafactory-cli check-env # 检查依赖项是否齐全
四、常见问题解决
1. CUDA 版本不匹配警告
若出现类似 CUDA driver version is insufficient for CUDA runtime version
的警告:
- 原因:PyTorch 的 CUDA 运行时版本(11.8)与系统 CUDA 驱动(12.0)存在版本差。
- 解决方案:无需处理,PyTorch 的 CUDA 11.8 运行时库已通过 pip 安装,与驱动 525.105.17 兼容。
2. Flash Attention 安装失败
若安装 flash-attn
报错:
# 尝试强制指定 CUDA 架构(如 RTX 30/40 系列为 sm_86)
FLASH_ATTENTION_SKIP_CUDA_BUILD=1 pip install flash-attn==2.5.0 \
--no-build-isolation \
--verbose \
--global-option="--cuda-arch=sm_86"
3. 显存不足(OOM)
训练时添加以下参数:
--quantization_bit 4 \ # 启用 4 位 QLoRA
--per_device_train_batch_size 1 \ # 减少批次大小
--gradient_accumulation_steps 8 # 梯度累积补偿
五、完整训练示例(Llama3-8B 微调)
llamafactory-cli train \
--model_name_or_path meta-llama/Meta-Llama-3-8B-Instruct \
--stage sft \
--finetuning_type lora \
--dataset alpaca_gpt4 \
--template llama3 \
--output_dir ./saves/llama3-lora \
--lr_scheduler_type cosine \
--learning_rate 5e-5 \
--max_source_length 512 \
--fp16 \
--logging_steps 10 \
--save_steps 200
六、关键配置总结
组件 | 推荐版本 | 说明 |
---|---|---|
NVIDIA 驱动 | ≥525.105.17 | 支持 CUDA 12.0 |
PyTorch | 2.0.1+cu118 | 兼容 CUDA 12.0 驱动 |
LLaMA-Factory | 最新 master 分支 | 支持多模型和量化训练 |
Flash Attention | 2.5.0 | 加速注意力计算 |
通过以上步骤,你的环境已完全适配 LLaMA-Factory 的高效训练与推理需求。
评论区