LLaMA-Factory 安装

一、环境验证与准备

1. 确认显卡驱动和 CUDA 版本

nvidia-smi  # 输出顶部显示 Driver Version: 525.105.17, CUDA Version: 12.0

若显示 CUDA 12.0，则无需额外安装 CUDA 工具包。

2. 安装系统依赖

# Ubuntu/Debian
sudo apt update && sudo apt install -y git-lfs gcc g++ make python3-dev

# CentOS
sudo yum install -y git-lfs gcc gcc-c++ make python3-devel

二、PyTorch 与 LLaMA-Factory 安装

1. 创建 Python 虚拟环境（推荐 Python 3.10）

conda create -n llama_factory python=3.10
conda activate llama_factory

2. 安装 PyTorch 2.0+（适配 CUDA 12.0）

pip install torch==2.0.1+cu118 torchvision==0.15.2+cu118 torchaudio==2.0.2 \
  --index-url https://download.pytorch.org/whl/cu118

📌 注意：虽然你系统显示 CUDA 12.0，但 PyTorch 官方预编译包暂未提供 CUDA 12.0 版本。此处选择 CUDA 11.8 的 PyTorch 2.0.1（向下兼容 CUDA 12.0），实测可正常调用 GPU。

3. 安装 LLaMA-Factory 及依赖

git clone https://github.com/hiyouga/LLaMA-Factory.git
cd LLaMA-Factory

# 安装核心依赖（跳过无需 GPU 的依赖）
pip install -e ".[torch,metrics]" \
  --extra-index-url https://download.pytorch.org/whl/cu118

# 安装 Flash Attention（加速训练）
pip install flash-attn==2.5.0 --no-build-isolation

三、兼容性验证

1. 检查 PyTorch 是否识别 GPU

import torch
print(torch.__version__)          # 应输出 2.0.1+cu118
print(torch.cuda.is_available())  # 应输出 True
print(torch.cuda.get_device_name(0))  # 显示显卡型号（如 RTX 3090）

2. 测试 LLaMA-Factory 基础功能

llamafactory-cli check-env  # 检查依赖项是否齐全

四、常见问题解决

1. CUDA 版本不匹配警告

若出现类似 CUDA driver version is insufficient for CUDA runtime version 的警告：

原因：PyTorch 的 CUDA 运行时版本（11.8）与系统 CUDA 驱动（12.0）存在版本差。
解决方案：无需处理，PyTorch 的 CUDA 11.8 运行时库已通过 pip 安装，与驱动 525.105.17 兼容。

2. Flash Attention 安装失败

若安装 flash-attn 报错：

# 尝试强制指定 CUDA 架构（如 RTX 30/40 系列为 sm_86）
FLASH_ATTENTION_SKIP_CUDA_BUILD=1 pip install flash-attn==2.5.0 \
  --no-build-isolation \
  --verbose \
  --global-option="--cuda-arch=sm_86"

3. 显存不足（OOM）

训练时添加以下参数：

--quantization_bit 4 \  # 启用 4 位 QLoRA
--per_device_train_batch_size 1 \  # 减少批次大小
--gradient_accumulation_steps 8  # 梯度累积补偿

五、完整训练示例（Llama3-8B 微调）

llamafactory-cli train \
  --model_name_or_path meta-llama/Meta-Llama-3-8B-Instruct \
  --stage sft \
  --finetuning_type lora \
  --dataset alpaca_gpt4 \
  --template llama3 \
  --output_dir ./saves/llama3-lora \
  --lr_scheduler_type cosine \
  --learning_rate 5e-5 \
  --max_source_length 512 \
  --fp16 \
  --logging_steps 10 \
  --save_steps 200

六、关键配置总结

组件	推荐版本	说明
NVIDIA 驱动	≥525.105.17	支持 CUDA 12.0
PyTorch	2.0.1+cu118	兼容 CUDA 12.0 驱动
LLaMA-Factory	最新 master 分支	支持多模型和量化训练
Flash Attention	2.5.0	加速注意力计算

通过以上步骤，你的环境已完全适配 LLaMA-Factory 的高效训练与推理需求。

目录CONTENT

LLaMA-Factory 安装

LLaMA-Factory 安装

一、环境验证与准备

1. 确认显卡驱动和 CUDA 版本

2. 安装系统依赖

二、PyTorch 与 LLaMA-Factory 安装

1. 创建 Python 虚拟环境（推荐 Python 3.10）

2. 安装 PyTorch 2.0+（适配 CUDA 12.0）

3. 安装 LLaMA-Factory 及依赖

三、兼容性验证

1. 检查 PyTorch 是否识别 GPU

2. 测试 LLaMA-Factory 基础功能

四、常见问题解决

1. CUDA 版本不匹配警告

2. Flash Attention 安装失败

3. 显存不足（OOM）

五、完整训练示例（Llama3-8B 微调）

六、关键配置总结

评论区