侧边栏壁纸
  • 累计撰写 30 篇文章
  • 累计创建 6 个标签
  • 累计收到 1 条评论

目 录CONTENT

文章目录

LLaMA-Factory 安装

Administrator
2025-01-23 / 0 评论 / 0 点赞 / 31 阅读 / 0 字 / 正在检测是否收录...
温馨提示:
本文最后更新于2025-01-23,若内容或图片失效,请留言反馈。 部分素材来自网络,若不小心影响到您的利益,请联系我们删除。

LLaMA-Factory 安装

一、环境验证与准备

1. 确认显卡驱动和 CUDA 版本

nvidia-smi  # 输出顶部显示 Driver Version: 525.105.17, CUDA Version: 12.0
  • 若显示 CUDA 12.0,则无需额外安装 CUDA 工具包。

2. 安装系统依赖

# Ubuntu/Debian
sudo apt update && sudo apt install -y git-lfs gcc g++ make python3-dev

# CentOS
sudo yum install -y git-lfs gcc gcc-c++ make python3-devel

二、PyTorch 与 LLaMA-Factory 安装

1. 创建 Python 虚拟环境(推荐 Python 3.10)

conda create -n llama_factory python=3.10
conda activate llama_factory

2. 安装 PyTorch 2.0+(适配 CUDA 12.0)

pip install torch==2.0.1+cu118 torchvision==0.15.2+cu118 torchaudio==2.0.2 \
  --index-url https://download.pytorch.org/whl/cu118

📌 注意:虽然你系统显示 CUDA 12.0,但 PyTorch 官方预编译包暂未提供 CUDA 12.0 版本。此处选择 CUDA 11.8 的 PyTorch 2.0.1(向下兼容 CUDA 12.0),实测可正常调用 GPU。

3. 安装 LLaMA-Factory 及依赖

git clone https://github.com/hiyouga/LLaMA-Factory.git
cd LLaMA-Factory

# 安装核心依赖(跳过无需 GPU 的依赖)
pip install -e ".[torch,metrics]" \
  --extra-index-url https://download.pytorch.org/whl/cu118

# 安装 Flash Attention(加速训练)
pip install flash-attn==2.5.0 --no-build-isolation

三、兼容性验证

1. 检查 PyTorch 是否识别 GPU

import torch
print(torch.__version__)          # 应输出 2.0.1+cu118
print(torch.cuda.is_available())  # 应输出 True
print(torch.cuda.get_device_name(0))  # 显示显卡型号(如 RTX 3090)

2. 测试 LLaMA-Factory 基础功能

llamafactory-cli check-env  # 检查依赖项是否齐全

四、常见问题解决

1. CUDA 版本不匹配警告

若出现类似 CUDA driver version is insufficient for CUDA runtime version 的警告:

  • 原因:PyTorch 的 CUDA 运行时版本(11.8)与系统 CUDA 驱动(12.0)存在版本差。
  • 解决方案:无需处理,PyTorch 的 CUDA 11.8 运行时库已通过 pip 安装,与驱动 525.105.17 兼容。

2. Flash Attention 安装失败

若安装 flash-attn 报错:

# 尝试强制指定 CUDA 架构(如 RTX 30/40 系列为 sm_86)
FLASH_ATTENTION_SKIP_CUDA_BUILD=1 pip install flash-attn==2.5.0 \
  --no-build-isolation \
  --verbose \
  --global-option="--cuda-arch=sm_86"

3. 显存不足(OOM)

训练时添加以下参数:

--quantization_bit 4 \  # 启用 4 位 QLoRA
--per_device_train_batch_size 1 \  # 减少批次大小
--gradient_accumulation_steps 8  # 梯度累积补偿

五、完整训练示例(Llama3-8B 微调)

llamafactory-cli train \
  --model_name_or_path meta-llama/Meta-Llama-3-8B-Instruct \
  --stage sft \
  --finetuning_type lora \
  --dataset alpaca_gpt4 \
  --template llama3 \
  --output_dir ./saves/llama3-lora \
  --lr_scheduler_type cosine \
  --learning_rate 5e-5 \
  --max_source_length 512 \
  --fp16 \
  --logging_steps 10 \
  --save_steps 200

六、关键配置总结

组件 推荐版本 说明
NVIDIA 驱动 ≥525.105.17 支持 CUDA 12.0
PyTorch 2.0.1+cu118 兼容 CUDA 12.0 驱动
LLaMA-Factory 最新 master 分支 支持多模型和量化训练
Flash Attention 2.5.0 加速注意力计算

通过以上步骤,你的环境已完全适配 LLaMA-Factory 的高效训练与推理需求。

0
  1. 支付宝打赏

    qrcode alipay
  2. 微信打赏

    qrcode weixin

评论区