一、启动 WebUI

在开始训练前,先把前面的测试命令结束掉,然后启动 WebUI:

llamafactory-cli webui

浏览器访问:

http://ip:7860

如果使用的是 AutoDL,仍然需要做自定义服务映射。

需要注意的是:WebUI 版本更适合单机单卡,如果是多卡环境,优先考虑命令行方式。

image/png

image/png

image/png

二、预览训练命令

在 WebUI 中点击“预览命令”,可以直接看到等价的训练命令。示例如下:

CUDA_VISIBLE_DEVICES=0 llamafactory-cli train \
    --stage sft \
    --do_train True \
    --model_name_or_path /models/Qwen3-4B \
    --preprocessing_num_workers 16 \
    --finetuning_type lora \
    --template qwen3 \
    --flash_attn auto \
    --dataset_dir data \
    --dataset my_dataset \
    --cutoff_len 2048 \
    --learning_rate 5e-05 \
    --num_train_epochs 5.0 \
    --max_samples 100000 \
    --per_device_train_batch_size 2 \
    --gradient_accumulation_steps 8 \
    --lr_scheduler_type cosine \
    --max_grad_norm 1.0 \
    --logging_steps 5 \
    --save_steps 100 \
    --warmup_steps 0 \
    --packing False \
    --report_to none \
    --output_dir saves/Qwen3-4B-Instruct/lora/my_finetune \
    --bf16 True \
    --plot_loss True \
    --trust_remote_code True \
    --ddp_timeout 180000000 \
    --include_num_input_tokens_seen True \
    --optim adamw_torch \
    --lora_rank 8 \
    --lora_alpha 16 \
    --lora_dropout 0 \
    --val_size 0.1 \
    --lora_target all

三、几个关键参数怎么理解

  • --stage sft
  • 表示当前做的是监督微调。
  • --finetuning_type lora
  • 使用 LoRA 节省显存。
  • --dataset
  • 指定你前面在 dataset_info.json 中定义的数据集名称。
  • --output_dir
  • 模型输出目录。
  • --bf16
  • 使用半精度,适合支持 BF16 的显卡。
  • --per_device_train_batch_size
  • 每个设备一次处理的样本数,直接影响显存。
  • --gradient_accumulation_steps
  • 通过梯度累积模拟更大的 batch。
  • --num_train_epochs
  • 训练轮次。
  • --learning_rate
  • 学习率,LoRA 场景下常从 5e-05 起步。
  • --val_size 0.1
  • 从训练集里抽 10% 做验证集。

如果显存不足,最常见的做法是:

  • per_device_train_batch_size 调小;
  • gradient_accumulation_steps 调大。

四、微调后的推理测试

训练完成后,可以继续用 WebUI 做测试:

CUDA_VISIBLE_DEVICES=0 llamafactory-cli webchat \
  --model_name_or_path /models/Qwen3-4B \
  --adapter_name_or_path saves/Qwen3-4B-Instruct/lora/my_finetune \
  --template qwen

如果更喜欢命令行对话,也可以使用:

CUDA_VISIBLE_DEVICES=0 llamafactory-cli chat \
  --model_name_or_path /models/Qwen3-4B \
  --adapter_name_or_path saves/Qwen3-4B-Instruct/lora/my_finetune \
  --template qwen

五、导出模型

如果要分享或部署完整模型,可以把 LoRA 适配器导出并合并:

llamafactory-cli export \
  --model_name_or_path /models/Qwen3-4B \
  --adapter_name_or_path saves/Qwen3-4B-Instruct/lora/my_finetune \
  --template qwen \
  --finetuning_type lora \
  --export_dir /models/Qwen3-4B-Aminglinux

六、LLaMA-Factory 这条路线最适合什么人

如果你希望在一个相对统一的框架里完成训练、测试、对话、导出和后续部署衔接,LLaMA-Factory 会比只用底层脚本更省心,尤其适合第一次系统化做开源大模型微调的人。