大模型

向量

张量

表征学习(Embedding)

向量数据库

微调

全量微调

高效微调

RAG

Agent

PEFT(LoRA / QLoRA)

量化

知识灌注

Chunk

Tokens

SFT (监督微调)

人类偏好对齐(RLHF/DPO)

  • RLHF:Reinforcenment Learning from Human Feedback
    • 生成多样回答
    • 让人工标注哪个更好
    • 训练奖励模型 (Reward Model) + PRO 优化
  • DPO :Direct Preference Optimization