速通大模型N百词
大模型
向量
张量
表征学习(Embedding)
向量数据库
微调
全量微调
高效微调
RAG
Agent
PEFT(LoRA / QLoRA)
量化
知识灌注
Chunk
Tokens
SFT (监督微调)
人类偏好对齐(RLHF/DPO)
- RLHF:Reinforcenment Learning from Human Feedback
- 生成多样回答
 - 让人工标注哪个更好
 - 训练奖励模型 (Reward Model) + PRO 优化
 
 - DPO :Direct Preference Optimization