速通大模型N百词

发表于2025-10-20|大模型

|总字数:87|阅读时长:1分钟

大模型

向量

张量

表征学习（Embedding）

向量数据库

微调

全量微调

高效微调

RAG

Agent

PEFT（LoRA / QLoRA）

量化

知识灌注

Chunk

Tokens

SFT (监督微调)

人类偏好对齐（RLHF/DPO）

RLHF：Reinforcenment Learning from Human Feedback
- 生成多样回答
- 让人工标注哪个更好
- 训练奖励模型（Reward Model） + PRO 优化
DPO ：Direct Preference Optimization

大模型概念

数据加载中