📚 所有博文¶ 欢迎浏览我撰写的所有文章。 🔖 文章列表¶ CLIP:多模态之钥 DeepSeek Coder工程化方案 DeepSeekMath论文精读 GRPO原理及与相关对比 GradScaler的数学原理简述 LoRA:大模型的低秩密语 PPO原理及避坑指南 Position Embedding之我见 RoPE:相对距离感知的秘密 ZeRO优化器设计理念解析 为何FP16训练时梯度容易下溢为0? 标准数据并行(DP)训练流程解析 融汇贯通RL中的价值函数与优势函数