📚 所有博文¶ 欢迎浏览我撰写的所有文章。 🔖 文章列表¶ CLIP:多模态之钥 DeepSeek-Coder工程化方案 DeepSeek-R1:通过强化学习激励LLM推理能力 DeepSeek-V3是如何炼成的 DeepSeekMath论文精读 GRPO原理及与相关对比 GradScaler的数学原理简述 LoRA:大模型的低秩密语 PPO原理及避坑指南 Position Embedding之我见 RoPE:相对距离感知的秘密 TFDS vs WebDataset ZeRO优化器设计理念解析 为何FP16训练时梯度容易下溢为0? 标准数据并行(DP)训练流程解析 融汇贯通RL中的价值函数与优势函数