📚 所有博文¶
欢迎浏览我撰写的所有文章。
🔖 文章列表¶
- CLIP:多模态之钥
- DeepSeek-Coder工程化方案
- DeepSeek-R1:通过强化学习激励LLM推理能力
- DeepSeek-V3是如何炼成的
- DeepSeekMath论文精读
- GRPO原理及与相关对比
- GradScaler的数学原理简述
- LoRA:大模型的低秩密语
- PPO原理及避坑指南
- Position Embedding之我见
- RoPE:相对距离感知的秘密
- TFDS vs WebDataset
- ZeRO优化器设计理念解析
- 为何FP16训练时梯度容易下溢为0?
- 在Kubernetes容器中,如何正确理解和获取CPU核心数?
- 标准数据并行(DP)训练流程解析
- 融汇贯通RL中的价值函数与优势函数