大模型优化利器：RLHF之PPO、DPO、GRPO

2025-06-26

LLM

大模型偏好对齐：从PPO到DPO

参考文章：大模型优化利器：RLHF之PPO、DPO

强化学习在大语言模型上的重要作用可以概括为以下...

Read More

使用 LoRA 和 QLoRA 微调 LLM 的实验见解

2025-06-26

LLM

参考文章：使用 LoRA 和 QLoRA 微调 LLMs：来自数百次实验的见解 - Lightning AI — Finetuning LLMs with LoRA and QLoRA: Insights from Hundreds ...

LLM相关知识

2025-06-17

LLM

Prompt Tuning & Delta Tuning

为了使PLM能够在下游任务中取得良好的性能，需要进行微调。但是呢？不同类型的下游任务特性不同，导致需要考虑怎么针对PLM进行微调。这里面就包含如何将训练...

Read More

LLM背景知识

2025-06-17

LLM

NLP & Big Model Basics（GPU server，Linux，Bash，Conda，…）

什么是自然语言处理

NLP是让计算机能够理解人类语言的技术，或者说是手段。语...

Read More

不同的解码策略

2025-06-16

LLM

在引人入胜的大型语言模型（LLM）世界中，模型架构、数据处理和优化备受关注。然而，在文本生成中发挥关键作用的解码策略，如beam search，却常被忽视。在本文中，我们将通过深入研究greedy search 、 beam search, 和 sampling techniques with top-k and nucleus sampling，探索 LLM 如何生成文本。

...

Read More

看看Transformer和GPT的底层

2025-06-16

LLM

参考资料：

Adam优化算法

2025-06-16

LLM

参考文档：一篇入门之-Adam算法（含原理、计算公式逐行解读、实现代码）-老饼讲解

AdaGrad算法

AdaGrad全称为自适应梯度下降算法（Adaptive Grad...

Read More

理解LSTM

2025-06-15

LLM

Understanding LSTM Networks

参考资料：理解 LSTM 网络 – colah 的博客 — Understan...

← 上一页下一页 →

View: User:

（1）[Transformers (how LLMs work) explained visually

DL5](https://www.youtube.com/watch?v=wjZofJX0v4M)