近年来,深度语言表征(Deep Language Representation) 的研究在自然语言处理(NLP)领域取得了重大突破,尤其是基于 Transformer 和大规模预训练的语言模型。以下是一些关键论文,涵盖了从 词嵌入 到 大语言模型(LLM) 的演进历程:
1. 词嵌入(静态表征)
模型 | 论文名称 | 年份 | 核心贡献 |
---|---|---|---|
Word2Vec | Efficient Estimation of Word Representations in Vector Space | 2013 | 提出CBOW/Skip-gram |
GloVe | GloVe: Global Vectors for Word Representation | 2014 | 全局共现统计 |
2. 上下文相关表征
模型 | 论文名称 | 年份 | 核心贡献 |
---|---|---|---|
ELMo | Deep Contextualized Word Representations | 2018 | 双向LSTM动态词向量 |
BERT | BERT: Pre-training of Deep Bidirectional Transformers for Language Understanding | 2018 | 双向Transformer + MLM |
3. 自回归语言模型
模型 | 论文名称 | 年份 | 核心贡献 |
---|---|---|---|
GPT-1 | Improving Language Understanding by Generative Pre-training | 2018 | 单向Transformer预训练 |
GPT-2 | Language Models are Few-Shot Learners | 2019 | 大规模少样本学习 |
GPT-3 | 同上(技术扩展) | 2020 | 175B参数零样本推理 |
4. 跨语言模型(XLM系列)
模型 | 论文名称 | 年份 | 核心贡献 |
---|---|---|---|
XLM | Cross-lingual Language Model Pretraining | 2019 | MLM + TLM跨语言任务 |
XLM-R | Unsupervised Cross-lingual Representation Learning at Scale | 2020 | 100种语言RoBERTa优化 |
5. 高效轻量化模型
模型 | 论文名称 | 年份 | 核心贡献 |
---|---|---|---|
DistilBERT | DistilBERT, a Distilled Version of BERT | 2019 | 知识蒸馏压缩BERT |
ALBERT | ALBERT: A Lite BERT for Self-supervised Learning | 2019 | 参数共享 + SOP任务 |
6. 多模态与跨模态
模型 | 论文名称 | 年份 | 核心贡献 |
---|---|---|---|
CLIP | Learning Transferable Visual Models From Natural Language Supervision | 2021 | 图像-文本对比学习 |
Flamingo | Flamingo: a Visual Language Model for Few-Shot Learning | 2022 | 多模态少样本学习 |
7. 大语言模型与对齐
模型 | 论文名称 | 年份 | 核心贡献 |
---|---|---|---|
ChatGPT | Training Language Models to Follow Instructions with Human Feedback | 2022 | RLHF对齐人类偏好 |
LLaMA | LLaMA: Open and Efficient Foundation Language Models | 2023 | 开源高效LLM |
技术演进关键路径
- 从静态到动态:
Word2Vec → ELMo → BERT(上下文敏感) - 从单语到多语言:
BERT → XLM → XLM-R → mT5(跨语言通用表征) - 从语言到多模态:
BERT → CLIP/Flamingo(视觉-语言联合建模) - 从通用到高效:
BERT → DistilBERT/ALBERT(轻量化部署)