深度语言表征

深度语言表征

3 min read

近年来,深度语言表征(Deep Language Representation) 的研究在自然语言处理(NLP)领域取得了重大突破,尤其是基于 Transformer 和大规模预训练的语言模型。以下是一些关键论文,涵盖了从 词嵌入大语言模型(LLM) 的演进历程:

1. 词嵌入(静态表征)

模型 论文名称 年份 核心贡献
Word2Vec Efficient Estimation of Word Representations in Vector Space 2013 提出CBOW/Skip-gram
GloVe GloVe: Global Vectors for Word Representation 2014 全局共现统计

2. 上下文相关表征

模型 论文名称 年份 核心贡献
ELMo Deep Contextualized Word Representations 2018 双向LSTM动态词向量
BERT BERT: Pre-training of Deep Bidirectional Transformers for Language Understanding 2018 双向Transformer + MLM

3. 自回归语言模型

模型 论文名称 年份 核心贡献
GPT-1 Improving Language Understanding by Generative Pre-training 2018 单向Transformer预训练
GPT-2 Language Models are Few-Shot Learners 2019 大规模少样本学习
GPT-3 同上(技术扩展) 2020 175B参数零样本推理

4. 跨语言模型(XLM系列)

模型 论文名称 年份 核心贡献
XLM Cross-lingual Language Model Pretraining 2019 MLM + TLM跨语言任务
XLM-R Unsupervised Cross-lingual Representation Learning at Scale 2020 100种语言RoBERTa优化

5. 高效轻量化模型

模型 论文名称 年份 核心贡献
DistilBERT DistilBERT, a Distilled Version of BERT 2019 知识蒸馏压缩BERT
ALBERT ALBERT: A Lite BERT for Self-supervised Learning 2019 参数共享 + SOP任务

6. 多模态与跨模态

模型 论文名称 年份 核心贡献
CLIP Learning Transferable Visual Models From Natural Language Supervision 2021 图像-文本对比学习
Flamingo Flamingo: a Visual Language Model for Few-Shot Learning 2022 多模态少样本学习

7. 大语言模型与对齐

模型 论文名称 年份 核心贡献
ChatGPT Training Language Models to Follow Instructions with Human Feedback 2022 RLHF对齐人类偏好
LLaMA LLaMA: Open and Efficient Foundation Language Models 2023 开源高效LLM

技术演进关键路径

  1. 从静态到动态
    Word2Vec → ELMo → BERT(上下文敏感)
  2. 从单语到多语言
    BERT → XLM → XLM-R → mT5(跨语言通用表征)
  3. 从语言到多模态
    BERT → CLIP/Flamingo(视觉-语言联合建模)
  4. 从通用到高效
    BERT → DistilBERT/ALBERT(轻量化部署)

后一篇

括号生成问题