9.ELMO 论文笔记

本文是 Deep contextualized word representations笔记.ELMO是Embeddings from Language Models的简称。

Abstract

本文作者引入了一种新的深层的上下文词表示，该模型能:

使用词的复杂特征
在不同语境下词的多义性

本文的词向量是学习深层双向语言模型的内部状态的功能得到的。作者发现这些表示能轻松加到已存在的模型上，并且在6大NLP问题上有显著的提升，像QA，文本蕴含，情感分析。还分析了暴露预训练网络的深层内部是至关重要的，这允许下游模型来混合不同类型的半监督信号。

3.1 Bidirectional language models

给定N个token的序列， $(t_1, t_2, \cdots, t_n)$ ，前馈语言模型在给定前 $(t_1, t_2, \cdots, t_{n-1})$ 的情况下来计算 $t_k$ 的概率:(LM就是一个预测下一个词的任务)

$p(t_1, t_2, \cdots, t_N) = \prod_{k=1}^Np(t_k|t_1, t_2, \cdots, t_{k-1}) \tag{1}$

如果通过token embeddings 或字符卷积后再输入到L层的前向LSTMs.在位置k,每层LSTM输出一个上下独立的表示为 $\overrightarrow{\mathbf{h}}_{k,j}^{LM}$ ，其中 $j=1, \cdots L.$ (表示第几层)。最上面一层LSTM的输出 $\overrightarrow{\mathbf{h}}_{k,j}^{LM}$ 被用来给softmax层预测下一个token $t_{k+1}$ 。

反向的LM类似于前向LM,除了将输入序列反向，目标也变成预测前一个词:

$p(t_1, t_2, \cdots, t_N) = \prod_{k=1}^Np(t_k|t_1, t_2, \cdots, t_{N}) \tag{2}$

这可以用类似的前向LM实现，对于反向LSTM层，给定 $(t_{k+1}, \cdots,t_N)$ 生成的 $t_k$

表征为 $\overleftarrow{\mathbf{h}}_{k,j}^{LM}$ .

这样双向LM结合了前向和反向的LM特点。目标就是最大化两者联合的对数似然函数:

$\begin{array}{l} \sum_{k=1}^{N}\left(\log p\left(t_{k} \mid t_{1}, \ldots, t_{k-1} ; \Theta_{x}, \vec{\Theta}_{L S T M}, \Theta_{s}\right)\right. \\ \left.\quad+\log p\left(t_{k} \mid t_{k+1}, \ldots, t_{N} ; \Theta_{x}, \overleftarrow{\Theta}_{L S T M}, \Theta_{s}\right)\right) \end{array} \tag{3}$

作者将前、后向的token表征 $\Theta_x$ 和softmax层 $\Theta_s$ 参数联系起来，同时保持每个方向的LSTM参数分开。但在方向间共享些权重而不是使用完全独立的参数。

3.2 ELMo

ELMo是biLM中中间层表征的任务特定的组合。对于每个token $t_k$ ,L层biLM计算 $2L+1$ 表征的集合：

$\begin{aligned} R_{k} &=\left\{\mathbf{x}_{k}^{L M}, \overrightarrow{\mathbf{h}}_{k, j}^{L M}, \overleftarrow{\mathbf{h}}_{k, j}^{L M} \mid j=1, \ldots, L\right\} \\ &=\left\{\mathbf{h}_{k, j}^{L M} \mid j=0, \ldots, L\right\} \end{aligned} \tag{4}$

其中 $\mathbf{h}_{k, j}^{L M} = \left[\overrightarrow{\mathbf{h}}_{k, j}^{L M}, \overleftarrow{\mathbf{h}}_{k, j}^{LM} \right]$ .当 $j=0$ 时，就是token层，因此可以简写为式4中第二行。

ELMo将所有层的 $\mathbf{R}$ (式4)压缩成单一向量, $\mathbf{ELMo}_k = E(\mathbf{R}_k; \Theta)$ .最简单的就只选择最上面一层作为token的表示, $\mathbf{h}_{k, L}^{LM}$ .更通用做法是，对所有层求权重和:

$\mathbf{E L M o}_{k}^{t a s k}=E\left(R_{k} ; \Theta^{t a s k}\right)=\gamma^{t a s k} \sum_{j=0}^{L} s_{j}^{t a s k} \mathbf{h}_{k, j}^{L M} \tag{1}$

在(1)中，(按论文标号) $s^{task}$ 表示经过softmax-normalized权重和放缩参数 $\gamma^{task}$ 允许任务模型放缩ELMo向量。这是个经验参数，也能帮助优化过程。

3.3 Using biLMs for supervised NLP tasks

给定一个预训练双向语言模型和对目标NLP任务的监督架构，这是使用双向biLM来提升任务模型是非常简单的。就是运行biLM并记录每层的每个词的表征。然后，让终端任务模型学习这些表征的线性组合。如下所述。

首先,考虑没有biLM的监督模型底层是差不多的架构，这就允许ELMo以一种固定的规则加到上面。给定一个token $(t_1, \cdots, t_N)$ ，使用预训练的词嵌入和选择基于character的表征形成一个上下文无关的token表征是标准的。然后，模型形成一个上下文敏感的表征 $\mathbf{h}_k$ ，通常使用双向RNNs，CNNs或者前馈神经网络得到。(就是拿这些网络得到token表征输入到biLMs中)。

为了添加ELMo到监督模型，首先固定biLM的权重，token表征 $\mathbf{x}_k$ 然后跟ELMo向量 $\mathbf{ELMo}_k^{task}$ 合并，将这个增强的表征 $[\mathbf{x}_k; \mathbf{ELMo}_k^{task}]$ 输入到具体任务的RNN中。像SNLI,SquaD，NLP推理和问答任务。作者观察到通过引入针对具体任务的线性权重和用这个增强表征 $[\mathbf{x}_k; \mathbf{ELMo}_k^{task}]$ 能进一步提升表现。

最后，加入dropout和 $\lambda||\mathbf{W}||^2_2$ 到ELMo中，.

3.4 Pre-trained bidirectional language model architecture

为了在保持纯粹的基于character的输入表征的同时，平衡语言模型整体的复杂度与模型大小和下游任务的计算需求，将单个最佳模型CNN-BIG-LSTM中的embedding和隐藏层维度都减半。最后模型使用L=2的biLSTM，含有4096个units和512维度映射和一个残差连接第一层和第二层。上下文不敏感类型表征用2048character n-gram卷积后接两个高速层和一个线性映射到512的表征。结果上，biLM给每个输入token提供了3个表征，包括那些外部训练集得到的纯粹的character input。对比而言，传统词嵌入方法在固定词表上只提供一层token的表征。