#111723#
你有实验从 BERT 提取编码后的 sentence embedding 吗?良多小火伴的第一反映是:不就是直接取顶层的[CLS] token的embedding作为句子表现嘛,岂非另有其余套路不成?
nono,你晓得如许失掉的句子表现捕获到的语义信息实在很弱吗?明天向各人先容一篇来自于 CMU 和字节跳动配合,宣布在 EMNLP2020 的 paper, 详实地剖析了从预练习模子失掉 sentence embedding 的惯例方法的缺点和最好翻开方法,是一篇十分适用、轻松辅助各人用BERT刷分的文章。论文品质蛮高,剖析和发明很风趣,通读以后感到播种多多。
自2018年BERT冷艳世人以后,基于预练习模子对卑鄙义务停止微调已成为炼丹的标配。但是近两年的研讨却发明,没有经由微调,直接由BERT失掉的句子表现在语义文原形似性方面显明单薄,乃至会弱于GloVe失掉的表现。此篇论文中起首从实践上摸索了masked language model 跟语义类似性义务上的接洽,并通过试验剖析了BERT的句子表现,最后提出了BERT-Flow来处理上述成绩。
为甚么BERT的句子Embeddings表示弱?
因为Reimers等人之前已试验证实 context embeddings 取均匀要优于[CLS] token的embedding。因此在文章中,作者都以最后几层文本嵌入向量的均匀值来作为BERT句子的表现向量。
语义类似性与BERT预练习的接洽
为了探索上述成绩,作者起首将言语模子(LM)与掩饰言语模子(MLM) 同一为: 给定context(c)猜测失掉 token(x) 的几率散布,即
这里 是context的embedding, 表现 的word embedding。进一步,因为将 embedding 正则化到单元超球面时,两个向量的点积等价于它们的cosine 类似度,咱们即可以将BERT句子表现的类似度简化为文本表现的类似度,即 。
别的,斟酌到在练习中,当 c 与 w 同时呈现时,它们对应的向量表现也会更濒临。换句话说,context-context 的类似度能够通过 context-words 之间的类似度推出或增强。
各向异性嵌入空间
Jun Gao, Lingxiao Wang 等人在近几年的ICLR paper中有提到言语模子中最大似然目的的练习会发生各向异性的词向量空间,即向量各个偏向散布并不平均,而且在向量空间中盘踞了一个狭小的圆锥体,以下图所示~
这类情形一样也存在于预练习好的基于Transformer的模子中,比方BERT,GPT-2。而在这篇paper中,作者通过试验失掉以下两个发明:
词频率影响词向量空间的散布:文中通适度量BERT词向量表现与原点 l_2 间隔的均值失掉以下的图表。咱们能够看到高频的词更濒临原点。因为word embedding在练习进程中起到衔接文本embedding的感化,咱们所需的句子表现向量可能会响应地被单词频率信息误导,且其保存的语义信息可能会被损坏。
低频词散布倾向稀少:文中器量了词向量空间中与K近邻单词的 l_2 间隔的均值。咱们能够看到高频词散布更会合,而低频词散布则倾向稀少。但是稀少性的散布会致使表现空间中存在良多“洞”,这些洞会损坏向量空间的“凸性”。斟酌到BERT句子向量的发生保存了凸性,因此直接应用其句子embeddings会存在成绩。
Flow-based 天生模子
那末,怎样无监视情形下充足应用BERT表现中的语义信息?为懂得决上述存在的成绩,作者提出了一种将BERT embedding空间映照到一个尺度高斯隐空间的方式(以下图所示),并称之为“BERT-flow”。而抉择 Gaussian 空间的念头也是由于其本身的特色:
尺度高斯散布满意各向同性
高斯散布地区没有“洞”,即不存在损坏“凸性”的情形
上图中 表现隐空间, 表现观察到的空间,f: 是可逆的变更。依据几率密度函数中变量调换的定理,咱们能够失掉观察变量的几率密度函数以下:
进一步,作者通过最大化BERT句子表现的边沿似然函数来进修基于流的天生模子,即通过以下的公式来练习flow的参数:
此中 表现数据集散布, 为神经收集。须要留神的是,在练习中,不须要任何人工标注!别的,BERT的参数坚持稳定,唯一流的参数停止优化更新。其次,在试验中,作者基于Glow (Dinh et al., 2015)的计划(多个可逆变更组合)停止修改,比方将仿射耦合(affine coupling)调换为了加法耦合(additive coupling)。
试验及成果
论文的试验部份在7个数据集长进行权衡语义文原形似性义务的后果。
试验步调:
通过句子encoder失掉每个句子的向量表现。
盘算句子之间的cosine similarity 作为模子猜测的类似度。
盘算Spearman系数。
试验成果:
上图报告了sentence embeddings的余弦类似度同多个数据集上实在标签之间的Spearman品级相干性得分(),此中flow-target 表现在完全的目的数据集(train+validation+test)长进行进修,flow-NLI 表现模子在NLI(natual language inference)义务的测试,绿色箭头表现绝对于BERT的baseline,模子的后果有晋升,白色反之。
咱们能够留神到模子的改良对于后果的晋升仍是很明显滴!文章一样还在无监视问答义务证实模子的无效性,并将BERT-flow失掉的语义类似度同词法类似度(通过编纂间隔来权衡)停止对照,成果一样证实模子在引入流的可逆映照后削弱了语义类似性与词法类似性之间的接洽!详细信息各人可查阅paper~
小结
总之,这篇paper探索了BERT句子表现对于语义类似性上潜伏的成绩,并提出了基于流的可逆映照来改良在对应义务上的表示。想多懂得的童鞋能够看看原文,信任你们也会爱好上这篇paper!
原文题目:还在用[CLS]?从BERT失掉最强句子Embedding的翻开方法!
文章出处:【微信大众号:深度进修天然言语处置】欢送增加存眷!文章转载请注明出处。
更多内容阅读推荐:
壁挂式燃气炉为什么打不着火