Meta发布首个「非参数化」掩码语言模型NPM:吊打500倍参数量的GP
2022-12-28 13:45:15 来源:IT之家 阅读量:4932
Meta发布了第一个非参数掩蔽语言模型NPM:那一年,我把手放在口袋里,不知道什么是词汇之外。
虽然大规模语言模型在NLP领域的强大表现令人惊叹,但也带来了严重的负成本,比如训练太贵,更新困难而且很难处理长尾知识
而且语言模型在预测层通常采用一个词汇量有限的softmax层,基本不会输出生僻字或短语,大大限制了模型的表达能力。
为了解决模型的长尾问题,最近来自华盛顿大学,Meta AI和艾伦人工智能研究所的学者联合提出了首个非参数掩蔽语言模型,通过参考语料库中每个短语的非参数分布来替代softmax输出。
通过比较目标和在批量中搜索完整的语料库,可以有效地训练NPM。
研究人员对9个封闭任务和7个开放任务进行了零射评估,其中包括强调需要预测新事实或罕见短语的时空转换和单词级翻译的任务。
发现NPM明显优于更大的参数模型,如参数量高500倍的GPT—3和参数量高37倍的OPT 13B,NPM尤其擅长处理稀有模式和预测稀有或几乎未知的词。
第一个非参数语言模型
虽然结合一些现有的检索和生成相关工作可以缓解这个问题,但是这些模型的最终预测部分仍然需要一个softmax层来预测token,并没有从根本上解决长尾问题。
NPM由编码器和参考语料库组成编码器将文本映射到一个固定大小的向量中,然后NPM从中检索一个短语并填充它
可以看出,NPM选择了在短语上获得的非参数分布,而不是使用固定输出词汇softmax作为其输出。
但是训练非参数模型也会带来两个关键问题:
1.在训练过程中搜索完整的语料库是非常费时费力的。研究人员通过使用完整语料库搜索的批内近似来解决它,
2.没有解码器,很难学会预测任意长度的短语研究者通过扩展跨度掩蔽和短语水平的比较目标来解决这个问题
总之,NPM完全删除了输出词汇的softmax,通过预测任意数量的N—gram,实现了有效的无界输出空间。
由此产生的模型可以预测极其罕见甚至完全未知的单词,并且可以有效地支持无限的词汇量,这是现有模型所做不到的。
NPM方法
NPM的核心思想是通过使用编码器将语料库中的所有短语映射到密集的向量空间在推理中,当给定一个带有的查询时,编码器用于从语料库中找到最近的短语并填充它
纯编码器模型是一个非常有竞争力的表示模型,但现有的纯编码器模型不能预测未知的令牌数,这限制了它们在没有微调的情况下的使用。
NPM通过检索一个短语来填充任意数量的令牌来解决这个问题。
理由
编码器将参考语料库C中的每个不同短语映射到密集向量空间。
在测试期间,编码器将屏蔽的查询映射到相同的向量空间,并从C中检索短语来填充它。
这里,C不必与训练语料库相同,并且可以在测试期间替换或扩展,而无需重新训练编码器。
在实践中,语料库中有大量的短语,对所有的短语进行索引是非常昂贵的。
例如,如果我们考虑一个最多有L个标记的短语,我们需要索引l×
化简为|C|,然后在测试中,分别在开头和结尾用K—近邻搜索逼近所有短语的非参数分布。
例如,由四个BPE令牌组成的短语Thessaloniki由c1和c4的连接来表示,分别对应于该短语的开头和结尾。
然后用同一个向量空间中的两个向量q_start和q_end来表示一个查询,再用每个向量来检索似是而非的短语的开头和结尾,然后进行聚合。
这样做的前提是开头和结尾有很好的表现,即Q起点足够接近c1,Q终点足够接近c4,这一点在训练过程中已经得到保证。
火车
NPM在未标记的文本数据上被训练,以确保编码器将文本映射到良好的密集向量空间。
在训练NPM时存在两个主要问题:1)完整的语料库搜索将使训练非常耗时,2)用任意长度的短语代替标记进行掩码。
1.掩模掩蔽
段掩码是对长度从几何分布中采样的连续令牌进行掩码。
研究人员对此进行了扩展:
1)如果一些片段同时出现在该批中的其他序列中,屏蔽它们以确保在训练期间该批中的批内阳性。
例如,封锁部分2010年,西雅图海鹰队和所有出现在另一个序列。
但是对于bigram游戏来说,它是不能一起面具的虽然它们都出现在两个序列中,但它们不会同时出现
2)不是用(掩码)替换一个段中的每个记号,而是用两个特殊记号(掩码)(掩码)替换整个段。
比如上面的例子,不管要屏蔽的线段有多长,都用(mask)代替,这样就可以得到每一段的起始和结束向量,更便于推理。
2.训练目的
假设面具片段是西雅图海鹰,模型应该在测试期间从参考语料库的其他序列中检索短语西雅图海鹰。
在推理阶段,该模型从sum (MASKe)中获得向量,并使用它们从语料库中检索短语的开头和结尾。
因此,训练目标应该鼓励向量更接近西雅图海鹰队中的the ,而远离其他token,而不应该是任何短语中的the ,例如be the first。
这可以通过训练模型来完成,训练是通过将完整的语料库批量地近似到其他序列具体来说,训练模型从同一批的其他序列中检索西雅图海鹰队的起点和终点
值得注意的是,这种屏蔽策略可确保每个屏蔽跨度在一个批次中有一个公共段。
实验部分
从结果来看,NPM在零镜头设置下的性能优于其他基线模型。
在参数模型中,RoBERTa的性能最好,出人意料地超过了包括GPT—3等在内的模型,可能是因为纯编码器模型的双向性质起着至关重要的作用,这也表明因果语言模型可能不是一个合适的分类选择
KNN—LM方法在参数模型中加入了非参数成分,其性能优于其他所有基线可是,在GPT—2中单独检索的性能较差,这表明仅在推理中使用kNN是有限的
NPM单和NPM的表现明显优于所有基线,在所有数据集上都取得了一致的优越表现这表明,即使对于不明确需要外部知识的任务,非参数模型也是非常有竞争力的
定性分析使用罗伯塔和NPM在情感分析任务中的预测结果在第一个例子中,便宜意味着不贵,在第二个例子中,便宜意味着质量差
罗伯塔对这两个例子的预测是肯定的,而NPM通过搜索廉价在与输入相同的上下文中使用的上下文,做出了正确的预测。
还可以发现,NPM输出的表征可以带来更好的词义消歧例如,RoBERTa在廉价和便宜(质量差)之间分配了很高的相似性分数
另一方面,NPM成功地在廉价和廉价之间分配了一个低的相似性分数,这也表明非参数训练和对比目标是有效的,可以更好地改善表征学习,而未经训练的算法如kNN推理根本做不到。
参考资料:
声明:以上内容为本网站转自其它媒体,相关信息仅为传递更多企业信息之目的,不代表本网观点,亦不代表本网站赞同其观点或证实其内容的真实性。投资有风险,需谨慎。
推荐内容
- 电动汽车制造商Fisker再次下调全年产量目标
- 11月新能源销量:大局已定,来年还有机会吗?
- 20多家欧洲企业代表来到金山这座千年古镇,收获了
- 售价12.67万元起吉利中国星智能双擎上市
- 车企官降、地方补贴接踵而至车市年终冲刺“以价换量
- 优质楼宇推介月|上报传悦坊
- Imec将硅异质结太阳能电池集成到曲面上
- 15万级家庭纯电SUV怎么选,奇瑞舒享家还是零跑
- 理想MEGA官图发布造型如高铁或售50万元以上
- 问界新M7上市25天大定破5万台,真能“遥遥领先
- 龙年压岁金上市首发交通银行精彩亮相2023钱博会
- 娃娃鱼前脸,AIONSMAX官图发布,设计越发简
- 长安引领年终购车热潮,至高直降30000元,买车
- 罗姆推出新型高功率120W激光二极管用于LiDA
- 60岁·40年·6所学校:一个退休教师的讲台不了
- 马恒达电动越野概念车:传奇迈向电动化
- 限时疯抢!超高人气!爆款小鹏G6、特斯拉Mode
- 19.99万就能买到四驱顶配?超混电驱奇骏自驾游
- 高通公司中国区董事长孟樸:5G+AI赋能千行百业
- 岚图汽车假期打卡,4S店实车体验,说走就走!
- 同年同月生,长安启源A07与比亚迪海豹DM-i,
- 带电带T又带锁,哈弗猛龙这波操作谁与争锋?
- 双节试驾岚图新free,全新的绝佳体验
- 为采购提供通路,为自有品牌建设赋能,盒马黑标店上
- 昊铂HT其艺术品级的质感和雕塑般将成为新中产理想
- 与时间赛跑,长城Hi4的诞生始末
- “零甲醛”认证不玩虚的,这家车企4款获得认证
- 魅族造车,是吉利给的勇气?
- 事关房企上交所重磅发声!
- “红宝太和胶囊”发力打造中医滋补国民品牌
- 一品红(300723.SZ)痛风创新药首次在港亮
- 智驾决战2024:激光雷达或成最大赢家
- 福特蒙迪欧大马力E-混动版上市,售18.98-2
- 三把锁+四驱,城市越野兼顾,坦克400Hi4-T
- HOTDOG与上航假期达成“元宇宙文旅战略合作”
- 2023款奥迪RS5上市,延续运动风,整体改动不
- 28.89万起售很贵?宝马X2如今停产在售,终端
- 宋L四驱版内饰官图,这国际范!这回没得吐槽比亚迪
- 打造出行时代全新利器,问界M5让出行更智能便捷
- 上交所举办房地产行业座谈会进一步推动沪市房企提升