您当前的位置:百导全讯网>彩票热点>万达网投存款|NLP领域预训练模型的现状及分析

万达网投存款|NLP领域预训练模型的现状及分析

时间:2020-01-11 17:39:24

万达网投存款|NLP领域预训练模型的现状及分析

万达网投存款,作者 | 王泽洋

单位 | 小牛翻译

王泽洋 东北大学自然语言处理实验室研究生,研究方向为机器翻译。

小牛翻译,核心成员来自东北大学自然语言处理实验室,由姚天顺教授创建于1980年,现由朱靖波教授、肖桐博士领导,长期从事计算语言学的相关研究工作,主要包括机器翻译、语言分析、文本挖掘等。团队研发的支持140种语言互译的小牛翻译系统已经得到广泛应用,并研发了小牛翻译云(https://niutrans.vip)让机器翻译技术赋能全球企业。

预训练的方法最初是在图像领域提出的,达到了良好的效果,后来被应用到自然语言处理。预训练一般分为两步,首先用某个较大的数据集训练好模型(这种模型往往比较大,训练需要大量的内存资源),使模型训练到一个良好的状态,然后下一步根据不同的任务,改造预训练模型,用这个任务的数据集在预训练模型上进行微调。

这种做法的好处是训练代价很小,预训练的模型参数可以让新的模型达到更快的收敛速度,并且能够有效地提高模型性能,尤其是对一些训练数据比较稀缺的任务,在神经网络参数十分庞大的情况下,仅仅依靠任务自身的训练数据可能无法训练充分,预训练方法可以认为是让模型基于一个更好的初始状态进行学习,从而能够达到更好的性能。

2003年,bengio等人提出了神经语言模型(neural network language model)[1]神经语言模型在训练过程中,不仅学习到预测下一个词的概率分布,同时也得到了一个副产品:词嵌入表示。相比随机初始化的词嵌入,模型训练完成后的词嵌入已经包含了词汇之间的信息。2013年,mikolov等人提出了word2vec工具,其中包含了cbow(continue bag of words)模型和skip-gram模型[2-3],该工具仅仅利用海量的单语数据,通过无监督的方法训练得到词嵌入。

词嵌入本身具有局限性,最主要的缺点是无法解决一词多义问题,不同的词在不同的上下文中会有不同的意思,而词嵌入对模型中的每个词都分配了一个固定的表示。针对上述问题,peters等人提出了elmo(embedding from language model)[4],即使用语言模型来获取深层的上下文表示。elmo的具体做法是,基于每个词所在的上下文,利用双向lstm的语言模型来获取这个词的表示。elmo的方法能够提取丰富的特征给下游任务使用,但是elmo仅仅进行特征提取而没有预训练整个网络,远远没有发挥预训练的潜力,另外一个不足之处是,自注意力机制的transformer模型结构,相比lstm能够更有效地捕获长距离依赖,对句子中信息进行更充分的建模。

针对上述两个问题,radford等人提出了 gpt generative pre-training)[5],即生成式的预训练。gpt将lstm换成了transformer,获得了更高的成绩,但是由于使用的是单向模型,只能通过前面词预测后面的词,可能会遗漏信息。devlin等人提出了bert(bidirectional encoder representations from transformers)[6],即基于transformer的双向编码器表示。bert和gpt的结构和方法十分相似,最主要的不同之处在于gpt模型使用的是单向语言模型,可以认为是基于transformer的解码器表示,而bert使用的基于transformer的编码器能够对来自过去和未来的信息进行建模,能够提取更丰富的信息。三个预训练模型的图如下所示:

bert提出后大火,也许是因为bert的效果太好。目前绝大多数的预训练模型都是在bert上改造而来。清华大学的王晓智和张正彦同学给出了目前的预训练模型关系图,这里引用一下,如下图所示:

下面主要介绍几个bert变种模型。

在这项工作中,作者将预训练方法扩展到多种语言并展示跨语言预训练的有效性。笔者认为,这篇工作的创新点有两个:设计了一个用于多语言分类的跨语种的语言模型训练任务;将bert作为模型初始化用到无监督机器翻译上。

虽然bert也经过了100多种语言的训练,但并未针对跨语言任务进行优化,因此共享的知识有限。为了克服这个问题,xlm通过以下方式改造了bert:

在bert中,每个样本是用一种语言构建的。xlm对它的改进是每个训练样本都包含两种语言的相同文本。与bert一样,该模型的目标是预测被屏蔽的词,但采用新的体系结构,该模型可以使用一种语言的上下文来预测另一种语言的词。因为不同语种的被屏蔽词是不同的(随机)。改造后的bert表示为翻tlm(translation language model),而带有bpe输入的“原始” bert表示为mlm(masked language model)。通过训练mlm和tlm并在它们之间交替进行训练来训练完整的模型。

xlm说明训练一种跨语言的语言模型对于资源匮乏的语言可能非常有好处,因为它们可以利用来自其他语言的数据,尤其是由于bpe预处理而产生的相似语言。

xlm做的另一个工作是,利用bert初始化无监督模型的encoder和decoder。具体做法是在transformer的encoder端和decoder端,进行随机初始化、mlm初始化或者clm初始化(具体如图),共得到9种不同的结构。

bert的预训练是在transformer的encoder上进行预训练,所以bert天然比较亲和自然语言理解的任务,而很难应用于像机器翻译这样的语言生成类任务。

微软的工作者认为bert单纯预训练了transformer的encoder部分,但是对于端到端的任务,encoder-decoder是有关联的,如果用bert初始化encoder端和decoder端,两端只是分别训练好的没有什么联系。于是为了解决这个问题,微软的工作中提出了mass(masked sequence to sequence pre-training)。

mass是在encoder端和decoder端通过语言模型预训练。与bert不同的是mask掉的词是k个(这k个词是连续的),decoder中只输入前k-1个被mask掉的词,预测被mask掉的k个词。mass的优势有:

encoder被强制去抽取未被屏蔽掉词的语义,以提升encoder理解源序列文本的能力。

encoder端其它词(在encoder端未被屏蔽掉的词)都被屏蔽掉,可以让decoder从encoder端提取信息来帮助连续片段的预测。

encoder预测连续的序列片段可以提升encoder的语言建模能力。

mass只需要无监督的单语数据进行预训练。mass支持跨语言的序列到序列生成(比如机器翻译),也支持单语言的序列到序列生成(比如文本摘要生成、对话生成)。比如用mass做英法的机器翻译时,在一个模型里同时进行英语到英语以及法语到法语的预训练(单独给每个语言加上相应的语言嵌入向量,用来区分不同的语言)。

至于效果,在wmt19中,mass帮助微软获得了多项翻译的冠军,具体可以查看wmt19的榜单。

自回归语言模型是单向的但是天然匹配自然语言生成任务,自编码(bert)可以融合双向信息但是引入mask导致预训练和fine-tuning阶段的不一致。xlnet融合了自回归语言模型和自编码语言模型的优点。xlnet在模型方面的贡献在于,随然看上去仍然是从左向右的输入和预测模式,但是其实内部已经引入了当前单词的下文信息。

在预训练阶段,引入permutation language model的训练目标。简单点来说就是固定当前要预测的词,通过调换其余词的位置,将预测词后边的词换到当先此的前边,在随机排列组合后的各种可能里,再选择一部分作为模型预训练的输入。这样当前词就能看到上下文的内容了,但是形式上看上去仍然是从左到右在预测后一个单词。具体的实现可以看xlnet的论文。

除此之外,引入了transformer-xl的主要思路:相对位置编码以及分段rnn机制。实践已经证明这两点对于长文档任务是很有帮助的;在预训练阶段极大扩充了数据规模,并对质量进行了筛选过滤。

相对于bert模型,xlnet对于长文档的应用有明显的提升,因为transformer天然对长文档任务处理有弱点。上文提过,对于生成类的nlp任务,bert仍然不能很好地处理。而xlnet的预训练模式天然符合下游任务序列生成结果。但是目前还没有实验证明。

从bert的各类变种就可以看出bert和transformer的火爆程度,笔者认为目前预训练+下游任务微调有一统自然语言领域的趋势。预训练不仅在低资源任务上有很高的提升作用,甚至在丰富资源的任务上对模型性能也有显著的提高。如果没有超越transformer的特征提取模型提出的话,相信在bert上各类的改造会层出不穷,以适应不同类型的下游任务。还有的预训练模型在bert基础上引入知识图谱等,让bert变得更加“有知识”,如清华大学的ernie[10]。

既然各类不同的任务对预训练模型进行不同的改造,那能不能有一种预训练模型,可以适应全部的nlp任务呢,近期谷歌刚刚发布了超大规模的t5(nlp text-to-text)[11]预训练模型。它给整个 nlp 预训练模型领域提供了一个通用框架,把所有任务都转化成一种形式,无论什么任务,直接拿来一个超大预训练模型,然后主要工作就变成了怎么把任务转换成合适的文本输入输出,,比如德英翻译,只需将训练数据集的输入部分前加上“translate german to english”。

另外的思路是,不是改造预训练的模型,而是将庞大的预训练模型进行压缩,比如近期的albert,通过共享参数、引入单独的词嵌入层维度来减少bert的参数。最终性能也登上glue第一(刚刚被t5超过)。还有通过知识蒸馏技术,训练出的tinybert等,都是对bert模型进行的模型压缩。

参考文献

[1] bengio y, ducharme r, vincent p, et al. a neural probabilistic language model.

[2] mikolov t, chen k, corrado g s, et al. efficient estimation of word representations in vector space.

[3] mikolov t, sutskever i, chen k, et al. distributed representations of words and phrases and their compositionality.

[4] matthew peters, mark neumann, mohit iyyer, matt gardner, christopher clark, kenton lee, and luke zettlemoyer. 2018. deep contextualized word representations.

[5] alec radford, karthik narasimhan, tim salimans, and ilya sutskever. 2018. improving language understanding by generative pre-training.

[6] jacob devlin, ming-wei chang, kenton lee, and kristina toutanova. 2018. bert: pre-training of deep bidirectional transformers for language understanding.

[7] guillaume lample and alexis conneau. 2019. cross-lingual language model pretraining.

[8] kaitao song, xu tan, tao qin, jianfeng lu, and tie-yan liu. 2019. mass: masked sequence to sequence pre-training for language generation.

[9] zhilin yang, zihang dai, yiming yang, jaime carbonell, ruslan salakhutdinov, and quoc v. le. 2019. xlnet: generalized autoregressive pretraining for language understanding.

[10] zhengyan zhang, xu han, zhiyuan liu1, xin jiang, maosong sun1, qun liu. ernie: enhanced language representation with informative entities.

[11] colin raffel, noam shazeer, adam roberts, katherine lee,et al. exploring the limits of transfer learning with a unified text-to-text transformer.

雷锋网编辑

申博娱乐场网站

栏目热门
  • 番禺居民升挂超8700面国旗喜迎国庆:祖国强大,生活越来越好

    番禺居民升挂超8700面国旗喜迎国庆:祖国强大,生活越来越好

    随着国庆临近,番禺大街小巷红旗飘扬,禺山大地迎接新中国成立70周年的喜庆氛围越来越浓。南都记者走访社会主义新农村裕丰村、黄沙岛花园、番奥社区、岭南特色小镇沙湾古镇等地发现,番禺居民纷纷在家门口挂国旗,营造浓厚迎国庆氛围。据统计,番禺全区升挂国旗超过8700面。据了解,裕丰村共有村民1360人,村内共有别墅338间,村里主出入口、主干道以及各家各户门前悬挂国旗400面。

  • 走过藏北(二)|大山里的布达拉

    走过藏北(二)|大山里的布达拉

    据说,这样的建设选址是为了仿造拉萨的布达拉宫。原本,僧人们希望把赞丹寺建造的和布达拉宫一模一样。建设一个他们从未见过的“布达拉宫”。结果,一个想象中的布达拉宫,就建成了今天“藏北布达拉宫”的模样。老实说,赞丹寺的建设规模完全不可以和布达拉宫相提并论。但是这里的僧人要比布达拉宫的僧人和蔼的多。离开赞丹寺的时候,我回头看着大山间的“藏北布达拉宫”,它安详坚毅地伫立在山水之间。

  • 对老婆不好的男人,迟早会有这四种下场

    对老婆不好的男人,迟早会有这四种下场

    看看我们身边有成就的男人,他们对老婆都是很好的,不说怕老婆,但他们对老婆很尊重,因为他们知道,美好生活少不了老婆的存在,而那些对老婆不好的男人呢,他们的生活往往不幸福,这样的男人没有明白幸福的真谛,迟早会落得下面的下场。

  • 何洁二婚后瘦出新高度,机场穿黑裤腿又细又直,即将回归巅峰时期

    何洁二婚后瘦出新高度,机场穿黑裤腿又细又直,即将回归巅峰时期

    但最近何洁却瘦出了二婚后的新高度,12月23日,何洁现身北京机场,当天她穿羽绒服配黑色长裤,扎丸子头素颜出镜,打扮休闲俏皮。不过好在下身很显瘦,何洁下身选择的是黑色长裤,这种裤子经典百搭,穿上修身黑长裤的何洁明显看出瘦了,腿相比之前细了好多,也直了很多。照着这个趋势瘦下去,相信何洁很快就能瘦回出道时期的巅峰状态。当天何洁依旧和以往现身机场一样,是素颜出镜,连眉毛都不画,这样真实的女明星真的很少见了

  • OPPO未来不止做手机?创始人称未来三年将投500亿研发 但不太可能做汽车

    OPPO未来不止做手机?创始人称未来三年将投500亿研发 但不太可能做汽车

    12月10日,oppo的未来科技大会上,oppo不仅发布了多款产品,其创始人兼首席执行官陈明永还谈到了对公司未来发展的看法。陈明永表示,oppo的未来定位将是一家科技公司,而不只是手机公司,而自己也一直在思考做汽车这件事情。2019年,oppo在研发上的总投入为100亿元,陈明永在大会上表示,未来三年,oppo将投入500亿研发预算,主要关注5g/6g、人工智能、ar、大数据等前沿技术。

随机新闻
  • 崔玉涛问答:宝宝多大可以刷牙?用纱布“擦牙”可以代替刷牙吗?

    崔玉涛问答:宝宝多大可以刷牙?用纱布“擦牙”可以代替刷牙吗?

    能给宝宝刷牙吗?宝宝吃的母乳,后半夜也只吃一次,一天一次大便,嘴巴无异味,舌苔也不厚根据家长描述“门牙上发黄,用纱布给她擦牙蹭也蹭不下来,仔细看还有小孔”可以判断宝宝出了龋齿。一般来说,从宝宝萌出第一颗牙时,家长就应该有意识地培养宝宝刷牙的习惯,而不是“擦牙”。刷牙就是刷掉附着于牙齿上的酸性物质,预防龋齿。当然,小宝宝自己无法完成刷牙的动作,家长可以用指套牙刷为宝宝清洁牙齿。

  • 看看2017年搞笑诺贝尔奖,你们这些“不正经”科学家真是够了

    看看2017年搞笑诺贝尔奖,你们这些“不正经”科学家真是够了

    诺贝尔奖大家都知道,这是全球很多领域的最高荣誉,几乎包含了所有大方面的科学领域。而2017年搞笑诺贝尔奖早已经出炉,你们这些“不正经”科学家真是够了。第一个获得搞笑诺贝尔奖的科学研究项目是,猫到底是固体的还是液体的。第二个获得搞笑诺贝尔奖的研究是摸鳄鱼是否可以增大人的赌博欲望。而这项研究能够获得搞笑诺贝尔奖,是因为这根本什么用啊!虽然这些搞笑诺贝尔奖更多的只有娱乐意义,不过这种娱乐精神也是社会需要

  • 东莞交警铁骑进校园,他们被孩子们大声喊出的这句话感动了(附视频)

    东莞交警铁骑进校园,他们被孩子们大声喊出的这句话感动了(附视频)

    △戳上方视频5月31日上午,东莞师范学校附属小学校园内热闹非凡。东莞交警铁骑开进校园,和2000多名小学生零距离互动,让孩子们充分学习到交通安全知识和文明交通理念。此次走进莞师附小,是东莞交警儿童交通安全专项宣传教育的重头戏。东莞市公安局交警支队副政委袁蕙兰在活动上致辞。她对关心支持公安交通管理工作的学校领导和热心交通安全的老师、家长和小朋友们表示衷心感谢。

  • 济南公交出行宣传周一大波福利来袭,定制公交六八折优惠

    济南公交出行宣传周一大波福利来袭,定制公交六八折优惠

    据悉,公交出行宣传周期间,黄岗到第一医科大学的brt13号线将开通;9月16日起,在27条“夜”公交线路陆续推出“定点发车、准时到站”服务;9月18日至22日,所有定制公交线路推出六八折购票优惠活动。为进一步提升公交服务品质,结合2019年公交出行宣传周活动,济南公交将推出系列便民服务举措。针对“绿色出行卡”30日卡用户,济南公交继续推行半价购票权益优惠。

  • 被余华、马原盛赞的文学编辑家程永新“点赞”:“华语青年作家奖”的理想,也是文学同道共同的理想”

    被余华、马原盛赞的文学编辑家程永新“点赞”:“华语青年作家奖”的理想,也是文学同道共同的理想”

    每年一届的华语青年作家奖,旨在对过去一年内文坛内卓有成果的青年作家进行发掘和推广。华语青年作家奖已经成功举办两届,程永新也是连续两届的专家评审团成员。这也让程永新对“华语青年作家奖”再次点赞,“这个奖,为文学新人搭建平台,为文学发声,有助于提高文学在当下社会的存在感,非常有必要,非常有意义。”

© Copyright 2018-2019 boguslawscy.com 百导全讯网 Inc. All Rights Reserved.