您正在使用IE低版浏览器,为了您的雷锋网账号安全和更好的产品体验,强烈建议使用更快更安全的浏览器
体彩四川金7乐走势图 人工智能 正文
发私信给雷锋字幕组
发送

0

香港金多宝开奖结果: 三分钟带你读懂 BERT

本文作者:雷锋字幕组 2019-03-21 10:04
导语:由谷歌公司出品的用于自然语言理解的预训练BERT算法,在许自然语言处理的任务表现上远远胜过了其他模型.

体彩四川金7乐走势图 www.kv7ue.cn 三分钟带你读懂 BERT

本文为 AI 研习社编译的技术博客,原标题 :

BERT Technology introduced in 3-minutes

作者 | Suleiman Khan, Ph.D.

翻译 | 胡瑛皓、stone豪         

校对 | 酱番梨        审核 | 约翰逊·李加薪       整理 | 立鱼王

原文链接:

https://towardsdatascience.com/bert-technology-introduced-in-3-minutes-2c2f9968268c


由谷歌公司出品的用于自然语言理解的预训练BERT算法,在许自然语言处理的任务表现上远远胜过了其他模型。

BERT算法的原理由两部分组成,第一步,通过对大量未标注的语料进行非监督的预训练,来学习其中的表达法。其次,使用少量标记的训练数据以监督方式微调预训练模型以进行各种监督任务。预训练机器学习模型已经在各种领域取得了成功,包括图像处理和自然语言处理(NLP)。

BERT的含义是Transformer的双向编码器表示。 它基于Transformer架构(由Google于2017年发布,《Attention Is All You Need》)。 Transformer算法使用编码-解码器网络,但是,由于BERT是预训练模型,它仅使用编码来学习输入文本中的潜在表达。

三分钟带你读懂 BERT

Photo by Franki Chamaki on Unsplash


   技术

BERT将多个transformer编码器堆叠在一起。tranformer基于著名的多头注意???multi-head attention)。 它在视觉和语言任务方面都取得了巨大成功。关于attention的回顾,请参考此处:

//mlexplained.com/2017/12/29/attention-is-all-you-need-explained/

BERT卓越的性能基于两点。 首先创新预训练任务Masked Language Model (MLM)以及Next Sentence Prediction (NSP). 其次训练BERT使用了大量数据和算力。

MLM使得BERT能够从文本中进行双向学习,也就是说这种方式允许模型从单词的前后单词中学习其上下文关系。此前的模型这是做不到的。此前最优的算法称为Generative Pre-training (GPT) 该方法采用了从左到右的训练方式,另外ELMo 采用浅双向学习(shallow bidirectionality)。

MLM预训练任务将文本转换为tokens,把token表示作为训练的输入和输出。随机取其中15%的token进行mask,具体来说就是在训练输入时隐藏,然后用目标函数预测出正确的token内容。这种方式对比以往的训练方式,以往方式采用单方向预测作为目标或采用从左到右及从右到左两组(单方向)去近似双向。NSP任务通过预测后一个句子是否应该接在前一句之后,从而使得BERT可以学习句子间的关系。训练数据采用50%顺序正确的句子对加上另外50%随机选取的句子对。BERT同时训练MLM和NSP这两个目标。


   数据及TPU/GPU运行时

BERT训练使用了33亿单词以及25亿维基百科和8亿文本语料。训练采用TPU, GPU,大致情况如下.

三分钟带你读懂 BERT

BERT训练设备和时间 for BERT; 使用TPU数量和GPU估算.

Fine-tuning训练采用了2.5K~392K 标注样本。重要的是当训练数据集超过100K,在多种超参数设置下模型显示了其稳健的性能。每个fine-tuning实验采用单个TPU均在1小时内完成,GPU上需要几小时。


  结果

BERT在11项NLP任务中超越了最优的算法。主要是3类任务,文本分类、文字蕴涵和问答。BERT在SQUAD和SWAG任务中,是第一个超过人类水平的算法!

三分钟带你读懂 BERT

BERT 论文中结果 https://arxiv.org/abs/1810.04805


   在分享中使用 BERT

BERT目前已开源: https://github.com/google-research/bert 分别用TensorFlow和Pytorch预训练了104种语言。

模型可进行fine-tuned,然后用于多项NLP任务,诸如文本分类、文本相似度、问答系统、文本标记如词性POS命名和实体识别NER等。当然预训练BERT计算上相当昂贵,除非你采用TPU或类似Nvidia V100这样的GPU。

BERT技术人员同时也放出了多语言模型,模型采用Wikipedia里的100多种语言。不过多语言BERT模型比单语言模型的性能要略低几个百分点。


  批判

BERT在MLM任务中的mask策略对真实的单词产生偏见。目前还未显示这种偏见对训练的影响。


   参考文献

[1] https://cloud.google.com/tpu/docs/deciding-pod-versus-tpu

[2] Assuming second generation TPU, 3rd generation is 8 times faster. https://en.wikipedia.org/wiki/Tensor_processing_unit

[3] //timdettmers.com/2018/10/17/tpus-vs-gpus-for-transformers-bert/

想要继续查看该篇文章相关链接和参考文献?

点击【三分钟带你读懂 BERT】或长按下方地址:雷锋网(公众号:雷锋网)雷锋网雷锋网

https://ai.yanxishe.com/page/TextTranslation/1509

AI入门、大数据、机器学习免费教程

35本世界顶级原本教程限时开放,这类书单由知名数据科学网站 KDnuggets 的副主编,同时也是资深的数据科学家、深度学习技术爱好者的Matthew Mayo推荐,他在机器学习和数据科学领域具有丰富的科研和从业经验。

点击链接即可获?。?/span>https://ai.yanxishe.com/page/resourceDetail/417



雷锋网原创文章,未经授权禁止转载。详情见转载须知。

分享:
相关文章

文章点评:

表情
最新文章
请填写申请人资料
姓名
电话
邮箱
微信号
作品链接
个人简介
为了您的账户安全,请验证邮箱
您的邮箱还未验证,完成可获20积分哟!
请验证您的邮箱
立即验证
完善账号信息
您的账号已经绑定,现在您可以设置密码以方便用邮箱登录
体彩四川金7乐走势图 以后再说
  • 6月12日凤凰直通车:郎酒发文:小郎酒新、老两款产品长期并行出口 产品 2019-03-23
  • 相比停球失误 王燊超的工作态度比工作能力更低端 2019-03-23
  • 外国领导人祝贺我新一届领导人 2019-03-16
  • 李思思元元月亮姐姐 盘点央视主持人与子女温馨合影 2019-03-16
  • 怎么也没有觉察到是什么向美国靠拢呀,只不过就是租借土地搞经济开发区吗,而且 听说 在骚乱中反华势力也不小呢, 2019-03-14
  • 梁家河,一个中国村庄的幸福与奋斗 2019-03-04
  • 李冰冰:深海潜水挑战极限 2019-03-04
  • 蔡名照会见越通社社长阮德利 2019-01-23
  • 创造历史!权健恐成亚冠唯一中超队 索萨帅位转危为安 2019-01-23
  • 【理上网来·辉煌十九大】澳大利亚专家:一个强大自信的中国会给世界带来更多机遇 2018-10-27
  • 端午假期 广州旅游业吸金37亿 2018-10-27
  • 越南的现状应该给中国敲响警钟,强坛更是如此。上城客们现在是在动嘴,造舆论煽风点火,不防到点,越南现在发生的事情也可能在中国出现。 2018-10-20
  • 传媒每周热闻第359期:第41次《中国互联网络发展状况统计报告》发布 新浪微博热搜下线整改 2018-08-09
  • 556| 136| 798| 288| 47| 812| 656| 638| 755| 136|