当前位置:网站首页>UIUC | 用于语言模型的课程学习
UIUC | 用于语言模型的课程学习
2021-08-08 15:40:54 【作者:ke】
【论文标题】Curriculum learning for language modeling
【作者团队】 Daniel Campos
【发表时间】2021/08/04
【机 构】UIUC
【论文链接】https://arxiv.org/pdf/2108.02170v1.pdf
【代码链接】https://github.com/spacemanidol/CurriculumLearningForLanguageModels
【推荐理由】关于课程学习和预训练的一个反面案例
像ELMo和BERT这样的语言模型作为各种下游任务的语言理解组件,提供了强大的自然语言表征。课程学习是一种采用结构化训练体系的方法,它在计算机视觉和机器翻译中被利用来提高模型训练速度和模型性能。虽然语言模型已被证明对自然语言处理界具有变革意义,但这些模型已被证明是昂贵的、能量密集的和具有挑战性的训练。在这项工作中,我们探索了课程学习对语言模型预训练的影响,使用了各种语言学动机的课程,并评估了GLUE基准的迁移性能。尽管有各种各样的训练方法和实验,我们并没有发现令人信服的证据表明课程学习方法可以改善语言模型训练。
上图展示了课程学习CBC(competence based curriculum )算法。语料库X是一个样本S的集合,其中每个样本si是一个词的序列,按难度排序使用一个启发式的方法,如句子长度或单句的稀有性,被分配一个难度。一个模型被分配一个初始能力λ0和一个能力增量λ increment,一个模型的能力分数代表了该模型在训练过程中的进展程度。在每个训练步骤中,模型从低于其当前能力λt的数据中取样,更新其权重,并增加其能力λt。
本文探索了样本难度的8个代用指标:无课程、随机、样本长度、单字样本概率、大字样本概率、三字样本概率、语篇多样性(POS)和样本依赖解析复杂性(DEP)。
上图展示了在wikitext-2(小)上的结果。我们没有发现强有力的证据表明课程的结构很重要,因为非课程(λ0=1)的表现比其他4种课程和基线的表现更好。也许最令人惊讶的是,尽管训练制度中没有正式的结构,但以总体glue分数来衡量,随机的表现优于基线。在观察单个任务的变异性时,我们发现只有CoLA、STS-B和SST在性能上有广泛的变异性。我们认为这是因为这些任务规模较小,在语言上更具挑战性。
上图展示了在wikitext-3(大)上的结果。我们发现在wikitext-2中发现的趋势不成立,因为最高性能是由基线模型实现的。我们还注意到,系统性能的排序在不同的数据集上并不成立,而且随着预训练数据集的增加,模型之间的差异性也在下降。与较小的语料库类似,我们发现ColA的灵敏度最高,并发现SST和STS-B的变异性变得更加柔和。
结论:
- 在我们的工作中,我们没有发现有力的证据表明使用课程学习能够改善语言模型的预训练。我们的基于CBC的训练机制无法学习到训练语料库的良好表征,但是他们的表征可以很好地迁移到下游的NLP任务中。我们发现,在预训练语料库较小的情况下,CBC方法可以胜过随机抽样,但随着语料库规模的扩大,这种优势就会消失。此外,我们没有发现任何证据表明任何类型的启发式难度对CBC来说都是比较合适的。
版权声明
本文为[作者:ke]所创,转载请带上原文链接,感谢
https://hub.baai.ac.cn/view/9135
边栏推荐
- Fourth in the world! Wang Sicong installed a server "readily". Netizen: trench is inhuman
- [Tencent classroom] creator zero foundation immortal practice is online!
- 跟着华为,学数字化转型(3):模式创新
- 记一次接口慢查排查
- Follow Huawei and learn digital transformation (3): mode innovation
- Record an interface slow check and troubleshooting
- @Autowired的这些骚操作,你都知道吗?
- ss -h命令
- @Do you know all these operations of Autowired?
- 使用Yolo v5进行目标检测
猜你喜欢
-
Yazid的新生舞会(线段树)
-
当creator遇上protobufjs|孕育
-
Identify and stop the process that‘s listening on port 8080 or configure this application to listen
-
为什么要推荐大家学习字节码?
-
揭秘!价值百万的像素填色解决方案,想开发绘本应用的有福了!
-
[PyTroch系列-11]:PyTorch基础 - 张量Tensor元素的排序
-
[PyTroch系列-12]:PyTorch基础 - 张量Tensor线性运算(点乘、叉乘)
-
【环境篇】第 3 节 • Navicat 环境安装
-
预训练语言模型的前世今生 - 从Word Embedding到BERT
-
讲道理,只要你是一个爱折腾的程序员,毕业找工作真的不需要再花钱培训!
随机推荐
- 华南理工 | 基于生成式的低比特无数据量化
- 微信小程序授权位置和用户信息权限(防止用户禁止后无法使用位置信息)
- 一行代码快速实现今日头条 网易新闻焦点图自动循环轮播效果
- 因果涌现:数学理论揭示整体怎样大于部分之和
- 年收入百万美元AI科学家的烦恼
- API《为什么奥运会以五色环为标志?》数据源接口
- 用一张草图创建GAN模型,新手也能玩转,朱俊彦团队新研究入选ICCV 2021
- UIUC | 用于语言模型的课程学习
- SS - H command
- Target detection using Yolo V5
- Yazid's freshman ball (thread tree)
- When creator meets protobufjs 𞓜
- 我敢肯定!你还没用过一款代码神器,只属于Creator的用户!
- 小程序页面跳转&&文章详情页的实现&&markdown格式转化为wxml显示在小程序页面里
- 49个项目管理过程ITTO整理(详细)
- 49个项目管理过程ITTO整理(详细-文字版)
- 只是想虐下春丽,一不小心撸了台游戏机...
- Cocos论坛九问九答
- Identify and stop the process that‘s listening on port 8080 or configure this application to listen
- 超详细的I/O多路复用概念、常用I/O模型、系统调用等介绍
- Why recommend learning bytecode?
- SAP Commerce Cloud UI 的用户会话管理
- 以太坊 交易 data字段 内容是什么
- SAP CRM Fiori 应用 My Note 里创建 Note 失败的一个原因分析
- 当creator遇上protobufjs|pbkiller填坑历险记
- Uncover the secret! Millions of pixel color filling solutions. Blessed are those who want to develop picture book applications!
- [pytroch series - 11]: pytorch basis - ordering of tensor tensor elements
- [pytroch series - 12]: pytorch basis tensor tensor linear operation (point multiplication, cross multiplication)
- [environment] section 3 • Navicat environment installation
- The past and present life of pre training language model - from word embedding to Bert
- Make sense, as long as you are a tossing programmer, you really don't need to spend money on training to find a job after graduation!
- South China Technology | low bit no data quantization based on generative
- Wechat applet authorizes location and user information permissions (to prevent users from being unable to use location information after prohibition)
- One line of code can quickly realize the automatic circular rotation effect of today's headlines and Netease News focus map
- Causal emergence: mathematical theory reveals how the whole is greater than the sum of parts
- The troubles of AI scientists with an annual income of millions of dollars
- API "why is the Olympic Games marked by five color rings?" Data source interface
- Create a GaN model with a sketch, which can be played by novices. The new research of Zhu Junyan's team was selected into iccv 2021
- UIUC | course learning for language model
- I'm sure! You haven't used a code artifact yet. It only belongs to creator users!