关系经济人类预测化学自然
中准网
自然科学
知识物理
化学生物
地理解释
预测理解
本质社会
人类现象
行为研究
经济政治
心理结构
关系指导
人文遗产

预训练语言模型在自动作文评分中的应用

7月3日 囍孤女投稿
  一、什么是自动作文评分
  自动作文评分(AutomatedEssayScoring,AES)是指作文评分系统自动对一篇作文进行评分。AES主要包括表征和评分两个模块,其中表征模块用于将作文文本转化为一个数值向量,评分模块使用该向量计算作文分数。
  二、相关工作及问题
  AES可以分为基于手工特征的AES,基于深度学习的AES和基于预训练模型的AES。
  基于手工特征的AES:该类方法通过提取影响评分的相关特征(如语法、词汇、连贯性等),使用回归、分类或者排序模型进行评分。由于特征的设计考虑了语言学知识,该方法在小规模数据中也能获得不错的结果,但特征工程耗时耗力,在不同的AES任务上扩展性较差。
  基于深度学习的AES:该类方法通过LSTM、CNN等神经网络自动学习作文表征,获得了更好的评分效果〔12〕。其端到端的训练方式不仅节省了特征工程的时间,也增强了在不同AES任务上的可扩展性,但在数据规模较小时,神经网络方法的效果较差。有些AES通过集成手工特征和深度学习方法获得更好的效果,但依然需要较多的时间去做特征工程。
  基于预训练语言模型的AES:该类方法使用预训练语言模型如BERT、XLNet等,通过在训练集上对其进行微调更好地表征作文。但在AES任务上,该类方法的大部分工作〔35〕尚未超过传统的深度学习方法〔12〕。通过训练任务、训练策略或损失函数的优化,部分工作如〔67〕可以获得更好的效果。但是当训练方案相同时,该类方法与传统深度学习方法效果接近或者更低。
  三、基于预训练语言模型的评分方法
  在流利说的AES系统优化进程中,也经历了上述三个阶段。本篇文章我们主要介绍我们是如何改进已有的基于预训练模型的方案,并在内部数据集和ASAP〔8〕数据集上,效果显著超过基于传统深度学习(LSTM、CNN)的方法。
  问题分析
  对于目前预训练语言模型在AES任务上效果不佳的问题,我们经分析认为:目前的预训练语言模型预训练时使用的都是句子或者文本片段,而AES需要对整篇作文编码,和预训练输入存在不一致;另外由于作文数量少,直接finetune预训练模型,很难获得较好的文档表征模型。我们进一步分析认为,老师对学生作文进行评分时会从多个粒度进行评估:词汇、句子、段落、文章,如词汇是否正确、句子是否通顺、段落内语句是否连贯、整篇作文的描述是否一致等。不仅如此,老师在对作文评分时,也可能考虑所有学生分数的分布信息,以及作文之间的比较信息。
  由于预训练模型能够较好地捕获片段的特征,我们可考虑将文章按照某个尺度切分成多个片段,先使用预训练模型对片段编码,再汇总多个片段的编码来对文章进行评分。另外,由于老师在进行作文评分时会考虑作文的多粒度信息,我们可以使用多个尺度分别对作文评分,并融合多个尺度的评分结果作为最终的分数。为了使用作文分数的分布信息和作文之间的比较信息,我们引入相关的损失函数来训练模型。
  模型结构
  我们的模型结构如图1所示,图1的左半部分用于提取作文的文档尺度和词汇尺度特征并评分,右半部分提取作文的多个片段尺度特征并评分,最后将作文的文档和词汇尺度的评分、以及所有片段尺度对应的评分相加,获得最终的分数。在图1结构中,可以用XLNet,RoBERTa,Longformer等预训练模型代替BERT组件。在我们的工作中,因使用BERT时效果最好,因此我们以BERT组件来进行说明。
  文档和词汇尺度特征:将作文输入BERTtokenizer进行分词,分词后结果对应的token向量、segment向量、position向量相加,输入BERT模型。由于BERT除特殊标记CLS和SEP外,最多支持510个词汇,当分词结果数量超过510后我们做截断处理。BERT对应CLS位置的输出作为文档尺度特征,对应每个分词位置的输出经MaxPooling得到词汇尺度特征。
  多尺度片段特征:分词方式同上,对于尺度集合K〔k1,k2,ks〕中的每个尺度ki,将分词结果以ki为尺度切分为nki个片段,其中n为词汇个数。我们将每个片段对应的token向量、segment向量、position向量相加后输入BERT,对应CLS位置的输出作为该片段特征。对应尺度ki的所有片段特征经LSTM、Attention处理后,获得作文对应尺度ki的片段特征。
  分数预测:将作文的文档和词汇尺度特征拼接后输入多层感知器,获得作文在文档和词汇尺度的评测分数;将作文对应尺度ki的片段特征输入多层感知器,获得作文在片段尺度ki的评测分数;将作文对应的文档和词汇尺度评测分数、以及多个片段尺度k1,k2,ks的评测分数相加,获得最终的作文分数。
  图1:基于BERT的多尺度作文评测模型
  损失函数
  为了考虑作文分数的预测误差、分布信息、作文之间比较信息,我们使用了3个损失函数。
  MSE(MeanSquaredError):均方误差损失函数,其中N为一个batch内样本个数,和分别表示第i个样本的预测值和标签。
  SIM(Similarity):用于衡量一个batch内的样本预测分数和真实分数分布是否相似,具体如下所示,其中y和分别表示batch内样本的预测分数向量和标签向量。
  MR(MarginRanking):用于衡量batch内样本的pairwise排序是否合理,具体如下所示:
  其中为batch内pair的个数,表示batch内第i个样本的预测分数,b为超参数(我们实验中设置为0),的取值根据样本的label和确定,如下所示:
  将上述3个损失函数加权求和作为模型训练使用的损失函数,对应的权重根据验证集表现确定。
  实验结果
  我们和其他方法在ASAP数据上的效果对比见表1,和top3方法在ASAP长作文数据上的效果对比见表2。
  从表1可以看出,我们的方法12与方法9、方法10为top3。在ASAP长作文数据上,我们方法的效果(QWK0。772)超过了其他方法及相关变种(QWK0。761)。
  相对于传统的深度学习方法(方法4和方法6),我们的方法11同样使用MSE来训练模型,通过引入基于BERT的多尺度编码方式,使效果有了较大提升(QWK0。764提升至0。782)。传统的使用预训练语言模型方法,效果均未超过方法4和方法6。
  表1:ASAP数据上各方法的效果比较,其中模型名为加粗字体代表我们的方法,平均效果排名前三的方法在平均指标的右上侧标有。
  表2:在ASAP长作文数据的效果对比,模型名为加粗字体的代表我们的方法。
  除了ASAP任务,我们在内部的作文评分,文本难度分级等任务上都使用该方法进行了优化。该方法相对于传统的深度学习方法、及预训练语言模型方法,效果都有不错的提升。目前该方法已被NAACL2022录用,大家如果有兴趣,可以从arxiv网站〔9〕下载我们的论文,欢迎一起交流。
  四、流利说在AES领域的工作和产品应用
  在流利说内部,我们融合多种基于手工特征、深度学习和预训练模型的算法,研发了一套针对口语和写作的AES评测系统,部分产品应用如下所示,同时我们也提供API供外部调用。
  1。流利写作
  2。达尔文口语作业
  3。雅思流利说
  五、总结
  本文介绍了AES领域的相关方法和问题,并针对预训练模型在AES领域的问题进行分析和改进,在流利说内部和外部数据数据上取得了较好的结果,也为长文本编码提供了一种有效的编码方式。目前流利说AES在多个场景中应用,我们会持续优化AES效果,推动AES技术的进步,也为用户带来更精致的评分体验。
  参考文献
  〔1〕FeiDong,YueZhang,andJieYang。2017。Attentionbasedrecurrentconvolutionalneuralnetworkforautomaticessayscoring。InProceedingsofthe21stConferenceonComputationalNaturalLanguageLearning(CoNLL2017),pages153162。
  〔2〕YiTay,MinhC。Phan,LuuAnhTuan,andSiuCheungHui。2018。Skipflow:incorporatingneuralcoherencefeaturesforendtoendautomatictextscoring。InProceedingsoftheThirtySecondAAAIConferenceonArtificialIntelligence,pages59485955。
  〔3〕MasakiUto,YikuanXie,andMaomiUeno。2020。Neuralautomatedessayscoringincorporatinghandcraftedfeatures。InProceedingsofthe28thInternationalConferenceonComputationalLinguistics,pages60776088。
  〔4〕PedroUriaRodriguez,AmirJafari,andChristopherM。Ormerod。2019。Languagemodelsandautomatedessayscoring。InarXiv:ComputationandLanguage。
  〔5〕ElijahMayfieldandAlanWBlack。2020。Shouldyoufinetunebertforautomatedessayscoring?InProceedingsofthe15thWorkshoponInnovativeUseofNLPforBuildingEducationalApplications,pages151162。
  〔6〕YueCao,HanqiJin,XiaojunWan,andZhiweiYu。2020。Domainadaptiveneuralautomatedessayscoring。InSIGIR’20:Proceedingsofthe43rdInternationalACMSIGIRConferenceonResearchandDevelopmentinInformation,pages10111020。
  〔7〕RuosongYang,JiannongCao,ZhiyuanWen,YouzhengWu,andXiaodongHe。2020。Enhancingautomatedessayscoringperformanceviafinetuningpretrainedlanguagemodelswithcombinationofregressionandranking。InFindingsoftheAssociationforComputationalLinguistics:EMNLP2020,pages15601569。
  〔8〕https:www。kaggle。comcasapaes
  〔9〕https:arxiv。orgabs2205。03835
  作者:蓝天
  来源:微信公众号:流利说技术团队
  出处:https:mp。weixin。qq。comsMUzs9VoS7VesHErfCa02Q
投诉 评论 转载

春三月,建议常吃千金菜,天然叶酸高,营养不贵,越吃越健康春天虽然是青黄不接的时候,但是这种春菜一定不能错过!早春的莴笋最是鲜嫩可口,营养不贵还健康,早吃早受益。莴苣被誉为千金菜,含有大量膳食纤维,能够调理肠胃不适。莴笋中铁元素……世界最大的瑶寨隐藏在广东,鲜少人知道,不去看看真的可惜了我国有56个民族,占比最大的自然是汉族,其他55个民族虽然没有在历史的长河之中消失,但是随着汉族人口越来越多,这些少数民族的文化就显得越发的神秘,非常吸引游客们探访。今天……预训练语言模型在自动作文评分中的应用一、什么是自动作文评分自动作文评分(AutomatedEssayScoring,AES)是指作文评分系统自动对一篇作文进行评分。AES主要包括表征和评分两个模块,其中表征……3000元畅游泰国!满大街帅哥美女,游客却钟爱这一服务今天我就来给大家推荐一个距离我们又近,花费又便宜的国家。这里便是东南亚的泰国。(此处已添加小程序,请到今日头条客户端查看)作为我国的邻居,飞机几小时就到,假如在我国……梦幻西游,摇钱树苗特殊事件触发技巧,特赦令牌召唤术大家好,我是炮塔,全网最后一个亲测游戏体验和分享游戏攻略的老炮摇钱树苗大家都不陌生,但是论如何种植,如何触发特殊事件,更多的伙伴们都应该是选择了看脸,今天我炮塔来给大家分……被埋没八年的韩国邪典片,因尺度大胆至今无法上映,这片太敢拍了2018年,韩国电影《昆池岩》,成为当年的现象级恐怖片。影片在韩国上映后,以24亿韩元的成本最终斩获214亿韩元的票房。电影更入围了当年韩国影坛青龙奖和大钟奖在内的……2021中国智能制造50强企业排行榜出炉,海尔第一华为第三2021中国智能制造50强企业排行榜出炉,海尔第一华为第三,总的来说实至名归。但是也有的企业排名稍微有点牵强。下面简单点评:第七名中国中车:应该属于产品智能化,仅仅……互联网时代下,金融产品的营销策略互联网金融产品营销策略,希望对大家有所帮助。SEO优化自媒体运营推广短视频运营推广万相科技一、互联网时代下,金融产品的营销方式1、传统渠道的变革:从线下到线上……主机和游戏双双涨价,是玩家有钱还是索尼飘了?今年8月底,索尼正式宣布,由于国际经济环境影响,PS5在部分地区的售价将被调整,而中国的主机价格被提高了400块,目前数字版主机官方售价3499元,而可以插入光盘的光驱版价格更……爵士老大当湖人老三?湖管不打季后赛赚了,场均255球星换威少有赢家就会有输家,而今年季后赛中那些常规赛表现不错的球队也有迎来滑铁卢的,那就是爵士队,在今天的比赛中,爵士以大比分不敌独行侠遭到42淘汰,结束了本赛季的征程,根据统计,过去4……詹姆斯怒骂浓眉大脑短路浓眉致歉脑子抽了差点葬送了比赛12日,湖人以108比102击败森林狼,顺利晋级季后赛。本场比赛,湖人赢得并不轻松,曾一度落后了15分,虽然最终完成逆转拿下了比赛,但也是一波三折。其中,在最后1。4秒时,浓眉……雨岔大峡谷靖边波浪谷乾坤湾壶口瀑布安塞腰鼓7日摄影团【秦晋摄影团,西安起、太原止】雨岔大峡谷、靖边波浪谷、乾坤湾、壶口瀑布、安塞腰鼓、碛口古镇、李家山、平遥古城人文风光摄影7日线路西安壶口瀑布乾坤湾安塞波浪谷碛口古镇李家山……
2022年18句中秋节的文案可直接发朋友圈苹果iPhoneSE3跌至新低价,2022年,到底值不值得入东风标致减配不减价新车主亏了中企汉堡港收购案迎来转机,德国总理力排众议,要求交易限期完成男性最需要女人给他的个渴求黄金储备最多的10个国家,美国8133吨日本765吨,中国有荒野大镖客2大型Mod犯罪之路扮演全新角色伟大的妈妈NBA数据不会说谎?落后三分以上刷两分,也会被统计为关键得分如何装饰鞋子海明威造句用海明威造句大全国家体操队公布世锦赛参赛运动员名单
离婚可以分的财产有哪些原来友谊一直都在我身边【第19期】利用破解豪迪软件挂机赚钱操作CPA项目,日赚10只要会经营小小馒头也能生财美育对促进人的全面发展的价值员工激励招数怎样进行员工激励的培训海龟交易法创始人:一位极具传奇的交易奇才水泥做花盆(自制水泥花盆图片大全)唐纳德特朗普和梅拉尼娅特朗普卸任后的生活是什么样子陀螺里的宛转流年民事管辖权异议申请书范文妹子在镜子面前自拍秀身材没想到镜子出卖了她

友情链接:中准网聚热点快百科快传网快生活快软网快好知文好找菏泽德阳山西湖州宝鸡上海茂名内江三亚信阳长春北海西安安徽黄石烟台沧州湛江肇庆鹤壁六安韶关成都钦州