达观动态

达观愿与业内同行分享 助力各企业在大数据浪潮来临之际一起破浪前行

不止你们可以吐槽高考作文,机器也可以!

在吐槽满屏的高考季,高考作文成最大槽点。如果我们放下人类的架子,从AI算法的角度来观察,会不会看到什么新奇的结果?小编向达观AI机器君投喂了近几年的高考命题和满分作文,利用文本挖掘技术,带你揭秘高考试卷背后的种种细节。

题图

多读书,一定要多读书

拿到今年的高考试题,机器君就算出了热度最高的关键词。去掉了诸如“题目自拟”,“篇幅不限”等通用词以及“的”、“了”等虚词,Top10是下面这些:

2

稍加分析,可以发现这些词分为三个大类:我们自身,外部社会以及阅读。“我们”、“我”、“自己”属于第一类,“人”,“纽带”,“他们”,“中国”,“时代”属于第二类,“书”、“阅读”、“书店”属于第三类。

事实上,强调关注自身、关心社会和阅读求知,一直是高考命题的重心所在。我们继续向机器君投喂了过去三年的高考作文题目,得出了Top15如下:

3

是不是有点似曾相识?除了“书店”以外,今年的热词都是往年的熟面孔。往年的这些高频词,同样可以系统地纳入“我们自身,外部社会以及阅读”这三大范畴。比如“范儿”这一流行词体现的是一种社会现象,“学习”和“阅读”属性相似,“生活”则是我们自身与外部社会结合的结果。

了解了高考命题的侧重点和思路,一篇好的高考作文的要素也就呼之欲出:一方面要善于观察和思考自身与社会,另一方面,要“腹有诗书”,才能厚积薄发。接下来,我们将向机器君投喂最近5年的满分作文,看看它对写好一篇高考作文,还有哪些其他见解。

结构灵活多变,脉络始终清晰

一篇好的作文,既要关心人生与社会,传达出富含底蕴的内容,也要打造令人赏心悦目的修辞风格,展现出形式的美感。

所以,高考阅卷老师最偏爱什么样的形式呢?

去年全国卷I的作文题目是看图说话:

4

有考生们写出这样的题目《致母亲的一封信》……

第一眼看到这个题目小编是一脸懵逼的。

不过,用文本摘要算法自动摘取了关键句后,对文章就有了一个清晰的概观:

5

显而易见,文章的结构是先点题再讲故事,情节先就是两条——“你对我一往情深”+“可是我活得很累”,骨架十分清晰。即使把选取范围缩减到三句,也仍然能体现这些信息:

6

除了“正-反-合”式的典型辩证法逻辑,完全从反面来立论的“反-正”结构也不在少数,在议论文中尤其多见。

比如2014年全国卷II的主题是“给野生动物喂食,易使它们丧失能力”,满分作文《授之以渔,摆脱依赖》的top5关键句如下:

7

前面四句都是从反面来论证,“太溺爱必酿恶果”,最后才引出结论——“不如放手”。这种写法“欲扬先抑”,最后点睛,能产生“四辆拨千斤”的结果。

此外,“重叠式”的结构效果也不错。2013年的全国卷1的作文试题围绕“切钻石”,试题的关键句是“不去想价值(方面)的事,手就不会发抖”,当年的优秀作文《钻石有价,我心泰然》就据此展开了论述。对其进行文本摘要处理,抓取关键句如下:

9

这篇文章采用的结构是用排比的方式,重复突出“唯有……才能……”这一形式的论点,从而让阅卷老师产生深刻的印象。不过这样的论述毕竟有些单薄,这可能也是这篇文章虽然得分不低,但没有摘到满分桂冠的原因。

上述这些作文虽然采用了不同的结构,但是都有一些共同的形式上的特点——每一段的主题都很清晰,全文的脉络也自然连贯。

修辞简约受青睐

修辞也是文章形式的重要组成部分。修辞手法一般可以分为“消极修辞”和“积极修辞”两大类。前者强调结构清晰、表达明确、节奏允当,打造的是简约风格,后者则强调使用比喻、排比等手法,能营造出丰繁、绚烂的风格,产生引人入胜的效果。

对于高考作文来说,到底哪种风格更受青睐呢?

首先,机器君对近5年的30篇高考优秀作文进行了“句长方差”分析。
这些文章的句长方差均值为7253,最大值为16224,最小值为1595,差别还是有点明显。
不过一串数据的平均值受极端值影响明显,这串数据的中位数仅为5103,方差超过10000的仅有3篇,可见这串数据呈现某种偏态分布,方差较低的文章在整个优秀作文语料库中占据更多的比重。
从文章风格上说,方差较小说明作者用的长句较少,短句之间搭配也比较平稳,这样会使文章易读、易理解。而方差较大则说明作者在行文中往往长短句交错使用,相对易读性会较差。

除了方差,机器君还对这些文本做了姓名识别。我们概念里总觉得,多引用名人名言能提高文章的“逼格”,提升文章的分数。但从高分作文中的姓名统计来看,事实并非如此。我们利用姓名识别算法识别出近5年的30篇(样本可扩大或不提具体数字)优秀作文中出现的热门人物,发现最热的居然是TA:

10
排名前五位的都是虚拟人物,其中出现频次最高、也最让人陌生的李明、苏觉是作文《双赢》中的两个虚拟主角;陈先生、小羽和老王是该年试题中的人物。

紧随其后我们看到了熟悉的名字,乔布斯,杨振宁,陶渊明,鲁迅……

经过分析,这些人物又可分成两类。乔布斯、杨振宁等属第一类,他们主要作为一个故事案例集中出现在单篇文章中。而陶渊明、鲁迅则属另一类,他们经常在不同的文章中露面,每次仅仅po出一段金句,然后就事了拂衣去,深藏功与名。

从姓名识别的结果我们可以发现,首先,名人名言的引用并非与高分作文有必然联系。如《致陈先生的一封信》、《双赢》等,完全围绕身边的人或虚拟人物来写,根本不提及名人名言,最后仍然得到好评。其次,名人名言的引用多样性很重要。优秀作文中对名人的引用没有集中在少数大家都熟知的人物上,通常是多点开花,涉及多个领域。比如在2016年全国卷III的满分作文《成功创业新模式:天地人和》中,提到了袁隆平、恩格斯、诗人特朗斯特罗姆,比尔·盖茨、托尔斯泰等人物,涉及农业、哲学、文学、创业等多个领域。通观近年的优秀作文,即使是陶渊明、鲁迅这样的常见人物,在一篇文章中通常也不会出现超过一次。

无论是句长方差还是名人出现频率,都指向一个共同点,那就是高考阅卷老师不喜欢花哨的套路,更喜欢在有限的篇幅里把内容讲清、讲透的简约“范儿”。想想也是,毕竟每份高考作文的平均阅卷时间相当短,一篇文章只有在做到结构清晰、修辞简约,才能提高易读性,从而引起阅卷老师的注意。

“正能量”不足易致低分

和历年的满分作文相比,还有一群另类的存在也同样获得了大家关注,那就是千奇百怪的“零分作文”。

和满分作文相比,零分作文在文本指标上会有哪些特点呢?

真的有点像托尔斯泰所说的,幸福的作文都是相似的,不幸的作文各有各的不幸。从句长方差、姓名识别等角度来分析零分作文,显著性并不突出。不过,如果从情感分析的角度切入,两者之间的差异还是很明显的。

2015年的天津卷的主题是“范儿”,可是有位段子手写出了题为《范儿是我女朋友》的作文。我们将之和当年的满分作文《独一无二的“中国范儿”》进行摘要处理和情感分析,所得结果如下:

11

上表中的情感值,表示该句子呈现出积极情绪的概率。从中可以看出,满分作文的每一段均体现出较强的“正能量”,而零分作文在情感表现上则有点“不阴不阳”,甚至还出现了“范儿冷不防重重地甩过来一个耳光”这样的“暴力”内容,被机器直接评出了0.04的低分,实在有点尴尬。

情感表现上的不“积极”事实上不止会带来“负能量”的观感,而且会让人觉得修辞色彩和意思表达不够明确。在高考评分标准中,符合“偏离题意、中心不明确、内容不当、思想不健康、感情虚假”等项就可评为0分作文。倘若情感上偏向负面,那么触碰这些红线的概率就大大提升了。

小结

前面,我们从内容和形式两方面对高考作文的命题和范文进行了分析。

从内容上说,高考命题始终紧紧围绕“我们自身”,“外部社会”以及“阅读”这三个主题,鼓励考生对个人人生和社会多思考多观察,并加强阅读积累,提升文化底蕴。

从形式上说,高考阅卷偏爱主题结构清晰,脉络连贯,修辞简约的风格,对于花哨的套路以及“负能量”较为“嫌弃”。