公务员考试中,行测是客观题,智能批改技术上很容易实现;申论是主观题,如何实现智能批改?猿题库公务员产品运营总监张小龙讲解了猿题库的做法,看他是如何突破层层困难的。

张小龙:猿题库申论智能批改系统是如何实现的?

2014-06-03 14:39:29发布     来源:多知网    作者:张小龙  

  编者按:公务员考试中,行测是客观题,智能批改技术上很容易实现;申论是主观题,能实现智能批改吗?猿题库公务员产品运营总监张小龙讲解了猿题库申论智能批改系统的做法,看他是如何突破层层困难的。

  以下为全文:

  在考试中我们习惯把选择题称为客观题,论述题称为主观题。对应到公务员考试中,行测就是客观题,申论就是主观题。顾名思义,所谓的主观就是需要人来评价,但是人的评价会受到个人的认知水平、情绪、阅卷时间等等各种因素的影响,这样一来,申论得多少分好像就变成一件说不清楚的事了,考试就变成了拼人品、拼运气的考试,更有甚者说申论考试是内容大于形式,阅卷人根本就不会仔细看内容,只要字写得好,卷面整洁,得分就高…… 很多人开始不学习了,天天练字。亲,作为一个选拔国家人才的标准的考试,完全主观,你觉得可能吗?

  先了解一下申论阅卷流程。申论阅卷是双人批改——一份卷子由两个批改,取批改的平均分,如果误差太大,会提交第三人审核。如果评分全是主观的,全是感觉,一定会产生巨大的分差,阅卷一定进行不下去。申论阅卷流程决定了这个考试必须要客观化、标准化。这种客观化的程度在很多时候甚至一点都不比选择题低,比如一些阅卷规则里会非常明确说明出现某某字样就给2分等。这种情况不是个例,而是常态,尤其是小题目,为了提高阅卷效率,降低阅卷误差,很过阅卷规则都会把得分点锁死。我手里收集到的阅卷规则,小题目的分数,80%以上都是按点给分的。

  这种阅卷方式为申论智能批改提供了可能。在技术上是完全可以实现对作答信息的读取和识别的,只要知道阅卷规则的内容,对客观性很强的题目就可以实现智能批改。2012年我开始筹划这个事情,但是遇到很多的麻烦:

  第一个麻烦是得分点不固定。按点赋分分为两种:一种是按词,即写到一个固定词就赋分;另一种是按意,即写到类似的意思就赋分。前者很容易实现,语词的读取技术上没有任何困难。后一种赋分方式需要实现语义的识别,这种技术不要说在汉语这种象形文字中,就是在符号文字印欧语系中都是很大的难题。但是后来经过对大量阅卷人的调查,我们发现,即便是按意赋分的规则,在实际阅卷操作过程中,阅卷人也会把意定位在几个固定的词上,并且这些词是非常有限的,一般情况下,一个得分点同义词表达赋分的不会超过三个。得知这个情况我很兴奋,觉得这事有眉目。但是接下来的问题是:很多阅卷规则上只有一个词,我们并不知道其它几个词是什么,怎么来的。我们开始采取的办法是,多写一些词,一个得分点写十个八个,努力做到词义的全面覆盖。采用这种方式进行测试后果就是:分数普遍偏高。后来经过反复试验和研究,我们找到了准确定位按意赋分关键词的方法。具体怎么找到的,是秘密,不便告知。

  第二个麻烦是,除了按点赋分以外,还有一些根据格式、逻辑、搭配等方式来赋分的。比如是否有标题,是否有抬头,落款等等,由于我们的系统没有给出标准的格子,用户在提交答案的时候标题五花八门,在格式识别上出现很大的误差,在我们工程师们反复研究和改进下,这个问题很快得到解决。逻辑、搭配等问题上通过添加标签,设置规则,设置并读取固定的语词顺序等方式很好的解决这些问题。通过调整,智能批改系统能够实现对固定逻辑关系的完全读取,不固定的多重逻辑关系大部分读取。同时根据搭配的强弱状况,除了实现对固定搭配100%准确读取以外,对非固定变形的搭配实现大部分读取。我必须承认,目前我们没有完全解决逻辑和搭配的问题,不过这类要素在赋分中比重非常小,占整个分值的比重不超过20%,而智能批改系统能准确的读取80%以上的信息,误差在5%以内。

  第三个困难,也是最大的困难,是对文章写作的批改。我们激烈争论过要不要做文章的批改,很多人都认为这是不可能完全的任务,认为文章是完全主观的。其实申论文章和其它小题目一样,同样带有很强的客观性。可以设想一下,一篇40分左右的作文,如果没有客观的标准,双人批改的误差会变得更大。申论写作的客观性要远远高于高考等作文的客观性,这大大降低了智能批改的难度。通常情况下,申论文章评分会根据四到六个要素来评定一个文章等级,这些要素主要包括:核心观点、文章结构、论证手法、逻辑关系、语言表达、感情色彩等。核心观点往往是确定的甚至是固定的,能够实现100%的读取,而观点在绝大部分申论写作中又是最基础,最重要的,它关系到文章是否偏题。能读取观点就成功了一半。文章结构、论证手法通过关联词设置、观点顺序的设置、智能系统的语词分析,准确识别率60%以上。表达和感情色彩等主观性过强的要素的读取是最难的,尽管我们通过标点位置、语气词使用等方式完成一定读取,但是识别率还是比较低,这也是我们这系统读取最弱的部分,我们一直努力在找解决方案。不过总体上说,这部分的分值在申论阅卷中并不大。

  尽管我们投入了巨大的力量,必须承认,作为国内第一个也是唯一的一个申论智能批改系统,这个产品并不完善:系统在对错别字、病句、卷面识别方面都没有进行评价;能够批改题目的还非常少,只有联考和国考等有限的几套题目…… 这些种种问题不是我们退缩的借口,恰恰会成为努力的理由。

  很多人到目前为止也不相信主观题能够在一定程度上实现客观评价,总是认为人工才是靠谱的。就如当初西医传入中国的时候,大家宁愿相信中医望闻问切,不相信西医的仪器设备,历史经验证明西医在很大程度是有效的,尤其是在检测方面比人更加靠谱。科技会让学习变得便捷、简单、而快乐。自从科技诞生以来,它改变着我们的生活的方方面面,医疗、娱乐、出行等等,但是科技好像很少改变学习方式。申论智能批改系统是通过科技的方式找到成本更低,效率更高,效果更好的学习方式的一次尝试,是科技试图改变学习方式的一次努力。

  科学让生活变得更美好,科学让学习变得更简单,让科技之光照亮我们前进的道路。

  张小龙 甲午年 五月初六 早晨 于北京