前往顾页

NLP技术对客观评教数据进行情感阐发的利用摸索实际教程

时候:2018-03-24 22:44来源:知行网www.zhixing123.cn 编辑:麦田守望者

对高校而言,讲授质量的黑白直接标示其办学程度的凹凸,同时讲授评价也是当局和教诲主管部分加强高校办理、保证讲授质量、晋升人才培养质量的首要手段。对西席讲授结果的精确评价,一方面可以作为评判西席讲授质量好坏的目标;另外一方面,对西席讲授质量进行迷信、客观、公道和全面的评价,是更公道选聘西席及评定西席晋升、晋升资格的需求,以此到达变更西席讲授的主动性,进步西席的团体本质,进步教诲讲授质量的目标。

  但是,目前在评教过程中仍存在诸多问题,这些问题直接影响着讲授质量的晋升乃至黉舍的团体生长。是以,若何降服目前高校讲授评价体系的诸多弊端,迷信公道地实现西席评价,引导教诲讲授鼎新就成为进步讲授质量过程中一个非常关头的环节。

  问题阐发

  传统教评首要依靠于门生的评教数据,体例是经由过程汇集门生年夜量的客观打分数据与主管评价语句来对不合西席的讲授服从进行评测。但是,因为技术程度的范围和技术手段的缺失,目前年夜部分高校教评仅操纵了门生、办理者、专家等客观打分数据,体例单一,形式简朴,其实不克不及作为全面衡量西席讲授服从的根据。而海量客观评教数据的沉淀,不但浪费了很多门生当真专心的讲授评价,更无法帮忙高校经由过程迷信的体例遴选出具有杰出讲授口碑的优良西席,为他们供应更好的生长平台。

  设想实现

  跟着技术的进步,若何操纵好新鲜的客观评教数据,为西席讲授结果供应评价的支撑,是我们需求处理的问题。自然说话措置是计较机迷信范畴与人工智能范畴中的一个首要标的目标,操纵NLP自然说话措置技术可以充分阐发、发掘客观评教数据,为讲授办理办事。自然说话东西箱(NLTK,Natural Language Toolkit)是一个基于Python说话的类库,它也是以后最为风行的自然说话编程与开辟东西。在进行自然说话措置研究和利用时,得当操纵NLTK中的函数可以年夜幅度地进步效力,到达事情目标。

  自然说话情感阐发目前可采取词典阐发或机器学习来进行。词典婚配是直接计较文本中的情感词,得出它们的情感偏向分值。而机器学习体例的思路是先选出一部分表达主动情感的文本和一部分表达悲观情感的文本,用机器学习体例进行练习,获得一个情感分类器。再经由过程这个情感分类器对所有文本进行主动和悲观的二分分类,终究的分类可以为文本给出0或1如许的类别,也能够给出一个概率值。机器学习的体例切确度更高,因为词典婚配会因为语义表达的丰富性而呈现很年夜偏差,而机器学习体例不会,可利用的场景更多样,不管是主客观分类还是正负面情感分类,机器学习都可以完成任务,而无需像词典婚配那样要深切到词语、句子、语法这些层面。词典体例合用的语料范围更广,不管是手机、电脑这些商品,还是书评、影评这些语料,都可以合用。但机器学习则极度依靠语料,把手机语料练习出来的的分类器拿去给书评分类,那是必定要失败的。

  颠末阐发,门生客观评教数据均为短句,90%以上少于20个汉字,语义表达清楚,根基不存在复杂谈吐。所利用语料较为狭小,85%以上均在200字语料范围内。是以,采取词典婚配法,连络情感词库进行阐发统计得出情感分值是本钱较低且精确度较高的做法。

  评教数据库与数据中间进行数据互换、洗濯

  为了满足聪明校园扶植的需求,黉舍同一数据中间年夜数据平台采取H3CDataEngine构建,很好的处理了年夜数据的存储、办理、阐发、发掘等问题,构建起了海量数据措置体系。

  新华三的H3CDataEngine年夜数据平台,是集数据汇集、存储、查询阐发、发掘、可视化揭示、利用开辟为一体的综合性数据措置产品,其可帮忙用户构建海量数据措置体系,发明数据的内涵价值。体系向下能汇集用户多源异构的数据集,向上可构建疾速的阐发利用。产品问世以来,已由过程权势巨子评测机构数据中间联盟的根本才气及机能专项测评。此中服从测评经由过程全数28年夜项测试。机能专项,在6个厂家的12项测试中获得6项第一,4项第二,产品团体才气获得业界分歧承认。

  在高校教诲信息化范畴,经由过程对重点利用处景的阐发,触及数据范例包含业务布局化数据、及时流数据、图象数据、文本数据这四种,H3CDataEngine年夜数据平台针对以上数据范例的特性,优化了底层数据库措置平台,内置了常见年夜数据阐发算法,涵盖深度学习、流数据发掘、文本措置,和年夜范围机器学习,并供应可视化数据发掘组件办事。

  本利用经由过程黉舍同一数据中间实现评教数据库与校主数据堆栈的数据互换、办理,在数据互换任务中,进行数据措置,包含去除空数据、补齐空余字段等,查询出每条门生评教数据的客观评价内容。

  操纵Python进行客观评教数据的情感阐发

  详细实现流程为:

  一是词库筹办。连络实际场景,以数据检索、去重的体例建立评价词库。

  二是语料措置、拆分词汇等。加载停词表,操纵结巴分词(jieba)将需求阐发的语句拆分成词汇。

  三是情感阐发。将拆分好的词汇与自定义的语句阐发表对应,操纵自然说话措置模块(NLTK)阐发主动与悲观词汇。

  四是成果写入数据库。遍历每条客观评教数据,将措置成果写入评教库中,如图1所示。

  图1 将客观评教数据写入数据库中

  第一列为拆分后的评价内容,用来揭示页面上的门生评价语义阐发和门生详细评价。标识表记标帜一的内容为主动评价数,标识表记标帜二的内容为悲观评价数。

  可视化设想

  讲授评价体系可视化设想采取了echarts开辟组件,可以流利的运行在PC和挪动装备上,兼容以后绝年夜部分浏览器,底层依靠轻量级的Canvas类库ZRender,供应直观,活泼,可交互,可高度个性化定制的数据可视化图表。

  本案例采取了多种丰富的可视化设想结果,采取了包含雷达图、饼图、词云阐发等多种图例,直观揭示自然说话情感阐发成果,用户遍及反应杰出。

  结果揭示

  客观评价

  客观评价别离来源于专家、西席、门生三类人群打分分值,并且经由过程建立数据模型,从门生、西席、班级三个角度来对原始数据进行措置与和优化,以处理歹意评教、数据辨别度不敷等问题。终究成果以百分制采取流量图情势进行揭示。

  客观评价

  门生评价的详细语句以主动动弹的体例进行揭示;门生评价语义阐发以环状图的体例揭示筛选出的排名前十名的评价关头词;情感阐发成果以正面和负面评价人数及其占比的体例揭示该名西席正负面情感阐发成果。

  目前,经太小范围利用测试,学院的讲授办理职员和西席均对此表示承认,该体系能有效操纵海量的客观评教数据,年夜年夜加深了他们对门生评教反应的了解和熟谙。

  改进晋升

  固然,操纵NLP进行教评情感阐发已年夜年夜进步了门生客观评价数据的操纵度,也能根基精确反应讲授评价的客观阐发成果,但在措置过程中,仍存在着必然缺点。

  第一,因为中文语义表达的丰富性而呈现偏差。如某同窗评价语句为:“课程太难,不好了解”,拆分词汇后“太难”、“不好了解”会被定义为负面评价词汇,但实际上该同窗仅是对课程做出评价,其实不是对教员的讲授进行评价,因此呈现误判。

  第二,词库的词汇量无限,对判定成果的阐发具有范围性。词典婚配法天赋特性决定,词库质量直接影响成果的精确性。尝试中,我们采取的主动词汇和悲观词汇的词库词汇量无限,当超出词库所包含的词语范围后,便无法对某些词语进行阐发婚配。当门生利用一些别致词汇(如收集用语和新呈现的风行语等)进行评价时,此阐发体例将会具有必然的范围性,需按期对词库进行弥补进级。

  第三,操纵机器学习的体例进行情感阐发。机器学习的文本分析体例有很多,如朴素贝叶斯和支撑向量机等模型构建体例,或采取深度学习卷积神经收集阐发复杂文本,目前进步非常快,因为是从年夜量练习样本数据中学习分类模型,这类体例具有人工干预少、通用性和矫捷性较强且对范畴和说话知识请求较少等长处。对长文本,复杂语义的内容,利用机器学习的体例进行阐发,精确度将年夜年夜进步,同时不再受词汇库等的范围。将来,打算采取机器学习、深度学习体例进一步改进阐发模型,使其利用范围更广,利用结果更好。

  (作者单位为西南财经年夜学收集信息办理中间)

来源:中国教诲收集作者:范宇辰 陈伟
顶一下
(0)
0%
踩一下
(0)
0%
------分开线----------------------------
标签(Tag):NLP技术 客观评教数据
------分开线----------------------------
颁发评论
请自发遵循互联网相关的政策法规,严禁公布色情、暴力、革命的谈吐。
评价:
神色:
考证码:点击我更换图片
猜你感兴趣