前往顾页

高校数据质量办理体例

时候:2018-04-02 22:39来源:知行网www.zhixing123.cn 编辑:麦田守望者

跟着高校信息化事情的不竭深化,高校订数据质量的请求也渐获得各方正视。数据质量的好坏决定着信息化事情可否从数字校园的扶植成功过渡到聪明校园的扶植。本文经由过程数据汇集、存储、利用等介绍,提出的数据质量办理体例,对实现数据流转优化事情有着主动的意义。

  跟着高校信息化事情的不竭深化,特别是基于数据的决定计划支撑的正视,对数据质量的请求也渐获得各方正视。一方面,数据范围日趋庞年夜,对师生的数据办事的请求也在不竭拓展、进步,包含数据根本清算、查询统计、向浅显用户供应信息咨询、对办理层供应决定计划根据;另外一方面,各级教诲部分、全社会各行各业、高校本身办理和办事部分对高校教诲统计信息都愈来愈正视,统计数据在政策决定计划、科研办理、教诲质量评价等方面被遍及利用。

  数据质量的观点

  图1将数据质量的常常利用评价标准遵循4个不合的方面进行了描述。可获得度指用户获得数据的可能性和便利程度,在汇集数据之前,用户必必要考虑可否获得、怎样获得数据。可了解度是指数据必须是用户可以了解的,包含语法、语义等,利用户可以了解数据,从而才可发掘数据,这是根本的请求。可托度是对数据的实在性的测度,可托度相对较笼统、客观,可详细再分别为精确性、分歧性、完整性、独一性、可靠性等详细的维度进行评价。可用度是指数据对用户的功效的年夜小,数据是精确的但是不必然成心义,或对某一群体用户有效,对其他用户是没有需乞降功效的,包含相关性、时效性、可比性、有效性等。同时,它们也是相反相成的,如果数据精确性差,那么它的可靠性、有效性也就年夜打扣头,如果数据可以或许做到精确、分歧、偶然效,那它必定也是比较有可靠性的。

  高校数据质量的现况

  客观上的正视程度

  愈来愈多的高校信息化从业者已开端正视起高校数据及数据质量相关问题了。在学术上,简朴地从2002至2014年度的某数据平台关于数据质量的研究趋势上,便可直观感受到比来几年对数据质量的相关研究的热度在持续不变的下跌。从2002~2005年间每年30篇以下的论文数量,至2012~2014年间超越150篇,年度射中数从20上浮至50。此中高校+数据质量的相关研究数量和趋势近似,同时,高校的数据质量问题与高校信息化扶植的生长过程紧密密切相关。

  目前,高校的信息化扶植过程从“部分信息化”向“全面信息化”转变,扶植内容从信息化根本扶植转变成信息化办事扶植,扶植的核心从“供应最根基的信息化办事和满足根基办理请求”逐步转移到了“若何更好地向师生供应数据办事、决定计划支撑”。信息集成和利用集成是年夜势所趋,而在信息集成的过程中,数据质量可能会呈现怎样的问题?若那边理各种数据质量问题,有效地汇集、洗濯、存储、推送、发掘、闪现数据,每步都值得年夜书特书,终究使数据终究可以或许满足用户需求。

  客观上数据质量的实际环境

  在对高校各种业务数据的实际利用过程中,还是可以或许发明数据质量的不足。以后高校数据质量首要存在以下几个问题:

  一是数据泉源不明白,造成数据独一性、精确性问题。一方面多是办理天性机能有所堆叠,一方面也多是常常利用的信息在多个业务环节都进行了反复汇集,比方师生的联系体例信息。同一个字段,可能不合的体系中都存在,但是存在出入,那么以哪个为准呢?

  二是数据汇集后,格局不同一,不完整,造成数据完整性、语法问题。这是因为不合部分,乃至不合操纵员之间对同一数据的利用习惯和体例不分歧酿成的,可能仍有部分数据其实不完整。

  三是数据不及时,造成时效性、精确性等问题。因为汇集周期或同步推送周期的影响,各利用端利用的数据可能其实不是最新的。

  四是数据共享问题,有些数据仍不克不及便利地获得,或不克不及保证周期性地获得精确切时的数据。

  五是对汗青数据和冗余数据还没有同一完美的措置体例。

  数据质量对数据办事的影响

  如在实际事情中,产生了上述数据质量问题,将会直接影响到各体系间的协同效力及利用结果,降落师生的利用对劲度。

  起首要保证数据的独一、完整、精确、可靠、可了解,保证数据是可利用的。如数据首要的这几个属性得不到保证,后续的相关统计报表,战略建议的可靠性也就年夜幅降落了。

  同时要保证数据的时效性,旧的数据即便精确可靠,但是不克不及满足用户的需求,它就是低质量的数据。比方用户在校园卡终端想要查询到本身当天的消耗余额、消耗记合用以查对本身的支出环境,如果反应的数据较着是多少天前的,明显不会让用户对劲。

  如数据质量较差,将会给办理职员和用户带来很多利用上的不便,由这些数据延长出来的报表和战略建议常常也是充满了冲突、漏洞和较着的不公道处,需求人工再次进行纠错、查对,增加事情量。举个例子,某次关于黉舍门生留宿信息进行统计时,发明在校留宿门生比黉舍门生总人数还多10%,这是不合常理的。颠末实地查询拜访,发明部分是因为有一些老生固然已退宿并离校,但其在留宿体系中信息还未被确认,部分是因为有些门生需求进行练习,请求了另外一个校区的宿舍,是以其同时有了两条留宿信息,也有部分是因为黉舍摆设教诲员住楼,更好地展开门生事情,但是在留宿体系中错误地登记为门生留宿。此中,有办理上的问题,有信息体系字段办理的问题,也有统计体例的问题,但毕竟也是数据质量的问题,该数据的时效性、精确性、完整性很需求进行晋升。

  以华东师年夜为例采纳的办法

  数据汇集:对峙“一把手”录入

  数据泉源的梳理是华东师年夜信息办平常事情之一,在各信息体系扶植的后期调研事情中,就经由过程业务梳理等事情明白数据源,在泉源上严把数据质量关。明白数据的每个字段的独一来源以后,监督和指导该业务卖力部分完成其应担当起的保护任务,及将数据推送给其他业务部分的共享任务。

  当该事情的服从奉行到全校各个业务体系后,任一信息体系需求利用某数据时,都有一个渠道获得权势巨子、精确的数据。同时,可有效减少非数据源部分汇集数据的事情量,避免多头汇集的问题。

  比方门生的手机号信息如以在教务处登记的为准,在门生在报修登记时体系可直接读取到该字段,并告诉门生报修进度,门生发明读取到的联系体例已颠末时了,可以去往教务体系对应入口进行点窜等。

  数据存储:集合建立数据中间

  起首,在各数据源地点信息体系中,进行开端数据梳理和洗濯,建立有完整数据了解度较高的多个视图、字典表等。然后,摆设Oracle数据库,将从数据源获得的源数据经由过程ODI等ETL东西,将数据进行汇集、存储在数据中间。

  比方在教务相关体系中,门生相关的数据表可能就有门生根基信息表、门生选课信息表、门生范例字典表、学天生绩表、课程评价表、课程根基信息表等。在对它们进行数据梳理和洗濯时,要将原根本表中较难堪了解的字段,替代为字典表中的详细表述,将“1”、“2”替代为男女,将“0129”替代为“藏书楼”;也要按照需求将零散在各个表中的数据清算到一张表中,比如全校门生小我信息所有字段表,因为本来门生的姓名、性别、学号、身份证等在根本信息表中,而他的籍贯、生源地在门生入学信息表中。

  数据利用:同一发出接口

  按照业务信息体系的对数据的需求环境,统合、清算数据,再操纵WebService、ODI等多种东西推送到各个业务体系中去。

  例现在朝在建的新门生留宿体系,仅需向信息化办公室提出其扶植中的详细数据需求,便可从数据中间经由过程各接口获得门生根本数据、门生-教诲员关系数据、教诲员根本数据、门生留宿费缴费数据、重生兴趣喜好数据等,而不需求关心数据怎样从教务体系、研究生体系、学工体系、人事体系、迎新体系、财务体系等其他业务体系中获得。而在后勤宿舍办理员在实际利用中,发明数据不精确的环境时,可以将问题反应给信息化办公室,数据中间办理职员可据此倒推回到数据源,告诉数据源业务体系卖力教员,进行进一步数据核验、修改等。

  扶植数据流转框架

  连络现有数据中间扶植环境,进行数据流转优化事情。拟扶植数据流转框架如图2所示。

  实线部分现已根基实现,即数据源中的数据颠末梳理、构成视图,经由过程ETL东西抓取到WebService数据中间后,再行清算为不合数据接口x、y等,有该数据读取权限的业务体系可经由过程认证调用接口并获得成果。

  虚线部分正在调研、扶植中,在具有a、b数据点窜权限的业务体系中(操纵者可能为该数据的“一把手”、也多是终端用户),可以调用反应接口,将修改的a、b数据经由过程接口认证,反应回WebService数据中间。数据中间进行数据的阐发、清算、确认后,将数据点窜信息反应回IDC数据库,进行数据更新操纵。每个环节,都需求进行数据质量的校验,至此,即实现数据的循环,数据质量在梳理、整合、公布、反应、更新。

  总而言之,数据质量的好坏关系着高校信息部分可否给浅显师生、办理职员、校带领等供应有效精确、高效、有效的数据办事,决定着信息化事情可否从数字校园的扶植成功过渡到聪明校园的扶植。

  是以,在此提出几条简朴的扶植定见:

  1.扶植主动的数据质量办理环境

  起首办理层要熟谙到数据质量对高校各项业务及信息化各项事情的首要性,鞭策数据质量的改进事情。加强信息职员步队的扶植,进步数据办理职员的数据质量办理意识。梳理建立完美的轨制办理,肯定命据质量办理的流程,扶植本校数据标准、数据质量的标准。

  2.集合气力进行一次数据清算和洗濯在实际上建立了数据标准和数据质量办理轨制以后,需求花较年夜的时候和精神对全校的各业务体系进行一次洗濯,并以此次洗濯后的数据为根本,展开数据质量办理事情。

  3.数据质量定时查对

  除扶植数据质量办理轨制,还该当扶植数据质量的监测轨制。数据一旦产生问题,办理上有职员核验、清算、报告请示,技术上可追溯、清查、修改。将数据质量的查对作为平常事情,才气全面地、持续地保持数据质量。

  (作者单位为华东师范年夜学信息化办公室)

来源:中国教诲收集作者:缪亚琴 陈丽蓉
顶一下
(1)
100%
踩一下
(0)
0%
------分开线----------------------------
标签(Tag):数据质量办理体例
------分开线----------------------------
颁发评论
请自发遵循互联网相关的政策法规,严禁公布色情、暴力、革命的谈吐。
评价:
神色:
考证码:点击我更换图片
猜你感兴趣