前往顾页

年夜数据技术在高能物理中的利用

时候:2016-04-13 20:48来源:知行网www.zhixing123.cn 编辑:麦田守望者

当代年夜迷信的标记为年夜迷信机构、年夜迷信工程和年夜迷信装配。年夜迷信装配常产生海量的数据,是以在年夜数据技术范畴提出了巨年夜应战。国表里高能物理尝试研究是典范的年夜迷信装配,同时在不竭鞭策年夜数据技术及利用的生长。在利用需求的引导下,高能物理范畴堆集了年夜量的年夜数据存储、计较措置和共享等技术和经历。

  高能物理的目标

  高能物理的目标就是摸索物质微观布局、宇宙发源等自然规律。目前已证明微观世界有六种夸克(quarks),另有六种轻子(leptons),这些一路构成了宇宙万物。这些粒子之间的相互组合首要有三种相互感化力:电磁相互感化力、强相互感化力和热相互感化力,当然,另有第四种力,那就是万有引力。

  高能物理,也叫粒子物理。我国也有很多高能物理的尝试,此中一个就是BEPCII/BESIII对撞机,它是世界先进的双环对撞机,5年内将堆集5PB 的数据,需求万个CPU用于数据阐发,中国、美国、德国、俄罗斯、日本等36个研究所参与合作。

  别的,在亚湾反应堆做中微子尝试,有38个研究所300多名迷信家参与合作,产生了4PB以上数据。在2012年发明中微子第三种震惊,切确测量θ13同时,操纵西藏羊八井得天独厚的上风,中意、中日合作进行宇宙线尝试,每年产生超越200TB的原始数据,数据需从羊八井传回高能所,在传到日本、意年夜利进行阐发措置,合作单位可以或许及时拜候数据。

  高能物理的实际利用

  在高能物理范畴,尝试数据汇集以后,还要面对数据的传输、保存,和计较等一系列的应战。这将会产生年夜量的数据,这个年夜数据的特性是随机变量空间很年夜,产生的末态粒子极其丰富;切确测量需求年夜样本。在计较过程中,也是非常复杂的,末态的形式复杂(随机变量)。物理图象复原非常复杂,如图象措置、形式辨认技术;拟合及偏差估计。

  高能物理年夜数据的措置过程以下:第一,数据获得与记录。从探测器获得RawData、蒙特卡洛产生数字化的二进制格局的电子旌旗灯号;第二,数据措置。措置后Raw/MC Raw产生相关物理信息,如动量、对撞顶点等;第三,数据发掘。由上千个属性构成的DST事例文件,供应物理学家进行阐发,并最后产生物理成果。

  在“年夜数据(big data)”期间,PB级乃至EB的迷信研究数剧匀其需求在存储形式、技术架构、共享传输、环球协同、高效措置等方面有所冲破。

  计较平台的生长

  计较平台的生长过程,与计较机生长过程是完整分歧的,经历了从年夜型机,经集群,到网格,再到云计较的演变。本地计较集群是根本,计较网格是“集群之集群”,需求整算计较资本。而云计较更重视平台的通用性,进步资本操纵率。是以需求对云计较与网格计较加以整合。

  图1是一个典范的本地集群架构。这个体系目前也仍在利用,但是跟着CPU的计较才气、存储量愈来愈年夜的时候,体系就会呈现问题。

  目前世界上最成功的一个网格体系,实际上就是用来做高能物理的。它有多少分层,0级、1级、2级、3级,乃至一向到4级,如许一个漫衍式的计较环境。0级中间首要领受原始数据,保存在磁带体系中,并进行第一遍数据重修,向Tier1分发数据;一级中间(13个)首要供应原始数据备份,履行数据重修、阐发等任务,并供应数据分发等网格办事;二级中间(>160个)首要履行摹拟、数据阐发等任务。

  当然,计较集群或网格存在不足的地方,如CPU资本操纵率不足、遗留法度与操纵体系不婚配、调剂不矫捷、运维本钱高档问题。这时候,就需求引入假造化和云计较。

  假造计较集群在物理机和RMS(资本办理体系)之间机关假造层,将物理机假造化,构成多个假造机。同时,将RMS装置在假造机上,对用户完整透明,减少运维事情量,进步资本操纵率。

  欧洲核子研究中间的“CERN Cloud”是世界最年夜的假造集群之一,它基于Openstack构建,并于2013年开端运行。同一办理两个数据中间(日内瓦与布达佩斯),其范围为4600个物理机,12.5万颗CPU核,15000个假造机,2016年还将扩展资本。按照集群任务静态建立或删除假造机,均匀10秒钟建立/删除一个假造机。据体味,CERN团队获得Openstack巴黎峰会SuperUser年夜奖。

  在海内,我们有本身的尝试和计较环境。比方,之前提到的BESIII漫衍式计较体系,采取Pilot与计较插件技术,整合合作单位的计较资本,可以或许按照用户功课的数量进行及时的假造机静态建立和删除,实现资本弹性办理。共14个站点,漫衍在中国,美国,俄罗斯和意年夜利。

  在先进信息化环境的支撑下,BESIII尝试一向领跑环球tau-粲物理研究。

  2013年3月颁布发表发明了独特态候选者--带电类粲偶素Zc(3900);2013年6月18日,《自然》(nature)杂志就此颁发了题为“夸克‘四重奏’翻开了物质世界一扇极新的年夜门)”的消息报导;这一服从被国际物理学顶级期刊、美国物理学会主编的《物理》杂志选为2013年国际物理学范畴首要服从,在11个当选项目中位列第一;《粒子物理手册》2014版收录Zc(3900),是独一收录的在我国发明的新粒子!

  高能物理的利用不合于互联网文本数据发掘,它具有以下特性:数据以工具体例存储,利用C++库拜候;非范例计较;随机拜候;复杂的数据范例。

  高能物理范畴,实际上是一个年夜迷信、年夜需求、年夜数据、年夜计较、年夜发明的过程。它请求多种计较技术,鞭策了信息化技术的生长。同时,多种信息化支撑手段也在鞭策高能物理迷信的进步,这是一个相反相成的过程。

  (本文清算自中国迷信院高能物理研究所副所长陈刚在第四届中国科研信息化生长研究会上的演讲“高能物理中的年夜数据技术”)

------分开线----------------------------
标签(Tag):年夜数据技术
------分开线----------------------------
保举内容
猜你感兴趣