首页 > 论文范文 > 社科论文 > 基于神经网络与MapReduce的科技云数据清洗模型_免费论文全文下载

基于神经网络与MapReduce的科技云数据清洗模型_免费论文全文下载

申明:本网站内容仅用于学术交流,如有侵犯您的权益,请及时告知我们,本站将立即删除有关内容。

摘 要: 科技云服务平台积累了大量科技数据,而数据质量问题会对大数据的应用产生致命影响,因此需要对存在质量问题的大数据进行清洗。文章提出了一种数据清洗模型,采用神经网络,依据数据相关性原则实现高可扩展性的大数据清洗。使用该模型,能够以计算机自动化数据修正的方式代替数据补录与修正工作,有效地提升工作效率。

关键词: 海量数据; 数据清洗; 神经网络模型; 多任务优化; MapReduce
中图分类号:TP399 文献标志码:A 文章编号:1006-8228(2017)07-06-03
Data cleaning model of the science and technology cloud based on
neural networks and MapReduce
Yang Shuo, Yang Wei, Tao Li, Jin Fengfei
(Zhejiang Topcheer Information Technology Co.,Ltd., Hangzhou, Zhejiang 310006, China)
Abstract: The science and technology cloud service platform has accumulated a large number of scientific and technological data, and the data quality problem will result in a fatal impact on the application of big data. Therefore, the massive data with quality problem need to be cleaned. In this paper, a data cleaning model is proposed, which according to the data correlation principle, uses neural networks to realize the big data cleaning with high scalability. Using this model, the repeated data refills and corrections can be replaced by computer automatic data correction, the work efficiency is effectively improved.
Key words: massive data; data cleaning; neural network model; multitask optimization; MapReduce
0 引言
科技��新云服务平台的建设过程中,集成了大量科技数据,由于数据的来源广泛,数据标准不同,数据录入要求及录入人的素质差异,导致大量的“脏”数据产生,从而导致了数据的可用性降低,影响整个数据分析的过程。
1 现状分析
云平台现有的数据分为几大类,一是基础数据,如机构信息、载体信息、人员信息等,该类信息有明确的来源,可通过业务认定系统以及工商、行政、公安、民政等第三方管理部门的接口进行验证;二是业务数据,由业务相关人员完成填报,需要经过监管部门和专家校验,出错的可能性不大,有一定的时效性和制约性;三是其他辅助数据,如证明材料等等。因为云平台的数据是面向某一主题的数据的集合,这些数据从多个业务系统中抽取而来,而且包含历史数据,这样就避免不了有的数据是错误的,有的数据相互之间有冲突。目前不符合要求的数据主要有不完整的、错误的、重复的数据三大类。
⑴ 不完整的数据主要是一些应该有的信息缺失,如仪器设备信息中仪器设备的英文名称、产地国别、生产制造商、主要技术指标等等,这类数据在业务填报时往往不做要求,但在需要查找定位设备时却有很重要的意义。
⑵ 错误的数据产生的原因主要是业务系统不够健全,在接收输入后没有进行判断或无法判断正确值域的情况下直接写入后台数据库造成的。
⑶ 重复的数据的产生原因主要因为数据入口不统一,同一个数据通过不同的入口被录入系统,由于申报口径并不统一,申报人不同,导致无法判断是否为重复数据。
科技数据本身的严谨性很重要,其相关性也是数据分析的重要因素,为了能有效的利用科技数据,将其作为科技工作决策提供依据,基础数据就需要尽量完整、严谨并且具有明晰的关系网,而这就需要进行数据清洗。数据清洗(Data cleaning)――对数据进行重新审查和校验的过程,目的在于删除重复信息、纠正存在的错误,并提供数据一致性。
传统的清洗方式一般是要求数据来源方重新梳理补全并修正,但这样工作量很大,特别是不同的管理入口负责人并不能确保哪一方的数据是正确的,仅仅针对系统中几十万条待处理的科研仪器设备,就有很大的难度,更何况是云平台内TB级的海量数据,所以就需要有一种计算机自动化的方式来进行数据清洗工作。
2 模型设计
以科研设备为例,简单的设备信息记录的清洗通过对单一表的分析无法实现自动化数据清理,但是将设备的基本信息与申报单位信息、单位之间的关联信息、设备维护人员信息、设备使用信息等大量相关内容进行组合,将单一的设备信息变成多维度的综合信息后,就可以利用设备的关系网进行分析。因此本文设计通过神经网络,利用云平台中的海量数据进行分析,从而去除重复,修正错误并尽可能的补足缺失内容。
2.1 构建遗传神经网络
人工神经网络(artificial neural network,ANN)是一种模拟人脑信息处理机制的网络系统,它对输入输出样本进行自动学习,将输入输出之间的映射规则自动抽取并分布存储在网络的连接中,能够以任意的精度逼近复杂的非线性映射。BP(backpropagation)神经网络是至今为止应用最为广泛的神经网络。虽然得到广泛应用,BP神经网络也存在不足,最明显的两点不足是收敛速度慢和易陷入局部极小值。遗传算法(GA- Genetic Algorithm)是一种自适应的全局搜索算法,具有全局收敛、并行性和鲁棒性等特点。

本站内容均来自互联网,仅供演示用,请勿用于商业和其他非法用途。如果侵犯了您的权益请与我们联系,我们将在24小时内删除。QQ:522-52-5970