摘 要:随着互联网的飞速发展,企业建立了诸多信息管理系统,其数据产生量也爆炸式增长。合理利用各类系统的异构数据挖掘潜在信息,对助力企业决策者确立企业发展方向及计划具有重要意义。为此,文章针对企业内部已有信息系统数据分散、基本结构不一致的异构状态,依托“态势感知”思想,借助数据可视化分析方法和图形化展示手段建立面向异构数据的态势感知系统,有助于挖掘历史数据的价值以及提升企业决策者态势感知的支持度。
关键词:异构数据,大数据,决策支持
中图法分类号:TP311文献标识码:A
1 引言
随着时间的推移,计算机科学与技术发展日新月异,许多科研企业搭上了数字化、智能化的快车,构建了一连串辅助办公的核心业务软件系统,如人力资源管理软件、固定资产管理软件、供应商管理软件、测试管理软件等。经过时间的积累,诸多系统产生了大量的应用数据,企业逐渐进入大数据时代。数据的积累可以通过数据本身为系统提供反查依据,也可以通过数据挖掘、数据分析等信息化手段得到潜在的数据或关联关系,为企业中、高领导层提供做出决策的态势感知支持,进而对系统的建设和使用做出正相关反馈[1] 。但企业内部建立的系统不是一天、一次性建成的,导致在企业办公应用系统中形成了不同编程语言、不同操作系统、不同硬件架构,不同数据库的系统集群[2] 。不同的系统产生了大量的密集型多来源异构数据,影响了企业统一视图的建设,将此类异构的数据进行整合并建设精细化、集成化的态势感知系统显得尤为重要。
本文针对多来源的异构数据在企业态势感知系统中的应用,提出通过异构数据的整合,将其应用于态势感知系统,并建立一系列指标供决策者在决策前感知发展态势。
2 相关理论
2.1 异构数据整合
异构数据顾名思义是指基本结构不同的数据库数据,是由多个拥有独立、完整的DBMS 数据库数据组成的集合。异构数据的异构性主要体现在异构的计算机体系结构、异构的操作系统、异构的数据格式、异构的数据存储地点以及异构的数据存储逻辑模型。本文的数据整合主要由异构的数据格式和异构的存储逻辑模型构成。数据格式存在多样性,包括关系型数据库和非关系型数据库;存储逻辑模型主要在不同业务逻辑中存储和维护相同意义的数据。异构数据整合的目的是实现不同层次结构的数据库数据资源的共享和集成。其关键在于组织基础数据,并借助不同的工具和简单的逻辑整合,生成具有统一对外接口的数据仓库资源。数据整合的步骤如图1 所示,包括数据抽取、数据清洗、数据转换等步骤,最终形成数据仓库,为后续环节提供统一化的数据支撑。
数据抽取的概念是将上层需要的数据从下层源中按照一定规则进行提取。当前现有数据抽取的技术手段有全量和增量2 种抽取方式。第一种全量的方式类似于数据的迁移和复制,它对下层源中所有数据进行原封不动的抽取。而第二种增量的方式则是对比上次抽取时的状态,只抽取有变化的部分。这种方式最重要的环节是如何捕捉源的变化。在确保结果准确率和性能最优化的前提下,其主要方法有触发器方式、时间戳方式、日志记录方式等。
异构数据最终生成数据仓库并对外提供统一化接口的关键一步是数据清洗和转换,具体操作为通过检查数据有效性和一致性,对缺失值进行处理。