摘 要:数据治理是科研生产活动在数字化时代的重点议题,文章分析了数据治理的应用现状,结合实际的科研生产场景归纳出科研数据治理过程中的问题,并基于现有问题提出针对科研数据治理能力的框架。旨在通过数据治理实现科研生产数据价值的优化。该枢架以教字化服务为核心。以生产应用目标为导向,完善了科研数据治理过程中的方法体系。关键词:数据治理;科研数据:数据价值
中图法分类号:G258
文献标识码:A
1 引言
在数字化服务发展的浪潮下,发挥数据这一核心资源的价值成为时下的热点议题,该议题的核心要点就是通过治理发挥出数据的潜在价值。基于此,学术界和产业界进行了大量的探索和实践,并卓有成效。包冬梅等[1] 提出了一种针对高校图书资源的数据治理框架⁃CALib 框架。肖洁琼等[2] 对比分析了国内外几种经典的数据治理模型特点,为相关工作提供了一定的理论基础。马广惠等以云上贵州公司为切入点,拓展了大数据治理的研究方法。杨琳等提出了面向大数据的治理框架,并实际列举了多个场景。在通用数据治理模型方面,已经出现了IBM 数据治理模型、DGI 数据治理框架、DAMA 数据治理模型、《数据治理白皮书》模型等优秀框架,这些数据治理模型基本都阐明了数据治理过程中的目标、职能、核心、规范等,其中数据治理目标一般为提高数据资产的质量,形成完整、可用的数据,指导数据管理过程,实现对所有人的数据公平访问,并实现数据价值的最大化;数据治理职能即是指对需要的数据进行的一系列评估、指导和监督的行为;数据治理的核心为控制数据质量、提供创新性的数据服务以及实现对数据资产的各项决策和相关权利控制;数据治理规范是指数据治理必须遵从严格的规范和流程,以保障数据治理的严谨性。从上述工作中看到,学术界和产业界都对数据治理工作进行了实践。然而根据肖洁琼等研究报告,学术界和产业界的工作并没有呈现出紧密的联系,包括数据治理的定义也仍未达成共识,学术研究成果在指导产业界方面仍然影响力不足,这说明目前的数据治理工作仍然依赖于具体的实践工作,缺乏通用性、普適性强的模型。
科研生产数据是一种典型的高信息密度流资产,是科研设计活动的核心及产物。然而从多个渠道产生的数据缺乏处理,导致数据利用率低,无法发挥数据潜在价值,难以打通数据产生环节和数据流通环节的壁垒,导致无法形成有效的数据效能反馈机制。因此需要高效完成科研生产数据的治理工作,实现服务价值及科研价值的创效提升。基于此,本文在标准化组织及咨询公司的治理模型基础上,分析实际科研场景下的数据产生及使用特点,提出一种用于科研生产的数据治理框架,也为其他数据治理应用项目提供参考。
2 数据治理介绍及科研数据治理框架
2.1 数据治理的基本定义
数据治理目前尚无一个公认的统一定义,各类定义工作主要由权威机构引领,这些基本定义从不同切入点指明了数据治理工作的内涵。
DAMA(国际数据管理协会):将数据治理作为数据管理的核心,将数据治理划分成对数据资产行使权力和控制的计划、监督、执行等过程。
Gartner(高德纳咨询公司):将数据治理作为IT治理的一部分,也属于公司治理的定义范围之内。
HESA(高等教育统计局):强调数据治理和实际的组织设计及管理结构是强关联的,因此数据治理工作应该在通用模型基础上结合实际进行自我适应。