主页 > 数据处理 > 海洋环境数据集成

海洋环境数据集成

2022-04-06 11:12来源:m.sf1369.com作者:宇宇

2.2.3.1 基于元数据的海洋数据集成

地理空间数据的元数据是指地理空间相关数据集和信息资源的描述信息,它是对空间特征的概括和抽取。元数据信息可提供空间数据集的特征资料,数据用户可据此来确定该数据的名称、来源、组织结构、适用范围等。而地理空间元数据是关于数据的数据,在地理空间信息中用于描述地理空间数据集的内容、质量、表示方式、空间参考、管理方式以及数据集的其他特征,是实现地理空间信息共享的核心标准之一。地理空间元数据目前的一个典型应用就是利用互联网进行地理信息的查询和检索。拓展开来,利用地理空间元数据可以建立空间信息的数据目录和数据交换中心,利用这些元数据,用户可以发现、获取、理解相关的空间数据及其服务信息(梅琨,边馥苓,2006; 陈述彭等,1999)。因而,可以认为地理空间元数据是地理空间信息服务的基础。

目前对 WebGIS 中元数据的研究多数停留在理论研究上,从系统开发实践的角度,对系统分析、设计和应用中的元数据的应用研究还存在明显的不足。要从根本上解决服务动态智能组合实现困难,本研究认为 Web 服务注册标准及细粒度封装是很有必要的。可以从源头上解决服务调用过程中会出现的种种问题。解决服务动态智能组合实现困难,首先要从服务的源头开始标准化,用户注册自己的服务,要遵循一定的标准,即,输入的元数据信息的内容和格式要严格按照一定的标准,对于 GIS 服务,要遵照 GIS 领域的标准来注册。强制服务注册用户按标准来发布服务,可以实现同类型服务的统一,便于开发用户在使用服务时,动态调用和智能组合(王方雄等,2005; 张佩云等,2007; 陈哲强等,2007)。

基于元数据的分布式共享框架不足之处,在于实现了具有相同数据模型和结果的异地读取,即只是一种异地同质数据的共享,还不能实现异地异质数据的共享,也不能把发布在异地的数据一体化,更不能解决数据库的无缝组织问题。虽然这种分布式空间数据库在数据转换方面有一些不足,但却是目前 GIS 海量数据共享的比较好的解决方案之一。因为该种方式利于数据的独立性,使用户看到一个完整的内容,逻辑统一的数据库,可以方便地访问任何数据,而不需要知道数据实际的物理存储,符合地理数据分布的特点(陈爱军等,2002)。

2.2.3.2 海洋环境数据集成模式

在海洋时空数据的广泛应用中,存储格式的多样性是多源海洋时空数据集成的瓶颈,目前对于格式不同的多源海洋环境数据,主要有如下集成模式。

(1)数据格式转换模式: 在这种模式下,其他数据格式经专门的数据转换程序进行格式转换后,复制到当前系统中的数据库或文件中。

(2)数据互操作模式: 该模式是 Open GIS Consortium(OGC)制定的规范。OGC 是为了发展开放式地理数据系统、研究地学空间信息标准化以及处理方法的一个非营利组织。空间数据互操作是指在异构数据库和分布计算的情况下,用户在相互理解的基础上,能透明地获取所需的空间信息。OGC 为数据互操作制定了统一的规范,从而使得一个系统同时支持不同的空间数据格式成为可能。根据 OGC 颁布的规范,可以把提供数据源的软件称为数据服务器(Data Servers),把使用数据的软件称为数据客户(Data Clients),数据客户使用某种数据的过程就是发出数据请求,由数据服务器提供服务的过程,其最终目是使数据客户能读取任意数据服务器提供的空间数据。OGC 规范基于 OMG 的 CORBA、Mi-crosoft 的 OLE/COM 以及 SQL 等,为实现不同平台间服务器和客户端之间数据请求和服务提供了统一的协议。OGC 规范得到 OMG 和 ISO 的承认,从而逐渐成为一种国际标准,将被越来越多的 GIS 软件以及研究者所接受和采纳。目前,还没有商业化 GIS 软件完全支持这一规范。

(3)海洋时空数据的直接访问模式: 直接数据访问指在一个软件平台中实现对其他软件数据格式的直接访问,用户可以使用单个软件存取多种数据格式。直接数据访问不仅避免了繁琐的数据转换,而且在一个软件中访问某种软件的数据格式不要求用户拥有该数据格式的宿主软件,更不需要该软件运行。直接数据访问提供了一种更为经济实用的多源海洋时空数据集成模式。刘志强等(2005)提出了网络环境下实现多源地理空间数据集成的方法―――基于空间元数据的分布式部件方法,该方法借鉴了 ODBC 数据集成的思想,以数据集成中间件的形式屏蔽多源地理空间数据的异构性,有效地解决了地理数据集成过程中的地理数据位置透明性和存储格式问题,其分布式部件可以位于不同的数据服务器上,提供一定的数据互操作能力。但是该数据集成中间件要根据数据格式的不同调用不同的设计获取部件,容易造成集成中间件的庞大。解决多格式数据集成和共享一直是近年来GIS 应用系统开发中需要解决的重大问题,也是海洋时空数据应用亟待解决的问题。

2.2.3.3 基于地理本体的海洋数据集成

由于目前对空间数据语义的形式化表达存在诸多缺陷,从而影响了基于语义的 GIS 空间数据集成。而本体作为共享概念模型的明确的形式化规范说明,能够提供与数据有关的概念模型或学科感知的信息,并形式化地描述领域知识、共享词汇和词汇间相互关系。同时,由于本体与数据可以分别存储在不同的结构中,并通过映射方法建立与数据的联系,既可以为数据提供形式化语义,又避免了为语义上同类的数据提供相同语义描述所带来的冗余,还可以与多个不同的数据集合建立映射关系,从而实现了本体的重用。因此,传统的数据库和信息集成领域已有许多学者提出了基于本体的语义集成方法。GIS 领域,国际上也已经有些学者提出了基于本体的地理空间数据集成方法。

针对海岸带及近海空间数据的多语义、多源、多尺度和时空多变的复杂特性,在分析国际上关于基于本体的地理空间数据集成方法的基础上,王敬贵(2005)提出了基于地理本体的多源空间数据集成方法,并把问题具体到海岸带及近海领域进行方法和关键技术的研究。该方法从空间数据生产过程的概念模型入手,首先建立对应于多源空间数据各自的本体模型(概念模型),进而进行不同本体模型的集成,然后通过本体模型到底层数据模型之间的映射关系,实现从海岸带及近海多源空间数据从语义到物理层数据的有效集成。

图 2.4 示出基于本体的海岸及近海空间数据集成的示意图。图中由竖虚线分开的右半部分表示从客观世界到底层数据世界的抽象过程,左半部分是在这一抽象过程之上的数据集成方法。由横线分割开的两部分分别表示两种不同的集成体系。其中下半部分反映的是现有的 GIS 空间数据集成思路和策略,即从数据本身的逻辑和物理模型出发开展集成理论和具体方法,正如所述。在此所提出的方法则由把这两个部分(横虚线分割的两部分)统一起来进行数据的集成,采用自上而下的思路先完成数据对应的本体模型的集成,再结合自下而上的数据自身的集成方法,最终实现空间数据完全集成。

图 2.4 基于本体的海岸带及海洋空间数据集成示意图

2.2.3.4 集成总体框架

如图 2.5 所示,基于上述的技术思路,在这里给出基于地理本体的多源空间数据集成的总体框架。这种数据集成方法以数据所对应的本体集成为前提,在本体集成的基础上派生出多源数据之间的数据映射关系和操作关系,从而通过概念的映射和数据的各种操作转换实现集成。

图 2.5 中,虚线左边的部分是地理本体的集成流程,右边部分是以本体驱动的数据集成流程。其中左边关于本体的集成流程主要有以下几步骤:

首先,分析存储在海岸带及近海综合数据库中的多源数据和空间数据文件,对来自不同领域数据生产者的数据进行信息本体模型的建立; 由于数据生产者的领域背景和应用目的相同,导致各自所获取数据所隐含的信息本体模型也各不相同,因此会有多个不同的信息本体模型对应于底层的数据库或者数据文件。

其次,从集成的角度对海岸带及近海进行集成角度下对客观世界的抽象模式,针对集成应用目标,结合海岸带及海洋的领域知识和相应地领域模型,构建海岸带及近海的标准本体; 然后,把底层数据的信息本体模型分别与标准的本体模型进行概念和语义的匹配分析,在共享术语表和公共的属性模板下实现本体的集成过程。

具体的本体集成是将两个本体中的所有概念进行比较并确立它们之间关系,然后将这些概念及其关系重新定义为标准本体的过程。图 2.5 中右边关于数据集成流程的部分主要有以下步骤:

图 2.5 基于本体的空间数据集成总体框架

首先,根据本体集成过程中建立的数据信息本体模型与标准本体模型中各个概念之间的关系,确立与各本体中概念相关联的数据类或者数据文件转换到集成本体的数据集所需要的操作集合(分割、合并等);

其次,根据在本体建模时构建的本体转换器,进行相应的数据抽取;

然后,把这些抽取出来的多个数据集按照操作集合给出的算法进行模型运算从而生成满足集成本体抽象模式的集成数据库。

数据类的转换包括不同类之间的直接转换、多个类融合转换为一个新类、一个类的多个子类转换为多个新类或多个新类的子类等情况。最后的这个环节还需参考现有的 GIS 模式集成具体算法。

这种基于地理本体的空间数据集成方法系一种新的研究思路,由于地理本体通过对地理概念及其关系的形式化表达,为数据库中的数据提供丰富的形式化语义,通过用户集成本体和数据生产者信息本体的比较或匹配提取需要的数据集,并结合地学表达和各种应用分析方法,根据需要灵活组合以完成具体应用目标。本体模型实现了知识重用和共享,也是不同信息群体间进行信息交流和通讯的有效途径,从而完成语义的互操作。

相关推荐

车联网企业国内有哪些?

数据处理 2023-12-23

注册计量师-请教贴

数据处理 2023-12-19

逆光照片怎么处理

数据处理 2023-12-08