Culturework

Geospatial dataset on the Data Lake

by Matteo Picchiani, PhD GMATICS

The DYDAS Platform provides specialised interfaces, that is capable of handling large volumes of dynamic data, enabling public and industry sectors to benefit from large scale data analytics and fostering the sharing and re-use of public and private data/information in a secure environment.

A key and differentiating element of the project is the implementation of a Geospatial Data Architecture (GDA) connected with a dedicated Data Lake and an HPC processing framework.

The GDA also match the European Standard for open data publishing, INSPIRE.

Image: “High level structure of the DYDAS platformby Matteo Picchiani

Through the GDA services, heterogenous datasets can be assimilated in the DYDAS Data Lake. The GDA enable seamless large dataset integration and processing capabilities for using geospatial data of different type and sources also with data that are not intrinsically geo-referenced, through a Geospatial Data Model and of interoperability rules.
This component permit the application of innovative HPC-AI based services exploiting the Big Data in terms of both spatial and temporal variations and allowing the implementation of geolocation intelligence and geospatial trend/impact analysis.
The operations between the GDA, the Data Lake and the HPC are managed by a dedicated service layer, that is the access point to the HPC platform. The services can be accessed from both the Web Portal of the DYDAS Platform and the external systems through authentication.

Image: by Matteo Picchiani

The handling of all the datasets in a common geospatial fashion facilitate also the publishing of dataset and services through a specific middleware, by allowing the seamless adoption of OGC web protocols (e.g. WMS, WFS, WTS, etc.).

There are different open datasets for different use cases that which have been assimilated in the DYDAS Data Lake, checked for the compliance of the formats with the DYDAS GDA and with the INSPIRE Metadata standard:  

  • Horizontal Layer open datasets: data that may be useful to the different use cases; for example, Corine Land Cover, Natura2000, Urban Atlas, etc.
  • Use Case Maritime: an archive of physical ocean parameters (current, sea temperature, sea surface height, and wave characteristics) covering the whole Mediterranean Sea has been created, resulting from high resolution and innovative operational forecast models of the circulation and of the sea state.
  • Use Case Energy: this use case is based on the objective of developing a model for forecast of energy demand versus energy supply. Meteorological forecasting techniques and satellite information have been exploited to assess the demand for traditional (e.g. fossil fuels and hydroelectric plants) and renewable (e.g. PV and wind) energy production for energy planning and energy security purposes.
  • Use Case Mobility: the mobility use case had the goal to use the DYDAS platform to develop and produce an end-to-end solution (device and HPC algorithms) that processes the data collected by car sharing flees and extract high-value information for various kind of applications, for example in areas such as urban planning and management, administrative and tax efficiently, marketing, tourism, public security, research.

Set di dati geospaziali ospitati nel DYDAS Data Lake

La piattaforma digitale DYDAS fornisce interfacce specializzate, in grado di gestire grandi volumi di dati dinamici, consentendo ai settori pubblico e industriale di beneficiare dell’analisi dei dati su larga scala e promuovendo la condivisione e il riutilizzo di dati / informazioni pubblici e privati in un ambiente sicuro.

Un elemento chiave e caratterizzante in modo univoco il progetto è l’implementazione di una Geospatial Data Architecture (GDA) collegata con un Data Lake dedicato e un framework di elaborazione HPC.

La GDA corrisponde anche allo standard europeo per la pubblicazione di dati aperti, INSPIRE.

Immagine: “Struttura di alto livello della piattaforma DYDASa cura di Matteo Picchiani

Attraverso i servizi GDA, è possibile assimilare set di dati eterogenei nel DATA Lake DYDAS. Il GDA ha capacità d’integrazione e consente di elaborare set di dati di grandi dimensioni per l’utilizzo di dati geospaziali di diverso tipo e fonti anche con dati che non sono intrinsecamente georeferenziati, e ciò attraverso un modello di dati geospaziali e di regole di interoperabilità.
Tale componente consente l’applicazione di servizi innovativi per consentire su HPC-AI sfruttando i Big Data in termini sia di variazioni spaziali che temporali e l’attuazione di sistemi di geolocalizzazione e analisi geospaziale.
Le operazioni tra GDA, Data Lake e HPC sono gestite da un service layer dedicato, ovvero l’access point alla piattaforma HPC. I servizi sono accessibili sia dal Portale Web della Piattaforma DYDAS sia dai sistemi esterni (SpiD e CIE) tramite autenticazione.

Immagine: a cura di Matteo Picchiani

La gestione di tutti i set di dati in una modalità geospaziale comune facilita anche la pubblicazione di set di dati e servizi attraverso uno specifico middleware, consentendo l’adozione senza interruzioni di protocolli web OGC (es. WMS, WFS, WTS, ecc.).
Esistono diversi dataset aperti per diversi casi d’uso che sono stati assimilati nel DYDAS Data Lake, verificati per la conformità dei formati al DYDAS GDA e allo standard INSPIRE Metadata:

  • Dataset aperti di livello orizzontale: dati che possono essere utili ai diversi casi d’uso; ad esempio, Corine Land Cover, Natura2000, Urban Atlas, ecc.
  • Caso d’Uso Maritime: è stato creato un archivio di parametri fisici oceanici (corrente, temperatura del mare, altezza della superficie del mare e caratteristiche delle onde) che copre l’intero Mar Mediterraneo, risultante da modelli operativi innovativi di previsione della circolazione e del mare ad alta risoluzione.
  • Caso d’uso Energy: questo caso d’uso si basa sull’obiettivo di sviluppare un modello per la previsione della domanda di energia rispetto all’offerta di energia effettivamente disponibile. Le tecniche di previsione meteorologica e le informazioni satellitari sono state sfruttate per valutare la domanda di produzione di energia tradizionale (es. combustibili fossili e centrali idroelettriche) e rinnovabile (es. fotovoltaico ed eolico) ai fini della pianificazione energetica e della sicurezza energetica.
  • Caso d’Uso Mobility: il caso d’uso dedicato alla mobilità ha l’obiettivo di utilizzare la piattaforma DYDAS per sviluppare e produrre una soluzione end-to-end (device e algoritmi HPC) in grado di elaborare i dati raccolti dalle corse effettuate tramite car sharing ed estrae informazioni di alto valore per applicazioni di vario genere, ad esempio in ambiti quali l’urbanistica e la gestione, l’efficienza amministrativa e fiscale, il marketing, il turismo, la pubblica sicurezza, la ricerca.