L’evoluzione delle architetture dati: dai Data Warehouse ai Data Fabric

La capacità di garantire una gestione dei dati strutturata, controllata, il più possibile automatizzata e facilmente governabile in contesti in cui è sempre più crescente la complessità e la distribuzione delle fonti dati, è ormai diventata una priorità per le organizzazioni enterprise.

È  necessario quindi guardare oltre le modalità tradizionali di gestione del dato, spostandosi verso soluzioni moderne in grado di garantire, in tempi rapidi, maggior valore al business sfruttando tecniche di Advanced Analytics. Una risposta ai nuovi requisiti di data management arriva dalle nuove architetture dati basati sul concetto di Data Fabric.

Un po’ di storia…

Ripercorriamo brevemente come si sono evolute le architetture dati nel corso degli ultimi decenni.  

Nel corso degli anni ‘70 William H. Inmon coniò il termine Data Warehouse definendolo come una piattaforma sulla quale far confluire i dati aziendali per essere finalizzati all’utilizzo da parte del business. Favorire la chiarezza e la comprensione delle entità e il loro aggiornamento continuo, in favore della normalizzazione o la riduzione delle ridondanze, ha portato a considerare il Data Warehouse come il riferimento unico (single source of truth) dei dati aziendali su cui applicare strumenti di Business Intelligence e Data Mining. Ma l’esigenza di avere dati relativi a domini o contesti specifici ha portato alla nascita di molteplici Data Mart, versione ridotta di data warehouse specializzati.

Pur rimanendo il concetto di data warehouse di assoluta validità, il bisogno di avere dati aggiornati in modo sincrono con la loro evoluzione per prendere decisioni in tempo reale, e la necessità di tecnologie adatte a elaborare grandi moli di dati in tempi sostenibili, hanno portato alla nascita dei Data Lake. Concetto attribuito a James Dixon che, nel 2010, coniò questo termine, con l’obiettivo di creare un’unica fonte per tutti i dati necessari, interni o esterni all’azienda. La differenza principale rispetto ai classici Data Warehouse sta nel metodo di conservazione dei dati: invece di estrarre, trasformare e caricare i dati (ETL: Extract, Transform, Load), nel Data Lake i dati vengono estratti e caricati nel loro formato originale (strutturato, semi-strutturato o non strutturato, in uno stesso spazio (lago), per poi essere trasformati solo nel momento del loro utilizzo (ELT). È  l’interrogazione a determinare la selezione dei dati più significativi indipendentemente dalle fonti di provenienza. Con il supporto delle tecnologie adatte, è possibile conservare i dati su file system distribuiti, e si riducono i tempi di elaborazione.

Al di là dell’impatto tecnologico e dei costi, l’approccio unificato dei Data Lake rende estremamente difficile valutare la qualità dei dati, e prevede strutture di gestione del ciclo di vita dei dati limitate. Questi limiti hanno portato all’evoluzione del concetto di Data Fabric.

Cos’è un Data Fabric

Se nelle intenzioni iniziali nei Data Lake dovevano confluire tutti i dati necessari agli utilizzi aziendali, nella realtà, i silos di dati conservati in altri ambienti hanno continuato a moltiplicarsi, e a questi si sono aggiunti i data lake, diventando dei silos a loro volta.

In risposta a queste problematiche, Noel Yuhanna, analista di Forrester, nel 2016 ha introdotto il concetto di Data Fabric.

Possiamo riassumere le funzionalità principali di un’architettura Data Fabric nei seguenti punti:

  • Combinare dati provenienti da sistemi, applicazioni e fonti eterogenee, come i sensori degli apparati IoT, i siti web, social, e di diversa granularità (batch, micro-batch o real-time) in un unico ambiente non necessariamente integrato, ma gestito e acceduto come un unico sistema
  • Garantire le prestazioni in termini di velocità, capacità, scalabilità, affidabilità per soddisfare le esigenze delle applicazioni Enterprise
  • Supportare ambienti distribuiti anche su larga scala, dai Data Center ad ambienti cloud ibridi o multi-cloud
  • Garantire una gestione attiva dei metadati per rinforzare l’arricchimento semantico degli asset
  • Fornire funzionalità di Data Governance integrata, come il catalogo degli asset fisici e di business, o il data lineage
  • Automatizzare i task ripetitivi, come la profilazione dei dataset, l’allineamento degli schema-matching delle nuove sorgenti, e la rilevazione e la gestione degli errori dei job di data integration, favorendo i principi di DataOps

Come il concetto di Data Fabric può essere un abilitatore per aumentare il Business Value

Garantire e aumentare il valore di business è l’obiettivo primario di un’architettura dati. Ma quali sono i pillar che rendono l’architettura Data Fabric un vero abilitatore per portare business value?   

  • Collezionare le diverse tipologie di metadati

Identificare, connettere e analizzare tutte le informazioni di contesto dei data asset, i metadati tecnici, operazionali e di business

  • Abilitare la conversione dei metadati in metadati “attivi”

Per ottenere una condivisione dei dati efficace, un’architettura Data Fabric deve prevedere un’analisi continua dei metadati disponibili, collezionando statistiche e metriche rilevanti, e una rappresentazione grafica in grado di identificare facilmente le relazioni di business rilevanti

  • Creare il cosiddetto “modello di conoscenza semantica”

E’ previsto un layer semantico, solitamente attraverso un grafo, che permette una comprensione più semplice e intuitiva dei dati, facilitando inoltre la fase di analisi avanzata attraverso algoritmi di AI e Machine Learning.

  • Assicurare una robusta integrazione dei dati

Garantire l’integrazione delle diverse tipologie di dati e di emissione (streaming, batch, microservizi, eventi, …) e dei relativi utilizzi (self-service data preparation, produzione di report statici o dinamici, ecc…)

 L’introduzione di questo nuovo paradigma architetturale ha portato ad una progressiva revisione dei prodotti e delle soluzioni dei principali vendor di mercato, alcuni dei quali hanno puntato a fornire delle suite complete o solo alcune componenti della nuova architettura.

GFT, grazie alla collaborazione con partner strategici e leader di mercato di soluzioni dati, come Informatica e Denodo, è in grado di offrire ai propri clienti una progettazione strutturata di piattaforme dati basate su architettura Data Fabric, aumentando il business value attraverso una gestione dati end-to-end più automatizzata.

Post a Comment

* indicates required

Offerta Insurance

Download