DatabricksData ManagementAs a service

Databricks punta sull'Italia: parliamo di data lakehouse, il concetto che rivoluziona la gestione dei dati aziendali

di pubblicata il , alle 14:01 nel canale Cloud Databricks punta sull'Italia: parliamo di data lakehouse, il concetto che rivoluziona la gestione dei dati aziendali

Databricks annuncia che aprirà a breve una sede italiana e questa è stata l'occasione per parlare di data lakehouse e di come essi cambino la gestione dei dati aziendali con Arduino Cascella, Manager Solutions Architect di Databricks

 

Databricks, azienda nota per aver creato il concetto di "data lakehouse", annuncia che aprirà una sede in Italia per supportare la crescita e lo sviluppo del proprio business nel nostro Paese, che già oggi rappresenta un terzo del giro d'affari dell'azienda nell'area Sud Europa, Medio Oriente e Africa. Ne abbiamo parlato con Arduino Cascella, Manager Solutions Architect di Databricks.

Databricks, la pioniera dei data lakehouse, aprirà in Italia

Databricks, fondata nel 2013 negli Stati Uniti da alcuni degli sviluppatori dietro Apache Spark, è già presente da tempo in Europa con uffici a Parigi. L'azienda ha deciso di espandere ulteriormente la propria presenza nel Vecchio Continente aprendo una sede anche in Italia, Paese dove l'azienda è già presente, nel quale sta crescendo molto e in cui vede molto potenziale.

"Per noi l'Italia è un mercato importantissimo e il fatto che stiamo per aprire una sede ora non vuol dire che l'Italia non fosse già un mercato importantissimo", ci dice Cascella (in foto). "Abbiamo già una base installata molto importante e circa un terzo del nostro business dell'Europa del Sud è in Italia. Abbiamo molti early adopter e ottime relazioni con molti system integrator e partner, dunque un ecosistema già molto importante. Stiamo ora ufficializzando questo lancio proprio perché vediamo un'opportunità enorme in Italia e vogliamo continuare a investirvi, per avere più presenza locale."

C'è qualche opportunità anche grazie al Piano Nazionale di Recupero e Resilienza? "Assolutamente sì, secondo me in Italia sono state fatte molte cose che vanno nella direzione giusta negli ultimi anni, per cui vediamo una spinta nel mondo digitale e del cloud che è veramente interessante anche rispetto ad altri Paesi. Ci stiamo avvicinando al livello di maturità di altri Paesi che sono partiti un po' prima e ci stiamo arrivando velocemente. Vediamo un'enorme opportunità in questo fatto perché uno dei casi d'uso tipici di Databricks è la modernizzazione delle infrastrutture Hadoop, che hanno grandi costi e sono difficili da mantenere. Questo è il momento giusto per noi di accedere al mercato italiano perché stiamo vedendo tantissimi di questi progetti di modernizzazione digitale, mentre in altri Paesi questo spostamento c'è stato 3-5 anni fa."

Per quanto Databricks si concentri sulle grandi aziende, Cascella ci dice che "la nostra missione è aiutare le aziende a risolvere i problemi con i dati e il primo obiettivo che ci siamo dati è quello di aiutare non solo le aziende che hanno una capacità IT enorme e decine e decine di data scientist, ma proprio il contrario: dare alle aziende una piattaforma semplice e chiavi in mano che anche piccoli team di data scientist e data engineer possano usare per lavorare e creare valore. Il tutto senza doversi occupare di tutta la parte di infrastruttura, amministrazione e configurazione che è molto pesante. Con Hadoop c'è bisogno di un team solo per assicurarsi che le cose funzionino, ma con Databricks c'è una piattaforma completamente as a service che è a un tale livello di astrazione che una piccola squadra può avere a disposizione il meglio che si può ottenere per l'elaborazione dei dati, gli algoritmi di machine learning e l'intelligenza artificiale - il tutto pronto all'uso."

Databricks e i data lakehouse: un concetto rivoluzionario (ma non troppo)

Delta Lake

Il logo di Delta Lake

Databricks si occupa di data lakehouse - ma di cosa si tratta nello specifico?

"Una delle difficoltà cui le aziende vanno incontro è che ci sono moltissimi dati non ben organizzati, quindi non riescono a portare avanti progetti innovativi proprio per queste problematiche di qualità e accessibilità dei dati, che si trovano spesso in silos", ci dice Cascella. "Negli anni passati abbiamo visto lo sviluppo di un primo concetto che è quello del data lake: si mettono tutti i dati nello stesso posto, in cloud od on premise, così che tutti possano accedervi. La promessa era di poter fare tutti questi progetti avanzatissimi, ma la realtà è che i data lake sono diventati data swamp [ovvero "paludi di dati"], con tanti dati non molto organizzati e non molto accessibili. Allo stesso tempo, ci sono i data warehouse, che usano tecnologie di 30 o 40 anni fa, con dati ben organizzati per utilizzi specifici per la business intelligence. Sono stati usati tantissimo dalle aziende, ma non hanno la capacità di gestire i dati non strutturati che si trovano nei data lake."

"Quello che vediamo coi nostri clienti è che hanno due tipi di sistema: da una parte i data warehouse classici collegati con gli strumenti di BI, dall'altra i data lake con dati strutturati, non strutturati e semi-strutturati che danno la possibilità di implementare algoritmi di machine learning molto avanzati. Questi sistemi non sono connessi tra loro e sono gestiti da gruppi diversi che hanno bisogno di strumenti di gestione diversi e quindi, riassumendo, i data warehouse permettono di rispondere a domande sul passato, ma quello che i clienti vogliono fare è prevedere il futuro, adattare i propri comportamenti anche in tempo reale a quello che succede. Per questo c'è bisogno del machine learning e dell'IA avanzata, che normalmente prendono i dati dai data lake, ma c'è bisogno anche di prendere dati dal data warehouse. Il data lakehouse è questo nuovo concetto in cui non c'è bisogno di avere due sistemi diversi, di fatto silos, ma c'è un unico sistema nel quale si mettono tutti i dati. La differenza con il data lake è che c'è questo strato addizionale, reso possibile da tecnologie come Delta Lake, che permettono di organizzare questi dati e di avere prestazioni che rendono possibili casi d'uso per cui prima c'era bisogno del data warehouse. L'obiettivo dei data lakehouse è di portare una nuova architettura dei dati basata su un sistema aperto che permette di collaborare più facilmente all'interno dell'azienda."

Con "sistema aperto" si intende il fatto che il formato dei dati è open source e che il data lakehouse è implementato con formati e tecnologie open source; detto ciò, non tutte le componenti dell'ecosistema Databricks sono open source e l'azienda mantiene alcuni software proprietari. Cascella afferma che comunque il formato aperto rende possibile l'interoperabilità con diversi sistemi, sia proprietari che aperti, e la migrazione verso altri sistemi senza quei fenomeni di vendor lock-in che sono molto diffusi, per non dire prevalenti, in questo ambito.

La spinta che ha portato alla nascita dei data lakehouse è quella delle prestazioni, della gestibilità dei dati e della necessità di avere la struttura e la certezza dei data warehouse: trovare i dati in tempi brevi nei grandi data lake diventa particolarmente problematico, mentre nel caso dei lakehouse "siamo riusciti ad alzare l'asticella, per cui oggi si possono fare interrogazioni SQL su data lake di diversi terabyte, centinaia di terabyte o addirittura petabyte di dati, che diano delle risposte in qualche decina di secondi o in qualche minuto, a seconda del caso d'uso", afferma Cascella. "Quindi possiamo avere degli analisti che non sono più limitati ad avere dati nel tempo, nella quantità, nel settore... La promessa dei data lakehouse è di poter accedere a tutti i dati di un data lake con, però, la semplicità, la governance e la struttura dei data warehouse."

Abbiamo chiesto a Cascella come veda il fatto che Databricks non sia più l'unico a fornire soluzioni di data lakehouse: ad esempio, AWS offre Lake Formation, ma sono molti i nomi anche di alto profilo che stanno lanciandosi in questo settore. "Il fatto che molti stiano adottando la nozione di lakehouse è soltanto una conferma del fatto che stiamo andando nella direzione giusta, quindi continueremo a spingere in tale direzione senza preoccuparci troppo di quello che fanno gli altri. Ovviamente abbiamo un occhio aperto, ma la visione del nostro CEO di fare una soluzione cloud only è stata giusta."

Il risultato è che ci sono integrazioni con i sistemi di centinaia di vendor e, grazie al fatto che il formato dei dati è aperto, è possibile creare nuove integrazioni. I dati risiedono sul cloud dei clienti e non su quello di Databricks, per cui il controllo dei dati rimane saldamente nelle mani delle aziende che ne sono proprietarie.

0 Commenti
Gli autori dei commenti, e non la redazione, sono responsabili dei contenuti da loro inseriti - info

Devi effettuare il login per poter commentare
Se non sei ancora registrato, puoi farlo attraverso questo form.
Se sei già registrato e loggato nel sito, puoi inserire il tuo commento.
Si tenga presente quanto letto nel regolamento, nel rispetto del "quieto vivere".

La discussione è consultabile anche qui, sul forum.
^