Databricks Data Management As a service

Databricks punta sull'Italia: parliamo di data lakehouse, il concetto che rivoluziona la gestione dei dati aziendali

di Riccardo Robecchi pubblicata il 06 Maggio 2022, alle 14:01 nel canale Cloud

Databricks annuncia che aprirà a breve una sede italiana e questa è stata l'occasione per parlare di data lakehouse e di come essi cambino la gestione dei dati aziendali con Arduino Cascella, Manager Solutions Architect di Databricks

Databricks, azienda nota per aver creato il concetto di "data lakehouse", annuncia che aprirà una sede in Italia per supportare la crescita e lo sviluppo del proprio business nel nostro Paese, che già oggi rappresenta un terzo del giro d'affari dell'azienda nell'area Sud Europa, Medio Oriente e Africa. Ne abbiamo parlato con Arduino Cascella, Manager Solutions Architect di Databricks.

Databricks, la pioniera dei data lakehouse, aprirà in Italia

Databricks, fondata nel 2013 negli Stati Uniti da alcuni degli sviluppatori dietro Apache Spark, è già presente da tempo in Europa con uffici a Parigi. L'azienda ha deciso di espandere ulteriormente la propria presenza nel Vecchio Continente aprendo una sede anche in Italia, Paese dove l'azienda è già presente, nel quale sta crescendo molto e in cui vede molto potenziale.

"Per noi l'Italia è un mercato importantissimo e il fatto che stiamo per aprire una sede ora non vuol dire che l'Italia non fosse già un mercato importantissimo", ci dice Cascella (in foto). "Abbiamo già una base installata molto importante e circa un terzo del nostro business dell'Europa del Sud è in Italia. Abbiamo molti early adopter e ottime relazioni con molti system integrator e partner, dunque un ecosistema già molto importante. Stiamo ora ufficializzando questo lancio proprio perché vediamo un'opportunità enorme in Italia e vogliamo continuare a investirvi, per avere più presenza locale."

C'è qualche opportunità anche grazie al Piano Nazionale di Recupero e Resilienza? "Assolutamente sì, secondo me in Italia sono state fatte molte cose che vanno nella direzione giusta negli ultimi anni, per cui vediamo una spinta nel mondo digitale e del cloud che è veramente interessante anche rispetto ad altri Paesi. Ci stiamo avvicinando al livello di maturità di altri Paesi che sono partiti un po' prima e ci stiamo arrivando velocemente. Vediamo un'enorme opportunità in questo fatto perché uno dei casi d'uso tipici di Databricks è la modernizzazione delle infrastrutture Hadoop, che hanno grandi costi e sono difficili da mantenere. Questo è il momento giusto per noi di accedere al mercato italiano perché stiamo vedendo tantissimi di questi progetti di modernizzazione digitale, mentre in altri Paesi questo spostamento c'è stato 3-5 anni fa."

Per quanto Databricks si concentri sulle grandi aziende, Cascella ci dice che "la nostra missione è aiutare le aziende a risolvere i problemi con i dati e il primo obiettivo che ci siamo dati è quello di aiutare non solo le aziende che hanno una capacità IT enorme e decine e decine di data scientist, ma proprio il contrario: dare alle aziende una piattaforma semplice e chiavi in mano che anche piccoli team di data scientist e data engineer possano usare per lavorare e creare valore. Il tutto senza doversi occupare di tutta la parte di infrastruttura, amministrazione e configurazione che è molto pesante. Con Hadoop c'è bisogno di un team solo per assicurarsi che le cose funzionino, ma con Databricks c'è una piattaforma completamente as a service che è a un tale livello di astrazione che una piccola squadra può avere a disposizione il meglio che si può ottenere per l'elaborazione dei dati, gli algoritmi di machine learning e l'intelligenza artificiale - il tutto pronto all'uso."

Databricks e i data lakehouse: un concetto rivoluzionario (ma non troppo)

Delta Lake

Il logo di Delta Lake

Databricks si occupa di data lakehouse - ma di cosa si tratta nello specifico?

"Una delle difficoltà cui le aziende vanno incontro è che ci sono moltissimi dati non ben organizzati, quindi non riescono a portare avanti progetti innovativi proprio per queste problematiche di qualità e accessibilità dei dati, che si trovano spesso in silos", ci dice Cascella. "Negli anni passati abbiamo visto lo sviluppo di un primo concetto che è quello del data lake: si mettono tutti i dati nello stesso posto, in cloud od on premise, così che tutti possano accedervi. La promessa era di poter fare tutti questi progetti avanzatissimi, ma la realtà è che i data lake sono diventati data swamp [ovvero "paludi di dati"], con tanti dati non molto organizzati e non molto accessibili. Allo stesso tempo, ci sono i data warehouse, che usano tecnologie di 30 o 40 anni fa, con dati ben organizzati per utilizzi specifici per la business intelligence. Sono stati usati tantissimo dalle aziende, ma non hanno la capacità di gestire i dati non strutturati che si trovano nei data lake."

"Quello che vediamo coi nostri clienti è che hanno due tipi di sistema: da una parte i data warehouse classici collegati con gli strumenti di BI, dall'altra i data lake con dati strutturati, non strutturati e semi-strutturati che danno la possibilità di implementare algoritmi di machine learning molto avanzati. Questi sistemi non sono connessi tra loro e sono gestiti da gruppi diversi che hanno bisogno di strumenti di gestione diversi e quindi, riassumendo, i data warehouse permettono di rispondere a domande sul passato, ma quello che i clienti vogliono fare è prevedere il futuro, adattare i propri comportamenti anche in tempo reale a quello che succede. Per questo c'è bisogno del machine learning e dell'IA avanzata, che normalmente prendono i dati dai data lake, ma c'è bisogno anche di prendere dati dal data warehouse. Il data lakehouse è questo nuovo concetto in cui non c'è bisogno di avere due sistemi diversi, di fatto silos, ma c'è un unico sistema nel quale si mettono tutti i dati. La differenza con il data lake è che c'è questo strato addizionale, reso possibile da tecnologie come Delta Lake, che permettono di organizzare questi dati e di avere prestazioni che rendono possibili casi d'uso per cui prima c'era bisogno del data warehouse. L'obiettivo dei data lakehouse è di portare una nuova architettura dei dati basata su un sistema aperto che permette di collaborare più facilmente all'interno dell'azienda."

Con "sistema aperto" si intende il fatto che il formato dei dati è open source e che il data lakehouse è implementato con formati e tecnologie open source; detto ciò, non tutte le componenti dell'ecosistema Databricks sono open source e l'azienda mantiene alcuni software proprietari. Cascella afferma che comunque il formato aperto rende possibile l'interoperabilità con diversi sistemi, sia proprietari che aperti, e la migrazione verso altri sistemi senza quei fenomeni di vendor lock-in che sono molto diffusi, per non dire prevalenti, in questo ambito.

La spinta che ha portato alla nascita dei data lakehouse è quella delle prestazioni, della gestibilità dei dati e della necessità di avere la struttura e la certezza dei data warehouse: trovare i dati in tempi brevi nei grandi data lake diventa particolarmente problematico, mentre nel caso dei lakehouse "siamo riusciti ad alzare l'asticella, per cui oggi si possono fare interrogazioni SQL su data lake di diversi terabyte, centinaia di terabyte o addirittura petabyte di dati, che diano delle risposte in qualche decina di secondi o in qualche minuto, a seconda del caso d'uso", afferma Cascella. "Quindi possiamo avere degli analisti che non sono più limitati ad avere dati nel tempo, nella quantità, nel settore... La promessa dei data lakehouse è di poter accedere a tutti i dati di un data lake con, però, la semplicità, la governance e la struttura dei data warehouse."

Abbiamo chiesto a Cascella come veda il fatto che Databricks non sia più l'unico a fornire soluzioni di data lakehouse: ad esempio, AWS offre Lake Formation, ma sono molti i nomi anche di alto profilo che stanno lanciandosi in questo settore. "Il fatto che molti stiano adottando la nozione di lakehouse è soltanto una conferma del fatto che stiamo andando nella direzione giusta, quindi continueremo a spingere in tale direzione senza preoccuparci troppo di quello che fanno gli altri. Ovviamente abbiamo un occhio aperto, ma la visione del nostro CEO di fare una soluzione cloud only è stata giusta."

Il risultato è che ci sono integrazioni con i sistemi di centinaia di vendor e, grazie al fatto che il formato dei dati è aperto, è possibile creare nuove integrazioni. I dati risiedono sul cloud dei clienti e non su quello di Databricks, per cui il controllo dei dati rimane saldamente nelle mani delle aziende che ne sono proprietarie.

I migliori sconti su Amazon oggi

-16%

DJI Neo, mini drone con fotocamera UHD 4K per adulti, 135g drone che vola da solo e ti segue, decollo dalla mano, tracciamento del soggetto, QuickShot, video stabilizzati, (senza radiocomando)

199.00 166.99€ Compra ora

-20%

Playstation PS5 edizione digitale - Bundle Call of Duty: Black Ops 6

499.90 399.99€ Compra ora

-24%

FRITZ!Repeater 600 Edition International, Ripetitore - Wi-Fi extender fino a 600 Mbit/s (2,4 GHz), Mesh, Access Point, Interfaccia in italiano

49.99 37.86€ Compra ora

ULA e Blue Origin mostrano i progressi della realizzazione del razzo Vulcan Centaur

Meta sospende le assunzioni e incolpa Apple per il rallentamento della crescita

Devi effettuare il login per poter commentare
Se non sei ancora registrato, puoi farlo attraverso questo form.
Se sei già registrato e loggato nel sito, puoi inserire il tuo commento.
Si tenga presente quanto letto nel regolamento, nel rispetto del "quieto vivere".

La discussione è consultabile anche qui, sul forum.

VIDEO IN EVIDENZA

TOPICS

tutti gli articoli »

tutte le news »

Ryzen Threadripper 9980X e 9970X alla prova: AMD Zen 5 al massimo livello AMD ha aggiornato l'offerta di CPU HEDT con i Ryzen Threadripper 9000 basati su architettura Zen 5. In questo articolo vediamo come si comportano i modelli con 64...

Samsung Galaxy S25 Edge: il top di gamma ultrasottile e leggerissimo. La recensione Abbiamo provato il nuovo Galaxy S25 Edge, uno smartphone unico per il suo spessore di soli 5,8 mm e un peso super piuma. Parliamo di un device che ha pro e contro,...

Intervista a Stop Killing Games: distruggere videogiochi è come bruciare la musica di Mozart Mentre Ubisoft vorrebbe chiedere agli utenti, all'occorrenza, di distruggere perfino le copie fisiche dei propri giochi, il movimento Stop Killing Games si sta battendo...

Fujifilm X-E5: la Fuji X che tutti gli appassionati volevano Dopo il fascino un po’ elitario della GFX100RF e le polemiche intorno a x Half, la nuova Fujifilm X-E5 riporta tutti d’accordo: una mirrorless compatta, leggera,...

Vi portiamo all'interno di uno dei più importanti centri di distribuzione Amazon in Italia MXP6 è uno dei più recenti investimenti di Amazon sul territorio italiano, per la realizzazione di un capannone da 60.000 metri quadri alle porte di Novara, a due...

HPE Discover 2025: tra agenti intelligenti, infrastruttura AI-native e un futuro ibrido Edge9 ha seguito da vicino HPE Discover 2025 con accesso esclusivo a keynote e interviste. Dalla Sphere di Las Vegas, la visione di un’infrastruttura AI-native e...

Nuova Ford Capri elettrica, la super prova: in viaggio, in città e in autostrada Dopo diverse prove, da poche ore al volante, fino a un'intera settimana come prima auto, possiamo riportarvi tutti i dettagli e le impressioni sulla Ford Capri elettrica...

Roborock Saros Z70: un braccio meccanico per fare ordine in casa Dotato di tutte le ultime innovazioni in tema di aspirazione della polvere e pulizia dei pavimenti di casa, Roborock Saros Z70 integra un braccio meccanico che promette...