VAST Data arriva in Italia: ne parliamo col CEO Renen Hallak
di Vittorio Manti, Riccardo Robecchi pubblicata il 28 Novembre 2023, alle 16:51 nel canale InnovazioneVAST Data si occupa di archiviazione dei dati per l'era dell'intelligenza artificiale. L'azienda si è presentata ufficialmente al mercato italiano e abbiamo incontrato il CEO, Renen Hallak
In occasione dell'arrivo ufficiale in Italia di VAST Data, azienda che si occupa (come, d'altronde, lascia intendere il nome) di archiviazione dei dati, abbiamo intervistato Renen Hallak, CEO e fondatore, per capire meglio l'approccio dell'azienda e le sue peculiarità.
VAST Data si presenta sul mercato italiano
Edge9: Forse potremmo iniziare con una breve introduzione su chi è VAST data e su come avete creato l'azienda e dove si trova ora.
Renen Hallak: Mi piace dire che siamo una startup infrastrutturale in fase iniziale, ma non è più vero. Abbiamo otto anni. A me sembra ancora piccola, ma ora siamo circa 700 persone. Siamo cresciuti molto, molto rapidamente. Abbiamo iniziato nel 2016 e il vantaggio che avevamo nel 2016 era che eravamo abbastanza in ritardo per vedere il futuro. Il deep learning stava iniziando a diventare un fenomeno. Ricordo di aver visto i video di un team di Google che stava costruendo sistemi di IA ed era molto, molto chiaro che gli algoritmi erano gli stessi di 30 o 40 anni fa, ma la differenza era l'accesso rapido a un sacco di dati che ha iniziato a portarli al successo. E all'epoca il successo dell'IA consisteva nel riconoscere i gatti nelle foto. Si trattò quindi di un successo molto, molto modesto, ma ci diede già un assaggio del fatto che forse c'era una nuova possibilità e che Google può costruire quell'infrastruttura per se stessa, ma che qualcuno deve costruirla per tutti gli altri. E questa è stata la nostra missione fin dal primo giorno. Come possiamo costruire l'infrastruttura di base che l'intelligenza artificiale richiede per avere successo?
Ci siamo resi conto che il modo migliore per farlo è rompere i compromessi fondamentali che sono esistiti nello storage e nell'infrastruttura per molti, molti anni. Bisognava scegliere tra sistemi veloci che consentono un accesso rapido ai dati e sistemi di grandi dimensioni in grado di immagazzinare una grande quantità di dati. Si doveva scegliere tra resilienza, semplicità e scalabilità e c'erano sistemi diversi che andavano bene per un sottoinsieme diverso di queste caratteristiche e si doveva scegliere a quale sistema dovesse appartenere ciascuna applicazione. E così si è arrivati a una grande complessità, a un grande spostamento di dati tra sistemi di archiviazione e sistemi di infrastruttura dati, a una grande quantità di pensieri su "dove sono i miei dati, dove devono essere, come li gestisco?" Quando si rompe questo compromesso, si costruisce un sistema che è più veloce di quello che era prima, che è molto più scalabile di qualsiasi altro sistema precedente e più resiliente. È molto, molto conveniente, tanto che potete tenere tutti i vostri dati su un unico sistema senza pensare di doverli spostare e molto, molto facile da usare in modo che non abbiate bisogno di esperti per gestirlo, si gestisce da solo. Si risolve allora questo problema e lo si fa non solo per i nuovi carichi di lavoro, non solo per l'intelligenza artificiale, ma quando si rompono questi compromessi fondamentali, si risolve il problema anche per tutti i carichi di lavoro tradizionali.
Di solito i nostri clienti partono da un nuovo problema, un problema difficile per il quale non hanno una buona soluzione e poi si rendono conto molto rapidamente che la nostra piattaforma dati è migliore di quella che avevano prima per il backup e lo storage secondario, è migliore di quella che avevano prima per il tier 1, per le macchine virtuali e per i database transazionali e poi iniziano a usarla per tutto. E quando si inizia a usarla per tutto e a metterci tutti i dati, si eleva la capacità di eseguire i nuovi carichi di lavoro perché improvvisamente si possono analizzare tutte le informazioni e si possono generare approfondimenti che altrimenti non si potrebbero avere.
Abbiamo iniziato costruendo la parte di archiviazione, che chiamiamo VAST Data Store, e ora abbiamo aggiunto il VAST Database, il nostro modo di creare un ponte tra i dati non strutturati, le immagini, i video, i suoni e il linguaggio naturale, e di dare una struttura e una comprensione dei dati, in modo da poterli interrogare con i linguaggi di interrogazione standard se si trattasse di un database. VAST Data Store e VAST Database sono le due parti di questo sistema, mentre la terza parte è il VAST Data Engine, dove vengono eseguite le funzioni. I dati entrano nel sistema, passano attraverso una funzione di inferenza su una GPU e una funzione di addestramento e si capisce cosa c'è dentro; per farlo serve un framework di calcolo e questo è il VAST Data Engine. Queste tre parti, che chiamiamo VAST Data Platform, prima si trovavano in un silo all'interno di un data center. Oggi ci espandiamo in tutte le aree geografiche utilizzando quello che chiamiamo "VAST Data Space", che consente di creare un unico namespace globale attraverso i cloud (cloud pubblico, privato e i dispositivi edge), in modo da poter scrivere da qualsiasi punto in cui i dati provengano e da poterli leggere ovunque si desideri analizzarli e noi ci assicuriamo che siano presenti ovunque sia necessario.
Edge9: È davvero affascinante. Come siete riusciti a farlo? Voglio dire, perché devi comunque partire da blocchi di costruzione che sono standard, avete usato hardware standard e ci avete costruito sopra uno stack software?
Renen Hallak: Esatto. Usiamo hardware sia standard, sia nuovo. Anche in questo caso, iniziare tardi ha un vantaggio. Il vantaggio dato dall'essere gli ultimi arrivati è una parte importante della nostra storia e quando abbiamo iniziato nel 2016 e abbiamo cercato di capire come costruire ciò che ho appena detto, ci siamo resi conto che non sapevamo come fare. Non dico che fosse impossibile, ma non eravamo abbastanza intelligenti da capirlo. Abbiamo quindi iniziato a cercare nuove tecnologie di base che non esistevano quando abbiamo iniziato. Cose come la memoria di classe storage, che è un supporto persistente molto veloce, la memoria flash a basso costo che all'epoca non esisteva, i protocolli di rete come NVMe over Fabric che ci permettono di accedere in remoto alle unità SSD come se fossero direttamente collegate a noi.
Questi elementi, e altri come i container Docker, sono giunti a maturazione nel periodo 2017-2018 e abbiamo scommesso sulla loro disponibilità. Abbiamo preso questi elementi che non esistevano ancora e li abbiamo usati per costruire una nuova architettura che è praticamente l'opposto del modo in cui i sistemi scale out sono stati costruiti in passato. Invece di avere molti nodi nel sistema, ognuno dei quali è responsabile di una parte, abbiamo un'architettura disaggregata in cui tutti i nodi sono stateless, nessuno di loro ha responsabilità specifiche, tutti possono vedere tutti gli SSD e possono rispondere a tutte le richieste delle applicazioni senza parlare tra loro. Questo ci ha permesso di costruire il sistema più scalabile, più resiliente e più performante che il mondo abbia mai visto. E poi abbiamo sfruttato questa economia di scala, ora che ognuno dei nostri nodi può vedere migliaia e migliaia di unità di archiviazione, per progettare e implementare nuovi algoritmi. E questi nuovi algoritmi spremono l'efficienza di questi dispositivi in modo tale che abbiamo bisogno di molto meno hardware per memorizzare la stessa quantità di informazioni e questo è ciò che lo rende conveniente.
Edge9: Ma allo stesso tempo, dall'altra parte, dovete essere compatibili con gli altri livelli del sistema operativo e delle applicazioni, e idealmente lo siete, giusto?
Renen Hallak: Esatto. Quindi è tutto in container e quindi possiamo funzionare su qualsiasi CPU, su qualsiasi sistema operativo. Oggi siamo agnostici rispetto all'hardware, anche se quando abbiamo iniziato si trattava di hardware nuovo, oggi è commodity. È possibile acquistare più tipi di hardware per ognuno dei pezzi di cui abbiamo bisogno. Per quanto riguarda le applicazioni, siamo al 100% standard. Supportiamo i protocolli NFS per i file su Linux, SMB per i file su Windows e Mac. Supportiamo S3 per gli oggetti e i linguaggi di interrogazione standard. Tutti i diversi protocolli di archiviazione e di database sono standard, per cui non è necessario cambiare molto nel proprio ambiente per iniziare a usare VAST, ma fin dal primo giorno si può beneficiare dei vantaggi dell'architettura.
Edge9: Come si distribuisce la piattaforma? Se ho capito bene, avete iniziato con un modello diciamo on-premise, ma ora vi state muovendo verso un modello cloud più distribuito. È corretto?
Renen Hallak: Sì. Allo stesso modo in cui abbiamo disaggregato la capacità dalle prestazioni e lo stato dalla logica, abbiamo anche disaggregato l'hardware dal software. Il nostro modello di business prevede la vendita del software che sviluppiamo: è lì che si trova la nostra IP, è lì che facciamo i nostri soldi. Ciò significa che i nostri clienti sono liberi di utilizzare il loro hardware nel modo che desiderano. Può trattarsi di hardware on-premise o di infrastruttura cloud. Possono utilizzarci in entrambi i casi e creare un unico namespace globale, oppure possono scegliere di utilizzarci da una parte o dall'altra. L'aspetto positivo di questo modello di business è che allinea i nostri interessi con quelli dei clienti. Non dobbiamo mai costringerli ad acquistare nuovo hardware quando non ne hanno ancora bisogno. E permette loro di avere un unico sistema che rende accessibili tutti i loro dati in qualsiasi momento. Non hanno mai bisogno di migrare i loro dati da un ambiente all'altro.
Edge9: Usi un termine specifico, "namespace". È l'equivalente di un dominio o di una sorta di ombrello per tutte le risorse gestite?
Renen Hallak: È esattamente così. Storicamente, si avevano molti silos di dati. Alcune informazioni erano accessibili su questo sistema e altre su quell'altro. Noi facciamo da ponte e vi permettiamo di accedere a tutti i vostri dati indipendentemente da dove vi trovate nel mondo. E man mano che siamo passati dalla costruzione del solo database e dell'archivio dei dati all'aggiunta del motore dati, ora possiamo non solo spostare i dati dove devono essere, ma anche l'elaborazione, il che è molto più efficiente in alcuni casi. E in alcuni casi è anche l'unica opzione legale: per esempio, se si vuole fare un lavoro di formazione globale per capire i veicoli a guida autonoma, spostare i dati fuori dall'Italia è costoso e potrebbe non essere legale. Calcolare sui dati in Italia è il modo giusto per farlo. Il fatto che siamo integrati verticalmente ci permette di prendere queste decisioni.
Edge9: È davvero affascinante. Come interagite con gli hyperscaler? Cioè, se ho capito bene, il vostro modello è costruito per il cloud ibrido. Ciò significa che potete disporre di risorse, sia di calcolo che di storage, sia on premise che nel cloud. Ma avete servizi specifici che eseguite sui vari hyperscaler e che vi permettono di creare questo collegamento?
Renen Hallak: Sì. Oggi è possibile eseguire il nostro software sui grandi fornitori di cloud e, come ho detto, creare un namespace globale. Col tempo lavoreremo con loro per creare una partnership più profonda. Un altro aspetto molto interessante di questa domanda è chi sono gli hyperscaler. Ovviamente ci sono i tre grandi cloud. Negli ultimi anni stiamo assistendo alla nascita di molti nuovi cloud. Aziende come CoreWeave, Lambda Labs e Core42 stanno costruendo cloud dedicati all'AI. Oggi è considerata una nicchia, ma io credo che l'AI stia conquistando il mondo e il settore e che nel corso del tempo queste nuove aziende diventeranno sempre più importanti. Ognuno di questi grandi cloud di IA che abbiamo incontrato ha deciso di standardizzarsi sulla VAST Data Platform perché consente loro di fornire il livello di infrastruttura software ai propri clienti. Quindi il nostro miglior partner dal punto di vista dell'hardware è stato NVIDIA. Ovunque NVIDIA venda le sue GPU e il suo networking veloce, quello che prima era Mellanox, noi abbiamo cercato di vendere il nostro sistema di storage e il nostro stack di infrastrutture software. Ora abbiamo organizzazioni che stanno costruendo i loro cloud utilizzando VAST Data come livello di base e siamo in procinto di collaborare con le tre grandi aziende.
Edge9: E chi sono i vostri concorrenti, se ce ne sono?
Renen Hallak: Sì, se guardiamo alle nostre radici nel campo dello storage, ci sono tutte le aziende di storage. Come Pure Storage, NetApp, EMC sul versante aziendale e aziende come GPFS di IBM o Luster sul versante dei file system paralleli e del calcolo ad alte prestazioni. Quello che noi portiamo in tavola a questo proposito è che combiniamo entrambi i mondi, il meglio di ogni lato. Il lato HPC era molto bravo nelle prestazioni elevate e nella scalabilità. Il lato enterprise era molto bravo a garantire resilienza, sicurezza e alta disponibilità, qualità del servizio, multi-tenancy e tutte le caratteristiche che ci si aspetta. Noi ci troviamo all'intersezione tra i due. E infatti oggi siamo l'unico sistema di livello enterprise certificato da NVIDIA per le sue grandi implementazioni di super pod. Guardando al futuro, non siamo più solo una piattaforma di storage o una piattaforma di dati. Le due aziende più vicine a noi che hanno creato una piattaforma di dati sono Databricks e Snowflake. Entrambe queste aziende hanno iniziato circa quattro o cinque anni prima di noi e quindi hanno costruito per l'era dell'apprendimento automatico [o machine learning], mentre noi abbiamo costruito per l'era del deep learning e questa è la differenza.
Edge9: Interessante. È davvero affascinante perché a volte si sente parlare di fallimenti di sistemi e architetture che si rompono, e mi è sembrato, da una prospettiva esterna, non essendo un ingegnere, che ci fosse qualcosa di difettoso fin dall'inizio e che dover portare con sé tutta l'eredità accumulata lungo il percorso non portasse alle condizioni per risolvere i problemi fondamentali. Sembra che la vostra prospettiva stia cercando di risolvere questo problema da un punto di vista fondamentale.
Renen Hallak: Esatto. Siamo partiti da un foglio bianco e ci chiediamo sempre il perché, finché non capiamo la radice di una cosa e questo ci porta a costruire in modo diverso da come avremmo fatto altrimenti. Non guardiamo tanto ai lati e non cerchiamo di copiare quello che hanno fatto gli altri. Cerchiamo di capire perché una cosa è così com'è. E molte volte ci si rende conto che è così per ragioni storiche che non valgono più e che si può fare meglio e in modo più resiliente. Hai parlato di resilienza e di sistemi difettosi. Quando abbiamo iniziato ho letto un libro scritto da Taleb, "Antifragile". Parlava del concetto che i sistemi che l'uomo crea sono intrinsecamente fragili. Se prendi questa tazza e la butti a terra, si romperà. Poi ci sono sistemi più robusti: forse quella tazza, se la butti a terra, non si romperà. Ma i sistemi naturali si rafforzano nel tempo. Se mi taglio qui, il tessuto cicatriziale sarà più forte della pelle precedente. Volevamo costruire un sistema anti-fragile che si rafforzasse nel tempo.
Edge9: Usi sempre la parola "perché" e questo mi ricorda un approccio molto popolare nel mondo degli affari, il design thinking. Quello che hai descritto oggi mi ha ricordato un esempio che mi ha raccontato uno degli insegnanti di design thinking: incredibilmente, oggi il mercato delle candele è più grande di quello delle lampadine. Ma nessuno usa più le candele per la luce. Vengono utilizzate per creare un'atmosfera in casa. E la più antica azienda che produceva candele per l'illuminazione è fallita qualche anno fa, anche se faceva parte della General Electric, un'azienda enorme. Il motivo per cui Yankee Doodle ha avuto successo e l'altra azienda è fallita è che ha cambiato il significato e il motivo per cui una persona usa le candele. Sembra che il vostro approccio sia molto simile a questo: chiedersi sempre perché e creare un nuovo paradigma in quella che viene chiamata, in un certo senso, innovazione dirompente.
Renen Hallak: Lo è e credo che siamo molto, molto fortunati a trovarci su un'onda molto più grande di noi. Non stiamo cercando di realizzare questa trasformazione da soli. Facciamo parte di una rivoluzione più ampia, come ho detto, ovvero il modo in cui si fa calcolo sarà molto, molto diverso tra tre, quattro anni rispetto a tre o quattro anni fa. I dati sono al centro di questa differenza e questo è il nostro valore aggiunto. Forniamo un accesso rapido a molti dati per consentire questo nuovo mondo.
VAST Data in Italia: un Paese per molti versi all'avanguardia
Edge9: Molto interessante. Avete parlato di sicurezza, di come la vostra piattaforma sia sicura e poi quali sono le vostre aspettative per l'Italia come mercato, perché siamo abbastanza avanzati in certe cose ma molto indietro in altre. Come vedete l'Italia dall'esterno con il vostro approccio particolare?
Renen Hallak: Sì, particolare è bello. Dal punto di vista della sicurezza, abbiamo fatto un sacco di lavoro. In effetti, abbiamo dedicato un paio d'anni alla sicurezza. Perché? Perché i nostri clienti sono estremamente attenti alla sicurezza. Abbiamo come clienti le grandi banche di Wall Street. Abbiamo come clienti grandi agenzie di intelligence, grandi aziende farmaceutiche e hanno bisogno di un sistema estremamente sicuro. Per questo abbiamo aggiunto tutti i diversi tipi di meccanismi di autorizzazione e autenticazione. Tutti i dati sono criptati. Sono crittografati con chiavi diverse per più tenant che possono conservare le proprie chiavi, anziché permettere a noi di accedervi. Tutti questi elementi rendono il sistema operativo che usiamo molto sicuro. Tutti questi elementi sono stati necessari per permetterci di vendere a questi clienti. Inoltre, aiutiamo i nostri clienti a proteggere i loro dati. La piattaforma è in grado di rilevare e proteggere dagli attacchi ransomware. Abbiamo la capacità di tornare indietro nel tempo utilizzando istantanee immutabili, in modo che se qualcuno attacca le vostre informazioni, potete recuperarle molto, molto rapidamente. Tutti questi elementi fanno parte della piattaforma. Sono stati presenti fin dal principio e oggi ci aiutano a espandere la nostra impronta.
Edge9: E poi se potessimo finire con l'Italia...
Renen Hallak: Sì, l'Italia. L'Italia, come hai detto, in alcuni ambiti è più avanzata, in altri meno, ma credo che questo sia un vantaggio. Trovo che i Paesi che sono forse un passo indietro in alcuni aspetti, possono fare un balzo in avanti rispetto al resto del mondo quando le nuove tecnologie diventano disponibili. In Italia, ad esempio, ci sono i più grandi supercomputer d'Europa. Quindi siete estremamente avanzati da questo punto di vista. E credo che questa combinazione di pensiero innovativo e capacità di pensare fuori dagli schemi, di pensare in modo diverso da altri luoghi, con le solide basi che avete nel supercalcolo, renderà l'Italia uno degli hub per questa nuova rivoluzione dell'IA. E noi saremo lieti di aiutarvi a raggiungerla.
Edge9: Fantastico. Siccome hai citato le grandi banche e le grandi aziende farmaceutiche, pensi che la vostra piattaforma sia interessante anche per le aziende di dimensioni più piccole, che sono la spina dorsale della nostra imprenditoria?
Renen Hallak: Noi, come azienda, all'inizio ci siamo intenzionalmente concentrati sui grandi, come suggerisce il nome "VAST Data". Non siamo andati sul piccolo. Abbiamo cercato le organizzazioni con il maggior quantitativo di dati al mondo. E loro ci hanno aiutato a vedere il futuro. Ci hanno aiutato a capire cosa costruire per tutti gli altri. Ora che abbiamo raggiunto una certa dimensione, stiamo cercando di acquisire quanto più possibile, sia direttamente che attraverso partnership. Stiamo entrando nel mercato italiano con il nostro partner HPE. Stiamo entrando con un distributore chiamato Arrow. Questo tipo di partnership ci aiuta a raggiungere un mercato molto più ampio di quello che potremmo raggiungere da soli.
0 Commenti
Gli autori dei commenti, e non la redazione, sono responsabili dei contenuti da loro inseriti - infoDevi effettuare il login per poter commentare
Se non sei ancora registrato, puoi farlo attraverso questo form.
Se sei già registrato e loggato nel sito, puoi inserire il tuo commento.
Si tenga presente quanto letto nel regolamento, nel rispetto del "quieto vivere".