AWS Big del Cloud Data Management

AWS punta a semplificare la gestione dei dati con DataZone e l'integrazione tra Redshift, Aurora e Apache Spark

di Riccardo Robecchi pubblicata il 01 Dicembre 2022, alle 16:45 nel canale Cloud

AWS ha annunciato diverse novità nella gestione dei dati: DataZone consente di facilitarne la catalogazione, e c'è poi l'integrazione tra Redshift e Aurora (servizio di DBMS) e tra Redshift e Apache Spark (per gestire i "big data")

Sono diverse le novità per quanto riguarda la gestione dei dati che AWS ha annunciato a Re:Invent 2022, la sua conferenza annuale che si tiene a Las Vegas e alla quale abbiamo partecipato. L'azienda ha presentato un'integrazione "zero ETL" tra Amazon Redshift e Amazon Aurora, e un'integrazione tra Redshift e Apache Spark che consente di usare i servizi di analisi dei dati e di machine learning forniti da AWS. Sempre in tema di gestione dei dati, AWS ha annunciato anche Amazon DataZone, un servizio che consente alle aziende di ottenere un migliore controllo sui propri dati.

Basta ETL tra Amazon Aurora e Amazon Redhisft

Uno dei principali problemi che le aziende devono affrontare quando usano sistemi differenti è quello della trasformazione dei dati: il processo ETL (dall'inglese "extract, transform, load", ovvero "estrarre, trasformare, caricare") rappresenta spesso uno dei problemi più lunghi e complessi da affrontare nell'integrazione tra applicativi.

Per questo è particolarmente significativo l'annuncio di AWS che non sarà più necessario costruire complesse pipeline di ETL tra Amazon Aurora, servizio di database relazionale compatibile con MySQL e PostgreSQL, e Amazon Redshift, servizio per analizzare dati strutturati e semi-strutturati in database, data warehouse e data lake.

Come scrive la stessa AWS nel comunicato di annuncio, "molte realtà oggi si affidano a una soluzione in tre parti per analizzare i propri dati transazionali: un database relazionale per archiviare i dati, un data warehouse per analizzarli e una pipeline di ETL tra il database relazionale e il data warehouse. Le pipeline possono essere costose da costruire e difficili da manutenere, dato che richiedono agli sviluppatori di scrivere codice su misura e gestire costantemente l'infrastruttura per assicurarsi che scali con la domanda."

La nuova soluzione consente invece di avere i dati transazionali di Aurora automaticamente e continuamente replicati in Redshift, così da poterli analizzare tramite, ad esempio, tecniche di machine learning.

Amazon Redshift si integra con Apache Spark

Apache Spark è uno dei framework open source più usati per gestire attività di analisi dei cosiddetti "big data". AWS ne offre una sua versione che, a suo dire, è tre volte più veloce di quella open source. Tuttavia, non esisteva un'integrazione nativa tra Spark e Redshift e le aziende dovevano rivolgersi a terze parti. AWS ha dunque deciso di fornire un proprio connettore che consente alle aziende di analizzare più facilmente i propri dati con Apache Spark all'interno di Redshift, tagliando fuori allo stesso tempo la concorrenza.

La nuova integrazione consente, stando ad AWS, agli sviluppatori di eseguire interrogazioni con Redshift sui dati di applicazioni basate su Spark "in pochi secondi" usando i linguaggi di programmazione più diffusi (come Java, Python, R e Scala). Il vantaggio del nuovo connettore è che le fasi intermedie sono gestite in automatico dal sistema, cosicché gli utilizzatori non devono preoccuparsi di configurarle e gestirle da sé.

Amazon DataZone punta a semplificare la gestione dei dati

Amazon DataZone

Le aziende fanno sempre più fatica a capire di quali dati sono in possesso e dove questi siano archiviati, grazie anche al crescente numero di luoghi sia fisici, sia virtuali in cui possono essere custoditi. Oltre alle tradizionali infrastrutture on premise, si aggiungono infatti i servizi di cloud computing e quelli di terze parti. Amazon DataZone punta ad aiutare le aziende a trovare, catalogare, condividere e amministrare i dati ovunque essi si trovino.

Tramite il servizio, i produttori dei dati aziendali possono usare il portale Web di DataZone per creare un catalogo dei dati con una propria tassonomia, impostando altresì le corrispondenti politiche di amministrazione e il collegamento con servizi terzi (sia di AWS, come S3 e Redshift, sia di terzi, come Salesforce e ServiceNow).

DataZone impiega il machine learning per raccogliere e suggerire metadati da impiegare per catalogare i dati, e per renderli poi disponibili tramite il proprio portale Web. In tale modo è possibile cercare tra i dati, richiedervi l'accesso ed esaminare i metadati. Viene quindi creato un progetto che è condiviso tra i membri della squadra e consente di gestire più facilmente l'accesso ai dati. È inoltre possibile sfruttare le API per integrare DataZone con soluzioni come DataBricks, Snowflake e Tableau.

I migliori sconti su Amazon oggi

Apple iPhone 16e 128 GB: progettato per Apple Intelligence, con chip A18, un’autonomia grandiosa, fotocamera Fusion da 48MP e display Super Retina XDR 6,1''; Bianco

599.00 599.00€ Compra ora

-9%

Apple AirTag in confezione da 4

99.00 89.99€ Compra ora

ASUS TUF Gaming F15 FX507VV#B0CQ2RTBR1, Notebook con Monitor 15,6" FHD Antiglare, 144Hz, Intel Core 13esima gen i7-13620H, RAM 16GB, 1TB SSD PCIE, NVIDIA GeForce RTX 4060 8GB, Windows 11 Home, Grigia

1159.00 1159.00€ Compra ora

I ''pilastri della creazione'' visti da NIRCam e MIRI del telescopio spaziale James Webb

Arriva FRITZ!OS 7.50: 150 nuove funzioni per i dispositivi di rete AVM

Devi effettuare il login per poter commentare
Se non sei ancora registrato, puoi farlo attraverso questo form.
Se sei già registrato e loggato nel sito, puoi inserire il tuo commento.
Si tenga presente quanto letto nel regolamento, nel rispetto del "quieto vivere".

La discussione è consultabile anche qui, sul forum.

VIDEO IN EVIDENZA

TOPICS

tutti gli articoli »

tutte le news »

Gigabyte Aero X16 Copilot+ PC: tanta potenza non solo per l'IA Un notebook che punta sull'abbinamento tra potenza di calcolo, schermo ampio e dimensioni nel complesso compatte. Gigabyte Aero X16 Copilot+ PC si trasporta facilmente,...

vivo X200 FE: il top di gamma si è fatto tascabile? Molte persone vorrebbero prestazioni da top di gamma, ma in formato più tascabile. vivo X200 FE si indirizza proprio a questo tipo di persone e vuole rappresentare...

Mario Kart World lancia Switch 2: la magia Nintendo ora in 4K Abbiamo provato esaustivamente due dei titoli di lancio della nuova console di Nintendo, il cui debutto è previsto per la settimana in corso. Mario Kart World e...

Fujifilm X-E5: la Fuji X che tutti gli appassionati volevano Dopo il fascino un po’ elitario della GFX100RF e le polemiche intorno a x Half, la nuova Fujifilm X-E5 riporta tutti d’accordo: una mirrorless compatta, leggera,...

Vi portiamo all'interno di uno dei più importanti centri di distribuzione Amazon in Italia MXP6 è uno dei più recenti investimenti di Amazon sul territorio italiano, per la realizzazione di un capannone da 60.000 metri quadri alle porte di Novara, a due...

HPE Discover 2025: tra agenti intelligenti, infrastruttura AI-native e un futuro ibrido Edge9 ha seguito da vicino HPE Discover 2025 con accesso esclusivo a keynote e interviste. Dalla Sphere di Las Vegas, la visione di un’infrastruttura AI-native e...

Nuova Ford Capri elettrica, la super prova: in viaggio, in città e in autostrada Dopo diverse prove, da poche ore al volante, fino a un'intera settimana come prima auto, possiamo riportarvi tutti i dettagli e le impressioni sulla Ford Capri elettrica...

Roborock Saros Z70: un braccio meccanico per fare ordine in casa Dotato di tutte le ultime innovazioni in tema di aspirazione della polvere e pulizia dei pavimenti di casa, Roborock Saros Z70 integra un braccio meccanico che promette...