Big Data on AWS

Big Data on AWS fornisce un'introduzione alle soluzioni per i big data basate su cloud come Amazon Elastic MapReduce (EMR), Amazon Redshift, Amazon Kinesis e il resto della piattaforma per i big data di AWS. In questo corso ti mostriamo come utilizzare Amazon EMR per elaborare i dati con l'ampio ecosistema degli strumenti Hadoop quali Hive e Hue. Inoltre ti insegniamo come creare ambienti dei big data, lavorare con Amazon DynamoDB, Amazon Redshift e Amazon Kinesis e sfruttare le best practice per progettare ambienti dei big data per sicurezza e convenienza in termini di costi.

Obiettivi del corso

Al termine del corso sarai in grado di:

  • Adattare le soluzioni AWS all'interno di un ecosistema dei big data
  • Sfruttare Apache Hadoop nel contesto di Amazon EMRIdentificare i componenti di un cluster Amazon EMR
  • Lanciare e configurare un cluster Amazon EMR
  • Sfruttare i quadri di programmazione comuni disponibili per Amazon EMR, tra cui Hive, Pig e Streaming
  • Sfruttare Hue per migliorare la facilità di utilizzo di Amazon EMR
  • Utilizzare l'analisi in-memory con Spark e Spark SQL in Amazon EMR
  • Scegliere le opzioni di storage dei dati AWS opportune
  • Individuare i vantaggi dell'uso di Amazon Kinesis per un'elaborazione dei big data quasi in tempo reale
  • Definire le nozioni di data warehousing e database a colonne
  • Sfruttare Amazon Redshift per archiviare e analizzare i dati in modo efficiente
  • Comprendere e gestire i costi e la sicurezza per i deployment di Amazon EMR e Amazon Redshift
  • Individuare opzioni per integrazione, trasferimento e compressione dei dati
  • Utilizzare il software di visualizzazione per illustrare dati e query
  • Organizzare flussi di big data utilizzando AWS Data Pipeline

 

Destinatari principali

Questo corso è destinato a:

  • Gli individui responsabili di progettazione e implementazione di soluzioni per i big data, ovvero architetti delle soluzioni e amministratori SysOps
  • Data scientist e analisti dei dati interessati all'apprendimento di informazioni sulle soluzioni per i big data in AWS

 

Prerequisiti

Prima di partecipare al corso, i partecipanti sono invitati a soddisfare i seguenti requisiti preliminari:

  • Familiarità di base con le tecnologie dei big data, tra cui Apache Hadoop, MapReduce, HDFS e query SQL/NoSQL
  • Conoscenze operative dei servizi AWS principali e dell'implementazione del cloud pubblico
  • Comprensione di base di data warehousing, sistemi di database relazionali e progettazione di database
     

 

Tipo di corso

Questo corso consente di mettere alla prova le competenze acquisite in un ambiente di lavoro mediante una serie di esercizi pratici.  E' composto da una combinazione di:

  • Lezioni tenute da un Trainer Autorizzato
  • Lezioni pratiche
  • Attività pratiche

 

    Vuoi restare aggiornato sulle prossime date? iscriviti alla newsletter 
    Vuoi proporre una data o location per questo corso? faccelo sapere
    Hai bisogno di maggiori informazioni? contattaci 
    Scopri i vantaggi della certificazione 
     

    Agenda

    Nota: il programma del corso può variare leggermente 

    Giorno 1

    • Panoramica dei big data
    • Integrazione, trasferimento e compressione
    • Soluzioni di storage
    • Archiviazione e query dei dati in DynamoDB
    • Elaborazione dei big data e Amazon Kinesis
    • Introduzione ad Apache Hadoop e Amazon EMR
    • Utilizzo di Amazon Elastic MapReduce


    Giorno 2

    • Quadri di programmazione Hadoop
    • Elaborazione di log dei server con Hive in Amazon EMR
    • Elaborazione di dati chimici utilizzando lo streaming di Hadoop in Amazon EMR
    • Semplificazione della tua esperienza di Amazon EMR con Hue
    • Esecuzione di script Pig in Hue in Amazon EMR
    • Spark in Amazon EMR
    • Creazione e query interattiva di tabelle con Spark e Spark SQL in Amazon EMR
    • Gestione dei costi di Amazon EMR
    • Sicurezza dei tuoi deployment Amazon EMR


    Giorno 3

    • Data warehouse e data store a colonne
    • Amazon Redshift e big data
    • Ottimizzazione del tuo ambiente Amazon Redshift
    • Modelli di progettazione dei big data
    • Visualizzazione e organizzazione dei big data
    • Utilizzo di Tibco Spotfire per la visualizzazione dei big data