Technologie Big Data w chmurze AWS
Serwisy analityczne w chmurze AWS umożliwiają budowę wydajnych oraz skalowalnych rozwiązań typu data lake/hurtownie danych/platformy danych (big data/data science)
Czas trwania szkolenia:3 dni (24h)
Kod kursu:BIGDATA/AWS
Technologie Big Data w chmurze AWS
Cele szkolenia
Zapoznanie uczestników z koncepcją Data Lake w chmurze AWS
Zapoznanie z serwisami do migracji oraz integracji danych do chmury AWS w trybie batch i real time
Zapoznanie z serwisami do przetwarzania danych w chmurze AWS w trybie batch oraz real time
Zapoznanie z serwisami do przechowywania danych w chmurze AWS (data lake storage, SQL stores, NoSQL stores)
Zapoznanie z aspektami bezpieczeństwa usług analitycznych
Dla kogo?
Szkolenie adresowane jest do architektów, analityków i inżynierów danych pragnących poznać serwisy AWS do przetwarzania danych, zarówno w trybie batch jak i w czasie rzeczywistym
Zalety
Wykłady oraz przeprowadzone ćwiczenia systematyzują wiedzę oraz właściwe przypadki użycia konkretnych serwisów analitycznych
Wiedza wyniesiona ze szkolenia pozwala tworzyć systemy analityczne całościowo, z uwzględnieniem zagadnień bezpieczeństwa, wydajności, skalowalności oraz oceny kosztów rozwiązań
Szkolenie pozwala zrozumieć istotne różnice podczas projektowania rozwiązań analitycznych/big data w chmurze w stosunku do rozwiązań on-premise
Praktyka przed teorią - wszystkie szkolenia technologiczne prowadzone są w formie warsztatowej. Konieczna teoria jest wyjaśniana na przykładzie praktycznych zadań
Konkretne umiejętności - w ramach każdego szkolenia rozwijamy praktyczne umiejętności związane z daną technologią i tematyką
Nauka z praktykami - wszyscy trenerzy na co dzień pracują w projektach, gwarantuje to dostęp do eksperckiej wiedzy i praktycznego know-how
Wymagania
Od uczestników wymagana jest znajomość min. jednej z technologii Big Data w wersji on-premise (np. Hadoop, Kafka, MongoDB) oraz podstawowa znajomość chmury AWS. Szkolenie rozpocznie się od omówienia podstawowych usług AWS (S3, EC2, VPC, IAM, ...), po czym omówione zostaną wszystkie istotne serwisy analityczne
W cenie otrzymasz:
Materiały szkoleniowe
Certyfikat ukończenia szkolenia
W przypadku szkolenia w trybie stacjonarnym zapewnimy Ci również lunch oraz sprzęt niezbędny do nauki
Program
Przegląd podstawowych usług Amazon Web Services
Compute (EC2, Lambda, on demand vs spot instances)
Storage (S3, EBS, EFS, Glacier)
Networking (VPC, IGW, NGW, sieci publiczne i prywatne, security groups, acls, service endpoints)
Monitoring (CloudWatch, CloudTrail)
Infrastruktura AWS (m.in. regiony, strefy dostępności, direct connect, ....)
Praca z AWS (CLI, SDK, REST API, IDE)
Security (IAM)
Infrastructure Provisioning (CloudFormation, Terraform)
Koncepcja Data Lake
Data Lake vs Data Warehouse vs Data Platform
Rola poszczególnych serwisów w koncepcji Data Lake w chmurze AWS
Migracja danych do chmury
Migracja danych relacyjnych za pomocą serwisu AWS Database Migration Service (DMS)
Migracja danych nierelacyjnych za pomocą serwisu AWS Batch
Streaming danych za pomocą serwisu AWS Kinesis Data Streams
Integracja danych w chmurze AWS
Integracja serwisów AWS przy wykorzystaniu AWS Lambda
Serverless Computing w rozwiązaniach analitycznych
Orkiestracja (orchestration) oraz planowanie (scheduling) procesów przetwarzania danych za pomocą AWS Step Functions
Przetwarzanie Big Data za pomocą serwisu AWS Elastic Map Reduce (EMR)
Przetwarzanie Serverless ETL przy użyciu serwisu AWS Glue ETL
Przechowywanie metadanych Data Lake z wykorzystaniem serwisu AWS Glue Data Catalog
Kolejki i notyfikacje - serwisy AWS SQS oraz AWS SNS
Analityka w czasie rzeczywistym przy użyciu AWS Kinesis Data Analytics
Integracja danych real time z innymi serwisami przy użyciu serwisu AWS Kinesis Data Firehose
Przechowywanie i serwowanie danych w chmurze AWS
Data Lake Storage - S3
AWS Athena - Serwis serverless do zapytań SQL
AWS DynamoDB - baza NoSQL
AWS Elasticsearch - wyszukiwanie, wizualizacje oraz analizy danych w czasie rzeczywistym
Hurtownia danych - AWS Redshift - przetwarzanie danych oraz integracja z AWS Data Lake (Redshift Spectrum)