Data Engineer

Binnenkort verschijnen nieuwe startdata & prijzen

Data Engineer

Vandaag produceren organisaties tientallen, soms honderdtallen “data producten”. Data producten zijn software applicaties zoals dashboards, API’s, rapporten of machine learning modellen. Ze helpen bedrijven efficiënter te worden door processen te automatiseren en/of het maken van beslissingen te faciliteren. Hetgeen deze producten gemeenschappelijk hebben is dat ze allen gebouwd zijn op data. Hierbij is het de job van de data engineer om te zorgen dat data tijdig wordt aangeleverd en voor meerdere doeleinden bruikbaar is. Vandaag is er een hele toolbox beschikbaar om de data engineer bij te staan bij het verwerken van Big Data in, onder andere, data lakes and data warehouses.

Binnenkort verschijnen nieuwe startdata & prijzen

Over deze opleiding

Waarom data engineer worden?
Data engineers zijn één van de meest gevraagde jobs op de markt. In 2022 hebben de meeste organisaties hun eerste data science experimenten uitgevoerd, en zijn ze op weg naar de cloud om daar gebruik te maken van de nuttige services die snel beschikbaar en uitbreidbaar zijn. De taak van een data engineer in deze snel veranderende wereld is om op een kostenefficiënte manier deze services te verbinden en data aan de lopende band te verrijken en ordenen. Het gevolg is dat de vraag naar data engineers enorm hoog is, en dat zal de komende jaren niet verminderen. In tegendeel zelfs. Als data engineer krijg je de kans om op de meest uitdagende projecten te werken bij de meest innovatieve organisaties. Je krijgt de kans om je interesses te volgen en specifieke gebieden van data engineering dieper te verkennen, zoals streaming analytics, het verwerken van enorme hoeveelheden data en het gebruiken van cutting edge technologieën. Jij kiest het bedrijf waarvoor je wil werken en beslist hoe je impact maakt. 

Wat doet een data engineer?
Data engineers passen software engineering principes toe op data. De rol gaat verder dan eenvoudigweg data binnen te nemen en te cleanen. Ze bouwen cloud-native architecturen, automatiseren het in productie zetten van data pipelines, waaronder ook machine learning pipelines en AI-modellen en zorgen dat de rest van de organisatie kan uitblinken met hun data producten. Als data engineer ben je verantwoordelijk voor het koppelen, organiseren en ontsluiten van data, zodat anderen in jouw organisatie (of bij de klant) hier effectief gebruik van kunnen maken. 

Wat zal je leren?
In deze cursus hebben we een aantal kernonderwerpen uitgekozen waarmee iedere data engineer bekend moet zijn. Voor ieder onderwerp dat we behandelen, hebben we telkens één concrete technologie uitgekozen die veel gebruikt wordt in de praktijk, waarvan we jou de nodige hands-on ervaring zullen geven.

Voor wie

De opleiding vereist:

  • Basiskennis Python.
    Je wordt verondersteld een functie te kunnen schrijven die uit een datum het jaar haalt, daar 10 bij optelt en terugstuurt naar de plek waar de functie werd gebruikt.
  • Basiskennis SQL.
    Je wordt verondersteld het aantal mensen dat geboren is voor én na 2000 te kunnen bepalen, gegeven een tabel met geboortedata van personen.
  • Notie van een commandline

Programma



Dag 1 – Introductie tot moderne data platformen en cloud

Deel A: Moderne data platformen (4h)
Vandaag duiken we in de wereld van data engineering. In deze introductie krijg je een overzicht van het huidige data landschap. Welke verwachtingen hebben we vandaag van data en welke technologieën helpen deze in te lossen? We bekijken wat een data platform nu “modern” maakt, wie daar baat bij heeft en welke rol de cloud speelt.

Deel B: Intro tot Cloud Services(4h)
Een basis omtrent cloud is onmisbaar voor een moderne data engineer. Je krijgt een introductie tot de basisconcepten van cloud en gaat er zelf mee aan de slag. We bekijken virtuele machines, container registries, enkele van de vele opslagmogelijkheden, en enkele vendorspecifieke geavanceerde oplossingen, maar ook hoe API’s in zowel de browseromgevingen als in command line interfaces worden gebruikt om snel te kunnen schakelen naargelang de noden van de organisatie.

Dag 2 – Fundamentele werktuigen - git, bash & Linux

Deel A: Basis commandline en Linux (4h)
Vele data applicaties draaien op Linux, een alternatief voor het besturingssysteem Windows of MacOS. Je kan Linux grafisch gebruiken, maar de kracht zit hem vooral in de commandline interface of CLI. In deze module bekijken we welke tools de commandline biedt en hoe ze het leven van een data engineer makkelijker maken.

Deel B: Versiebeheer met git (4h)
Programmeurs delen kennis via code, door deze te schrijven, documenteren en te reviewen. Een belangrijke tool hierbij is de versiecontrole software git, die overgewaaid is uit software engineering. Git betekent het einde van e-mail attachments met daarin je code, al dan niet voorzien van versienummers. We gebruiken deze tool in de rest van deze cursus om code te beheren en samenwerking te vergemakkelijken.

Dag 3 – Containerizatie met Docker

Je data applicatie werkt nu, super! Maar ze werkt op jouw laptop… Aangezien het nogal moeilijk is om jouw laptop als productieserver te gebruiken moeten we zorgen dat de applicatie ook werkt op andere machines. In deze module bespreken we Docker, een van de meest revolutionaire technologieën van het afgelopen decennium, om deze uitdaging aan te gaan.
Docker is dé onmisbare tool geworden voor vele software engineers. Als data engineer zal je dit ook tegenkomen, aangezien Docker het packagen en deployen van je oplossing sneller een betrouwbaarder maakt. Docker zorgt ervoor dat je code op iedere machine kan draaien. Je gaat hands-on aan de slag met Docker om zelf te ondervinden wat het voor jou kan betekenen.

Dag 4 – SQL analytics met Snowflake en DBT

Eén van de sleutelcomponenten van een goede analytics oplossing is nog steeds een relationele database. Je leert over SQL (inclusief joins en windowing), zet een data warehouse op in Snowflake en bouwt data pipelines met DBT.

Dag 5 – Data Pipelines met PySpark

Wanneer je data te groot wordt of door vele producenten ervan snel op je afkomt, dan zal je als data engineer beroep doen op een framework dat over meerdere machines kan schalen. Spark is een framework dat veel gebruikt wordt en toelaat om data op grote schaal te verwerken. Je gaat in deze module aan de slag met PySpark, zodat je met eenvoudige Python code enorm veel werk kan verzetten.

Dag 6 – Data Orchestration & Project

Deel A: Orchestration with Airflow (4h)

Je hebt een productieve maand achter de rug en hebt plots 3, 4, 5, … 10 batch data pipelines in productie staan. Geweldig! Maar, je zal vast niet 7/7 elke dag om 6:30 de pipeline manueel willen starten. Daarvoor gebruiken we “workflow orchestrators”, zoals Airflow.

Een orchestrator zorgt ervoor dat je optimaal kan inzetten op automatisatie. Hoe vaak moet de pipeline uitgevoerd worden? Wat moet er gebeuren als er iets mis gaat? De meest gebruikte tool hiervoor is Apache Airflow, waarmee je in deze module zelf aan de slag gaat!

 

Deel B: Capstone Project (4h)

Als laatste opdracht bouw je een heuse data pipeline binnen een modern data platform met echte data, waarbij je al de tools en technieken uit deze cursus combineert. Startende met data van een externe bron, bouw je cleaning- en transformatiepipelines om de data in een data warehouse op te slaan, klaar voor het gebruik van de vele analysten. Vanaf hier kan je een query-gebaseerd dashboard bouwen dat elk uur verse data laat zien!

Dag 7 – Project

Capstone Project - Vervolg (8h)

Dag 8 – Project & Hot topics

Deel A: Capstone Project - Vervolg (4h)

 

Deel B: Hot topics in Data engineering (4h)

Proficiat! Je bent erin geslaagd om een eigen batch ETL pipeline te bouwen. Meer nog, je hebt hiervoor state-of-the-art tools gebruikt. Nu is het tijd om verder te kijken naar wat de wereld van data engineering – die continu verandert – verder te bieden heeft. We bekijken enkele recente topics die steeds meer aandacht krijgen, zoals streaming, MLOps en data mesh.

Trainers en docenten

Onze trainers en docenten zijn echte experten uit het werkveld. Zij staan klaar om ondernemende studenten, professionals en bedrijven te inspireren en verder te helpen. Met een sterk netwerk aan freelance trainers en docenten haalt PXL-NeXT de beste expertise in huis!

Lees meer
Trainers

kmo-portefeuille

Thema: Beroepsspecifieke competentie - Knelpuntberoep

De kmo-portefeuille is een subsidie van de Vlaamse Overheid waardoor je tot 30% van je inschrijvingsgeld kan recupereren. Lees hier hoe de KMO-portefeuille in zijn werk gaat. 

Netto verschuldigd bedrag voor:

* middelgrote ondernemingen

** kleine ondernemingen

Lesdata:

8 lesdagen telkens van 9 uur tot 17 uur

ma 6/3 - di 7/3
woe 15/3 - do 16/3
ma 20/3 - di 21/3
ma 27/3 - di 28/3

Locatie: PXL-NeXT - Campus Corda - Lokaal Charles

Koffie, frisdrank en lunch worden voorzien

Contact:

Marijke Sporen
coördinator levenslang leren PXL-Digital

g| +32 (0) 494 63 63 22         
e| Marijke.Sporen@pxl.be

Ik wil meer weten

Vond je geen antwoord op je vraag? Stel ze hier aan onze medewerkers.