Datu inženierija
Studiju kursa īstenotājs
Dzirciema iela 16, Rīga, szf@rsu.lv
Par studiju kursu
Mērķis
Šī kursa mērķis ir sniegt uzņēmumu un projektu vadītājiem izpratni par datu inženierijas pamatiem un tās nozīmi mūsdienu uzņēmējdarbībā. Kursa ietvaros dalībnieki iegūs zināšanas par datu plūsmas un datu apstrādes procesiem, kas palīdzēs veiksmīgāk plānot un vadīt projektus, kuros izmantoti dati, kā arī izprast prasības un izaicinājumus datu infrastruktūras izveidē un uzturēšanā.
Priekšzināšanas
Lai sekmīgi piedalītos šajā datu inženierijas kursā, dalībniekiem ir vēlama pamatizpratne par datorzinātnēm un IT infrastruktūru, kā arī pamatzināšanas par datu bāzēm un datu analīzi. Būtu noderīga arī izpratne par biznesa procesiem un to, kā dati tiek izmantoti lēmumu pieņemšanā. Priekšrocība būs zināšanas projektu vadībā, lai veiksmīgāk pārraudzītu un koordinētu datu projektus no biznesa perspektīvas.
Studiju rezultāti
Zināšanas
1.Apraksta datu inženiera lomu un pienākumus, kā arī analizē sadarbības aspektus ar IT speciālistiem un uzņēmējdarbības vienībām.
2.Izskaidro datu plūsmu struktūru un salīdzina ETL un ELT procesus, izvērtējot to priekšrocības un ierobežojumus dažādos kontekstos.
3.Analizē datu uzglabāšanas sistēmu struktūras un salīdzina SQL un NoSQL datubāzu piemērotību dažādiem apstrādes scenārijiem.
4.Paskaidro partiju un straumējošās datu apstrādes pamatprincipus un izvērtē to pielietojamību IoT datu apstrādes un telemetrijas analīzes situācijās.
Prezentācija par izpētīto tēmu
5.Demonstrē izpratni par izplatīto skaitļošanas sistēmu darbību (Spark, Hadoop) un analizē to pielietojumu liela apjoma datu apstrādē.
6.Salīdzina galveno mākoņpakalpojumu (AWS, GCP, Azure) funkcionalitāti un novērtē to pielietojamību dažādos datu inženierijas kontekstos.
Prezentācija par izpētīto tēmu
7.Apraksta datu integrācijas procesus un identificē labākās prakses datu kvalitātes nodrošināšanā, lai saglabātu precizitāti un konsekvenci.
8.Identificē datu apstrādes ekosistēmas galvenos rīkus un tehnoloģijas un izskaidro to lomu dažādās vidēs (vietējā, mākoņa u.c.).
Prezentācija par izpētīto tēmu
9.Analizē datu noliktavu arhitektūru, apraksta dimensiālo modelēšanu un paskaidro OLAP procesu nozīmi datu analīzē.
10.Paskaidro datu ezeru arhitektūru un novērtē labākās prakses datu uzglabāšanā un piekļuvē datu ezeros.
11.Demonstrē zināšanas par reāllaika datu apstrādes tehnoloģijām (Apache Kafka, Flink) un izskaidro to piemērotību telemetrijas datu analīzei.
12.Izskaidro datu inženierijas projektu plānošanas, uzraudzības un īstenošanas posmus un analizē komunikācijas lomu to sekmīgā izpildē.
Prasmes
1.Prasmes strādāt ar datu plūsmām, datu apstrādes un integrācijas rīkiem (Apache Spark, Hadoop, Apache Kafka, Airflow, etc.) un datubāzēm (MySQL, PostgreSQL, MongoDB).
2.Prasmes strādāt ar mākoņpakalpojumu platformām un izmantot mākoņinfrastruktūras risinājumus datu glabāšanai, apstrādei un analīzei.
3.Prasmes izstrādāt un īstenot datu kvalitātes nodrošināšanas plānus, piemēram, validācijas un attīrīšanas procesus.
4.Prasmes optimizēt datu plūsmas, uzlabojot veiktspēju un efektivitāti.
Kompetences
1.Spēja identificēt problēmas datu integrācijā, uzglabāšanā un apstrādē, kā arī spēja piedāvāt efektīvus risinājumus, izmantojot piemērotas tehnoloģijas.
2.Spēja efektīvi sadarboties ar citiem datu inženieriem, analītiķiem, izstrādātājiem un projektu vadītājiem, lai sasniegtu kopējos mērķus.
3.Kompetence pārvaldīt datu infrastruktūru, nodrošinot tās efektīvu darbību, atbilstību prasībām un drošību.
4.Spēja izmantot jaunākās tehnoloģijas un metodes, piemēram, mākslīgo intelektu un mašīnmācīšanos, lai uzlabotu datu apstrādes procesus.
Vērtēšana
Patstāvīgais darbs
|
Virsraksts
|
% no gala vērtējuma
|
Vērtējums
|
|---|---|---|
|
1.
Prezentācija par izpētīto tēmu |
-
|
Ieskaite
|
|
Katram no studentiem tiks izdalīta tēma, kas jāapgūst patstāvīgi un jāspēj prezentēt. |
||
Pārbaudījums
|
Virsraksts
|
% no gala vērtējuma
|
Vērtējums
|
|---|---|---|
|
1.
Eksāmens |
-
|
10 balles
|
Studiju kursa tēmu plāns
-
Lekcija
|
Modalitāte
|
Norises vieta
|
Kontaktstundas
|
|---|---|---|
|
Klātiene
|
Auditorija
|
2
|
Tēmas
|
Reāllaika datu apstrāde
|
-
Lekcija
|
Modalitāte
|
Norises vieta
|
Kontaktstundas
|
|---|---|---|
|
Klātiene
|
Auditorija
|
2
|
Tēmas
|
Data pipelines – kā tos veidot un uzturēt. ETL (extract, transform, load) un ELT procesi, priekšrocības un trūkumi
|
-
Lekcija
|
Modalitāte
|
Norises vieta
|
Kontaktstundas
|
|---|---|---|
|
Klātiene
|
Auditorija
|
2
|
Tēmas
|
Datu noliktavu dizains un arhitektūra
|
-
Lekcija
|
Modalitāte
|
Norises vieta
|
Kontaktstundas
|
|---|---|---|
|
Klātiene
|
Auditorija
|
2
|
Tēmas
|
Lielo datu apstrāde, distributed computing (Spark, Hadoop)
|
-
Lekcija
|
Modalitāte
|
Norises vieta
|
Kontaktstundas
|
|---|---|---|
|
Klātiene
|
Auditorija
|
2
|
Tēmas
|
Datu apstrādes ekosistēma
|
-
Lekcija
|
Modalitāte
|
Norises vieta
|
Kontaktstundas
|
|---|---|---|
|
Klātiene
|
Auditorija
|
2
|
Tēmas
|
Datu uzglabāšanas sistēmas un datubāzes
|
-
Lekcija
|
Modalitāte
|
Norises vieta
|
Kontaktstundas
|
|---|---|---|
|
Klātiene
|
Auditorija
|
2
|
Tēmas
|
Datu inženierijas projektu vadība
|
-
Lekcija
|
Modalitāte
|
Norises vieta
|
Kontaktstundas
|
|---|---|---|
|
Klātiene
|
Auditorija
|
2
|
Tēmas
|
Batch VS Streaming datu apstrāde, telemetrija un IoT dati
|
-
Lekcija
|
Modalitāte
|
Norises vieta
|
Kontaktstundas
|
|---|---|---|
|
Klātiene
|
Auditorija
|
2
|
Tēmas
|
Lielo datu apstrāde, distributed computing (Spark, Hadoop)
|
-
Lekcija
|
Modalitāte
|
Norises vieta
|
Kontaktstundas
|
|---|---|---|
|
Klātiene
|
Auditorija
|
2
|
Tēmas
|
Datu ezeru struktūras un labākās prakses
|
-
Lekcija
|
Modalitāte
|
Norises vieta
|
Kontaktstundas
|
|---|---|---|
|
Klātiene
|
Auditorija
|
2
|
Tēmas
|
Datu uzglabāšanas sistēmas un datubāzes
|
-
Lekcija
|
Modalitāte
|
Norises vieta
|
Kontaktstundas
|
|---|---|---|
|
Klātiene
|
Auditorija
|
2
|
Tēmas
|
Lielo datu apstrāde, distributed computing (Spark, Hadoop)
|
-
Lekcija
|
Modalitāte
|
Norises vieta
|
Kontaktstundas
|
|---|---|---|
|
Klātiene
|
Auditorija
|
2
|
Tēmas
|
Batch VS Streaming datu apstrāde, telemetrija un IoT dati
|
-
Lekcija
|
Modalitāte
|
Norises vieta
|
Kontaktstundas
|
|---|---|---|
|
Klātiene
|
Auditorija
|
2
|
Tēmas
|
Datu ezeru struktūras un labākās prakses
|
-
Lekcija
|
Modalitāte
|
Norises vieta
|
Kontaktstundas
|
|---|---|---|
|
Klātiene
|
Auditorija
|
2
|
Tēmas
|
Datu noliktavu dizains un arhitektūra
|
-
Lekcija
|
Modalitāte
|
Norises vieta
|
Kontaktstundas
|
|---|---|---|
|
Klātiene
|
Auditorija
|
2
|
Tēmas
|
Datu inženierijas projektu vadība
|
-
Lekcija
|
Modalitāte
|
Norises vieta
|
Kontaktstundas
|
|---|---|---|
|
Klātiene
|
Auditorija
|
2
|
Tēmas
|
Mākoņinfrastruktūras pamati (AWS, Google Cloud, Azure)
|
-
Lekcija
|
Modalitāte
|
Norises vieta
|
Kontaktstundas
|
|---|---|---|
|
Klātiene
|
Auditorija
|
2
|
Tēmas
|
Batch VS Streaming datu apstrāde, telemetrija un IoT dati
|
-
Lekcija
|
Modalitāte
|
Norises vieta
|
Kontaktstundas
|
|---|---|---|
|
Klātiene
|
Auditorija
|
2
|
Tēmas
|
Mākoņinfrastruktūras pamati (AWS, Google Cloud, Azure)
|
-
Lekcija
|
Modalitāte
|
Norises vieta
|
Kontaktstundas
|
|---|---|---|
|
Klātiene
|
Auditorija
|
2
|
Tēmas
|
Datu inženiera loma un atbildības
|
-
Lekcija
|
Modalitāte
|
Norises vieta
|
Kontaktstundas
|
|---|---|---|
|
Klātiene
|
Auditorija
|
2
|
Tēmas
|
Data pipelines – kā tos veidot un uzturēt. ETL (extract, transform, load) un ELT procesi, priekšrocības un trūkumi
|
-
Lekcija
|
Modalitāte
|
Norises vieta
|
Kontaktstundas
|
|---|---|---|
|
Klātiene
|
Auditorija
|
2
|
Tēmas
|
Datu uzglabāšanas sistēmas un datubāzes
|
-
Lekcija
|
Modalitāte
|
Norises vieta
|
Kontaktstundas
|
|---|---|---|
|
Klātiene
|
Auditorija
|
2
|
Tēmas
|
Datu integrācija un datu kvalitātes nodrošināšana
|
-
Lekcija
|
Modalitāte
|
Norises vieta
|
Kontaktstundas
|
|---|---|---|
|
Klātiene
|
Auditorija
|
2
|
Tēmas
|
Datu integrācija un datu kvalitātes nodrošināšana
|
Bibliogrāfija
Obligātā literatūra
Kleppmann M. 2017. Designing Data-Intensive Applications: The Big Ideas Behind Reliable, Scalable, and Maintainable SystemsPiemērots angļu valodas plūsmai
Akidau T., Chernyak S., Lax R. 2018. Streaming Systems: The What, Where, When, and How of Large-Scale Data ProcessingPiemērots angļu valodas plūsmai
Dutt D.G. 2019. Cloud Native Data Center NetworkingPiemērots angļu valodas plūsmai
Akerkar R. 2014. Big Data: Principles and Paradigms (akceptējams izdevums)Piemērots angļu valodas plūsmai
Krishnan K. 2013. Data Warehousing in the Age of Big Data (akceptējams izdevums)Piemērots angļu valodas plūsmai
Papildu literatūra
Glass R., Callahan S. 2014. The Big Data-Driven Business: How to Use Big Data to Win Customers, Beat Competitors, and Boost ProfitsPiemērots angļu valodas plūsmai