Datu priekšapstrāde
Studiju kursa īstenotājs
Rīga, Anniņmuižas bulvāris 26a, 1. stāvs, 147.a un b kabinets, fizika@rsu.lv, +371 67061539
Par studiju kursu
Mērķis
Datu priekšapstrādes studiju kursa mērķis ir nodrošināt studentus ar būtiskām prasmēm, sagatavot neapstrādātus datus analīzei. Galvenie mērķi ietver: Izpratne par datu pirmapstrādi: izprast datu pirmapstrādes nozīmi un pamatus datu analīzes darba plūsmā. Datu tīrīšana: apgūt metodes, kā apstrādāt trūkstošās vērtības, noņemt dublikātus un labot kļūdas, lai nodrošinātu datu precizitāti un konsekvenci. Datu transformācija: pārveidot datus piemērotos formātos analīzei, tostarp normalizēšanu, mērogošanu un kategorisko mainīgo kodēšanu. Iezīmju inženierija: izveidot jaunas funkcijas no esošajiem datiem, lai uzlabotu modeļa veiktspēju. Nederīgu datu apstrāde: noteikt un pārvaldīt nederīgus datus, lai novērstu novirzes analīzes gaitā. Datu integrācija un samazināšana: apvienot datus no dažādiem avotiem un samazāt izmērus efektīvai analīzei. Praktiskā pieredze: iegūt praktisku pieredzi ar reālās pasaules datu kopām, izmantojot nozares standarta rīkus un programmatūru. Paraugprakse un rīki: apgūt paraugpraksi un iepazīties ar rīkiem un bibliotēkām, piemēram, Python's Pandas, R un SQL. Sagatavošanās uzlabotai analīzei: nodrošināt gatavību veikt papildu datu analīzes uzdevumus, piemēram, mašīnmācīšanos un statistisko analīzi. Ētiskie apsvērumi: pārrunāt ētiskos aspektus, tostarp datu privātumu un drošību pirmapstrādes laikā. Kursa beigās studējošie spēs pārliecinoši sagatavot neapstrādātus datus dažādām analītiskām lietojumprogrammām, nodrošinot, ka tie ir tīri, labi strukturēti un gatavi lietošanai.
Priekšzināšanas
Zināšanas informātikā vidusskolas līmenī.
Studiju rezultāti
Zināšanas
1.Pēc studiju kursa "Datu priekšapstrāde" apguves studenti iegūs padziļinātas zināšanas par datu priekšapstrādes metodēm un tehnikām dažādos datu formātos un nesējos, izpratīs datu kvalitātes nozīmi un to ietekmi uz datu analīzi.
Prasmes
1.Studiju kursa laikā studējošie attīstīs praktiskas prasmes datu importēšanā, tīrīšanā, transformācijā un iezīmju ekstrakcijā no dažādiem datu avotiem un formātiem. Spēs veikt trūkstošo vērtību apstrādi, anomāliju noteikšanu un risināt datu nesabalansētības problēmas.
Kompetences
1.Pabeidzot studiju kursu, studējosie būs kompetenti veikt pilnu datu priekšapstrādes ciklu dažādos projektos, efektīvi risinot reālās pasaules problēmas, spēs pielāgoties dažādiem datu tipiem un apstrādes izaicinājumiem, izstrādāt automatizētus risinājumus un sagatavot datus tālākai analīzei un modelēšanai. Studējošie būs gatavi strādāt datu zinātnes un analītikas jomās, pielietojot iegūtās zināšanas un prasmes profesionālajā vidē.
Vērtēšana
Patstāvīgais darbs
|
Virsraksts
|
% no gala vērtējuma
|
Vērtējums
|
|---|---|---|
|
1.
Patstāvīgais darbs |
30,00% no gala vērtējuma
|
Ieskaite
|
|
Studējošie patstāvīgi izpilda praktiskos uzdevumus un iesniedz praktisko darbu atskaites e-studiju vidē. |
||
Pārbaudījums
|
Virsraksts
|
% no gala vērtējuma
|
Vērtējums
|
|---|---|---|
|
1.
Pārbaudījums |
70,00% no gala vērtējuma
|
10 balles
|
|
Izstrādāt projektu, kurā studējošie veic datu kopas datu priekšapstrādi. Projekta prezentēšana un rezultātu izvērtēšana. |
||
Studiju kursa tēmu plāns
-
Lekcija
|
Modalitāte
|
Norises vieta
|
Kontaktstundas
|
|---|---|---|
|
Klātiene
|
Auditorija
|
2
|
Tēmas
|
Datu zinātnes pamatnosacījumi (L1). PACE stratēģija. Datu sagatavošana analīzei. Priekšapstrādes nozīme datu analīzē un mašīnmācīšanās procesos. No neapstrādātiem datiem līdz gataviem datiem: galvenie soļi un metodes. Datu tipi un formatēšana.
|
-
Nodarbība/Seminārs
|
Modalitāte
|
Norises vieta
|
Kontaktstundas
|
|---|---|---|
|
Klātiene
|
Auditorija
|
3
|
Tēmas
|
Datu priekšapstrādes pamati (P1). No izejas datiem līdz sagatavotiem datiem. Datu iegūšana no dažādiem avotiem (CSV, Excel, SQL, API). Sākotnējā datu izpēte un analīze. Pazīmju izvērtēšana un sākotnējās problēmas. Ievads Google Colab izmantošana.
|
-
Nodarbība/Seminārs
|
Modalitāte
|
Norises vieta
|
Kontaktstundas
|
|---|---|---|
|
Klātiene
|
Auditorija
|
3
|
Tēmas
|
Datu tīrīšana un sagatavošana analīzei (P2). Tehnikas kvalitatīvajiem datiem. Datu trūkumu identificēšana un aizpildīšana (imputācija). Dubultošanos un neatbilstošu vērtību novēršana. Datu kvalitātes nodrošināšanas metodes.
|
-
Nodarbība/Seminārs
|
Modalitāte
|
Norises vieta
|
Kontaktstundas
|
|---|---|---|
|
Klātiene
|
Auditorija
|
3
|
Tēmas
|
Trūkstošie dati un to apstrādes stratēģijas (P4). Datu sakārtošanas prasmes. Datu pārveidošana un manipulēšana. Datu filtrēšana, atlase un grupēšana. Datu apvienošana no vairākiem avotiem.
|
-
Nodarbība/Seminārs
|
Modalitāte
|
Norises vieta
|
Kontaktstundas
|
|---|---|---|
|
Klātiene
|
Auditorija
|
3
|
Tēmas
|
Dublikāti un konsistence (P5).
|
-
Nodarbība/Seminārs
|
Modalitāte
|
Norises vieta
|
Kontaktstundas
|
|---|---|---|
|
Klātiene
|
Auditorija
|
3
|
Tēmas
|
Datu tipu konvertācija un mērvienību pārrēķins (P6).
|
-
Nodarbība/Seminārs
|
Modalitāte
|
Norises vieta
|
Kontaktstundas
|
|---|---|---|
|
Klātiene
|
Auditorija
|
3
|
Tēmas
|
Aprakstošā statistika kā kvalitātes kontrole (P3). Statistikas lietošana datu pirmapstrādei kvalitātes kontrolē, tostarp centrālās tendences, izkliedes un sadalījuma formas mērījumi datu kvalitātes novērtēšanai. Vizuālie rīki, piemēram, histogrammām, lodziņu diagrammām un kontroles diagrammām, kā arī korelācijai un kovariācijai tendenču, attiecību un anomāliju noteikšanai datos.
|
-
Nodarbība/Seminārs
|
Modalitāte
|
Norises vieta
|
Kontaktstundas
|
|---|---|---|
|
Klātiene
|
Auditorija
|
3
|
Tēmas
|
Filtrēšana un atlase (loģiskie filtri, apakškopas) (P7).
|
-
Nodarbība/Seminārs
|
Modalitāte
|
Norises vieta
|
Kontaktstundas
|
|---|---|---|
|
Klātiene
|
Auditorija
|
3
|
Tēmas
|
Kategoriju harmonizēšana un kodēšana (P8).
|
-
Nodarbība/Seminārs
|
Modalitāte
|
Norises vieta
|
Kontaktstundas
|
|---|---|---|
|
Klātiene
|
Auditorija
|
3
|
Tēmas
|
Datuma/laika lauki un atvasināto mainīgo veidošana (P9).
|
-
Nodarbība/Seminārs
|
Modalitāte
|
Norises vieta
|
Kontaktstundas
|
|---|---|---|
|
Klātiene
|
Auditorija
|
3
|
Tēmas
|
Outlieru un kļūdainu vērtību filtrēšana (P10).
|
-
Nodarbība/Seminārs
|
Modalitāte
|
Norises vieta
|
Kontaktstundas
|
|---|---|---|
|
Klātiene
|
Auditorija
|
3
|
Tēmas
|
Praktiskā datu priekšapstrāde (P11). Pielietojumi reālajā dzīvē. Praksē pielietojami projekti: datu sagatavošana un analīze dažādos sektoros (finanses, medicīna, transportēšana). Datu tīrīšana un transformācija reālos projektos. Datu sagatavošana gala rezultātu iegūšanai.
|
-
Nodarbība/Seminārs
|
Modalitāte
|
Norises vieta
|
Kontaktstundas
|
|---|---|---|
|
Klātiene
|
Auditorija
|
3
|
Tēmas
|
Projekts (P12). Datu kopas datu priekšapstrāde. Datu tīrīšana, transformācija un sagatavošana datu analīzei. Projekta prezentācija, rezultātu izvērtēšana un iegūto prasmju pielietošana.
|
Bibliogrāfija
Obligātā literatūra
Hands-On Data Preprocessing in Python. EBSCOhost Ebook Academic Collection, 2022.Piemērots angļu valodas plūsmai