Veidlapa Nr. M-3 (8)
Studiju kursa apraksts

Datu priekšapstrāde

Studiju kursa pamatinformācija

Kursa kods
FK_083
Zinātnes nozare
Citas medicīnas un veselības zinātnes, tai skaitā tiesu medicīniskā ekspertīze; Citas medicīnas zinātņu apakšnozares
Kredītpunkti (ECTS)
5,00
Mērķauditorija
Uzņēmējdarbības vadība; Vadībzinātne; Veselības vadība
LKI
7. līmenis
Studiju veids un forma
Pilna laika

Studiju kursa īstenotājs

Kursa vadītājs
Struktūrvienības vadītājs
Struktūrvienība
Fizikas katedra
Kontaktinformācija

Rīga, Anniņmuižas bulvāris 26a, 1. stāvs, 147.a un b kabinets, fizika@rsu.lv, +371 67061539

Par studiju kursu

Mērķis

Datu priekšapstrādes studiju kursa mērķis ir nodrošināt studentus ar būtiskām prasmēm, sagatavot neapstrādātus datus analīzei. Galvenie mērķi ietver: Izpratne par datu pirmapstrādi: izprast datu pirmapstrādes nozīmi un pamatus datu analīzes darba plūsmā. Datu tīrīšana: apgūt metodes, kā apstrādāt trūkstošās vērtības, noņemt dublikātus un labot kļūdas, lai nodrošinātu datu precizitāti un konsekvenci. Datu transformācija: pārveidot datus piemērotos formātos analīzei, tostarp normalizēšanu, mērogošanu un kategorisko mainīgo kodēšanu. Iezīmju inženierija: izveidot jaunas funkcijas no esošajiem datiem, lai uzlabotu modeļa veiktspēju. Nederīgu datu apstrāde: noteikt un pārvaldīt nederīgus datus, lai novērstu novirzes analīzes gaitā. Datu integrācija un samazināšana: apvienot datus no dažādiem avotiem un samazāt izmērus efektīvai analīzei. Praktiskā pieredze: iegūt praktisku pieredzi ar reālās pasaules datu kopām, izmantojot nozares standarta rīkus un programmatūru. Paraugprakse un rīki: apgūt paraugpraksi un iepazīties ar rīkiem un bibliotēkām, piemēram, Python's Pandas, R un SQL. Sagatavošanās uzlabotai analīzei: nodrošināt gatavību veikt papildu datu analīzes uzdevumus, piemēram, mašīnmācīšanos un statistisko analīzi. Ētiskie apsvērumi: pārrunāt ētiskos aspektus, tostarp datu privātumu un drošību pirmapstrādes laikā. Kursa beigās studējošie spēs pārliecinoši sagatavot neapstrādātus datus dažādām analītiskām lietojumprogrammām, nodrošinot, ka tie ir tīri, labi strukturēti un gatavi lietošanai.

Priekšzināšanas

Zināšanas informātikā vidusskolas līmenī.

Studiju rezultāti

Zināšanas

1.Pēc studiju kursa "Datu priekšapstrāde" apguves studenti iegūs padziļinātas zināšanas par datu priekšapstrādes metodēm un tehnikām dažādos datu formātos un nesējos, izpratīs datu kvalitātes nozīmi un to ietekmi uz datu analīzi.

Prasmes

1.Studiju kursa laikā studējošie attīstīs praktiskas prasmes datu importēšanā, tīrīšanā, transformācijā un iezīmju ekstrakcijā no dažādiem datu avotiem un formātiem. Spēs veikt trūkstošo vērtību apstrādi, anomāliju noteikšanu un risināt datu nesabalansētības problēmas.

Kompetences

1.Pabeidzot studiju kursu, studējosie būs kompetenti veikt pilnu datu priekšapstrādes ciklu dažādos projektos, efektīvi risinot reālās pasaules problēmas, spēs pielāgoties dažādiem datu tipiem un apstrādes izaicinājumiem, izstrādāt automatizētus risinājumus un sagatavot datus tālākai analīzei un modelēšanai. Studējošie būs gatavi strādāt datu zinātnes un analītikas jomās, pielietojot iegūtās zināšanas un prasmes profesionālajā vidē.

Vērtēšana

Patstāvīgais darbs

Virsraksts
% no gala vērtējuma
Vērtējums
1.

Patstāvīgais darbs

30,00% no gala vērtējuma
Ieskaite

Studējošie patstāvīgi izpilda praktiskos uzdevumus un iesniedz praktisko darbu atskaites e-studiju vidē.

Pārbaudījums

Virsraksts
% no gala vērtējuma
Vērtējums
1.

Pārbaudījums

70,00% no gala vērtējuma
10 balles

Izstrādāt projektu, kurā studējošie veic datu kopas datu priekšapstrādi. Projekta prezentēšana un rezultātu izvērtēšana.

Studiju kursa tēmu plāns

PILNA LAIKA
1. daļa
  1. Lekcija

Modalitāte
Norises vieta
Kontaktstundas
Klātiene
Auditorija
2

Tēmas

Datu zinātnes pamatnosacījumi (L1). PACE stratēģija. Datu sagatavošana analīzei. Priekšapstrādes nozīme datu analīzē un mašīnmācīšanās procesos. No neapstrādātiem datiem līdz gataviem datiem: galvenie soļi un metodes. Datu tipi un formatēšana.
  1. Nodarbība/Seminārs

Modalitāte
Norises vieta
Kontaktstundas
Klātiene
Auditorija
3

Tēmas

Datu priekšapstrādes pamati (P1). No izejas datiem līdz sagatavotiem datiem. Datu iegūšana no dažādiem avotiem (CSV, Excel, SQL, API). Sākotnējā datu izpēte un analīze. Pazīmju izvērtēšana un sākotnējās problēmas. Ievads Google Colab izmantošana.
  1. Nodarbība/Seminārs

Modalitāte
Norises vieta
Kontaktstundas
Klātiene
Auditorija
3

Tēmas

Datu tīrīšana un sagatavošana analīzei (P2). Tehnikas kvalitatīvajiem datiem. Datu trūkumu identificēšana un aizpildīšana (imputācija). Dubultošanos un neatbilstošu vērtību novēršana. Datu kvalitātes nodrošināšanas metodes.
  1. Nodarbība/Seminārs

Modalitāte
Norises vieta
Kontaktstundas
Klātiene
Auditorija
3

Tēmas

Trūkstošie dati un to apstrādes stratēģijas (P4). Datu sakārtošanas prasmes. Datu pārveidošana un manipulēšana. Datu filtrēšana, atlase un grupēšana. Datu apvienošana no vairākiem avotiem.
  1. Nodarbība/Seminārs

Modalitāte
Norises vieta
Kontaktstundas
Klātiene
Auditorija
3

Tēmas

Dublikāti un konsistence (P5).
  1. Nodarbība/Seminārs

Modalitāte
Norises vieta
Kontaktstundas
Klātiene
Auditorija
3

Tēmas

Datu tipu konvertācija un mērvienību pārrēķins (P6).
  1. Nodarbība/Seminārs

Modalitāte
Norises vieta
Kontaktstundas
Klātiene
Auditorija
3

Tēmas

Aprakstošā statistika kā kvalitātes kontrole (P3). Statistikas lietošana datu pirmapstrādei kvalitātes kontrolē, tostarp centrālās tendences, izkliedes un sadalījuma formas mērījumi datu kvalitātes novērtēšanai. Vizuālie rīki, piemēram, histogrammām, lodziņu diagrammām un kontroles diagrammām, kā arī korelācijai un kovariācijai tendenču, attiecību un anomāliju noteikšanai datos.
  1. Nodarbība/Seminārs

Modalitāte
Norises vieta
Kontaktstundas
Klātiene
Auditorija
3

Tēmas

Filtrēšana un atlase (loģiskie filtri, apakškopas) (P7).
  1. Nodarbība/Seminārs

Modalitāte
Norises vieta
Kontaktstundas
Klātiene
Auditorija
3

Tēmas

Kategoriju harmonizēšana un kodēšana (P8).
  1. Nodarbība/Seminārs

Modalitāte
Norises vieta
Kontaktstundas
Klātiene
Auditorija
3

Tēmas

Datuma/laika lauki un atvasināto mainīgo veidošana (P9).
  1. Nodarbība/Seminārs

Modalitāte
Norises vieta
Kontaktstundas
Klātiene
Auditorija
3

Tēmas

Outlieru un kļūdainu vērtību filtrēšana (P10).
  1. Nodarbība/Seminārs

Modalitāte
Norises vieta
Kontaktstundas
Klātiene
Auditorija
3

Tēmas

Praktiskā datu priekšapstrāde (P11). Pielietojumi reālajā dzīvē. Praksē pielietojami projekti: datu sagatavošana un analīze dažādos sektoros (finanses, medicīna, transportēšana). Datu tīrīšana un transformācija reālos projektos. Datu sagatavošana gala rezultātu iegūšanai.
  1. Nodarbība/Seminārs

Modalitāte
Norises vieta
Kontaktstundas
Klātiene
Auditorija
3

Tēmas

Projekts (P12). Datu kopas datu priekšapstrāde. Datu tīrīšana, transformācija un sagatavošana datu analīzei. Projekta prezentācija, rezultātu izvērtēšana un iegūto prasmju pielietošana.
Kopā kredītpunkti (ECTS):
5,00
Kontaktstundas:
38 ak. st.
Gala pārbaudījums:
Eksāmens

Bibliogrāfija

Obligātā literatūra

1.

Hands-On Data Preprocessing in Python. EBSCOhost Ebook Academic Collection, 2022.Piemērots angļu valodas plūsmai

2.

Data Wrangling with PythonPiemērots angļu valodas plūsmai

Papildu literatūra

1.

Foundational Python for Data SciencePiemērots angļu valodas plūsmai

2.

Python for Data SciencePiemērots angļu valodas plūsmai

Citi informācijas avoti

1.

Preprocessing - Categorical DataPiemērots angļu valodas plūsmai

2.

PacktPublishing/Hands-On-Data-Preprocessing-in-PythonPiemērots angļu valodas plūsmai

3.

How to Preprocess Data in PythonPiemērots angļu valodas plūsmai