Skip to content

MATF-istrazivanje-podataka-1/2023_Data_Mining_Anuran_calls_Dataset

Repository files navigation

Istraživanje skupa podataka "Anuran Calls"

Svrha rada je demonstracija metoda klasifikacije, klasterovanja i pravila pridruživanja različitih vrsta žaba koristeći snimljene audio zapise njihovih oglašavanja.

Podaci koji su korišćeni su preuzeti sa linka.

Ovaj skup podataka korišćen je u nekoliko klasifikacionih zadataka koji se odnose na prepoznavanja vrsta žaba na osnovu njihovih poziva. Kreiran je segmentacijom 60 audio zapisa jedinki koje pripadaju 4 različitim porodicama, 8 rodova i 10 vrsti. Svaki audio zapis odgovara jednom primerku (individualnoj žabi), a ID zapisa je takođe uključen u skup podataka kao atribut. Za detekciju audio okvira koji pripadaju svakom slogu korišćena je spektralna entropija i binarna metoda klasterovanja. Segmentacija i ekstrakcija karakteristika su izvršene u Matlabu. Nakon segmentacije, dobijeno je 7195 slogova koji su postali instance za obučavanje i testiranje klasifikatora.

Metodologija

Izvršena je eksplorativna analiza i vizuelizacija podataka koristeći biblioteke matplotlib, seaborn i plotly. Nakon toga izvršeno je pretprocesiranje podataka pomoću biblioteka pandas i scikit-learn. Pretprocesiranje je rađeno u skladu sa zahtevima klasifikacije i klasterovanja. Poslednji korak je primena različitih metoda klasifikacija, klasterovanja i pravila pridruživanja kao i poređenje dobijenih modela.

Korišćeni algoritmi

Klasifikacija

  1. Stablo odlučivanja (Decision Tree)
  2. Slučajna šuma (Random Forest)
  3. K najbližih suseda (K Nearest Neighbors)
  4. Pakovanje (Bagging)
  5. Gausov naivni Bajes (Gaussian Naive Bayes)

Klasterovanje

  1. K sredina (K-means)
  2. Hijerarhijsko klasterovanje (Agglomerative)
  3. DBSCAN (DBSCAN)

Pravila pridruživanja

  1. Apriori
  2. FP-Growth

Releases

No releases published

Packages

No packages published