Svrha rada je demonstracija metoda klasifikacije, klasterovanja i pravila pridruživanja različitih vrsta žaba koristeći snimljene audio zapise njihovih oglašavanja.
Podaci koji su korišćeni su preuzeti sa linka.
Ovaj skup podataka korišćen je u nekoliko klasifikacionih zadataka koji se odnose na prepoznavanja vrsta žaba na osnovu njihovih poziva. Kreiran je segmentacijom 60 audio zapisa jedinki koje pripadaju 4 različitim porodicama, 8 rodova i 10 vrsti. Svaki audio zapis odgovara jednom primerku (individualnoj žabi), a ID zapisa je takođe uključen u skup podataka kao atribut. Za detekciju audio okvira koji pripadaju svakom slogu korišćena je spektralna entropija i binarna metoda klasterovanja. Segmentacija i ekstrakcija karakteristika su izvršene u Matlabu. Nakon segmentacije, dobijeno je 7195 slogova koji su postali instance za obučavanje i testiranje klasifikatora.
Izvršena je eksplorativna analiza i vizuelizacija podataka koristeći biblioteke matplotlib, seaborn i plotly. Nakon toga izvršeno je pretprocesiranje podataka pomoću biblioteka pandas i scikit-learn. Pretprocesiranje je rađeno u skladu sa zahtevima klasifikacije i klasterovanja. Poslednji korak je primena različitih metoda klasifikacija, klasterovanja i pravila pridruživanja kao i poređenje dobijenih modela.
- Stablo odlučivanja (Decision Tree)
- Slučajna šuma (Random Forest)
- K najbližih suseda (K Nearest Neighbors)
- Pakovanje (Bagging)
- Gausov naivni Bajes (Gaussian Naive Bayes)
- K sredina (K-means)
- Hijerarhijsko klasterovanje (Agglomerative)
- DBSCAN (DBSCAN)
- Apriori
- FP-Growth