01-DW.Rmd

# Data Wrangling

```{r setup, include=FALSE}
# clear-up the environment
rm(list = ls())

# chunk options
knitr::opts_chunk$set(
  message = FALSE,
  warning = FALSE,
  fig.align = "center",
  comment = "#>"
)

# scientific notation
options(scipen = 9999)
```

```{r echo=FALSE, warning=FALSE, message=FALSE}
# libraries
library(tidyverse)
library(leaflet)
library(scales)
library(plotly)
library(lubridate)
library(glue)
library(forcats)
library(RCurl)
library(rmarkdown)
```

```{r, echo=FALSE}
vids <- read.csv("data/01-DW/USvideos.csv")
vids <- vids %>% 
  mutate(category_id = as.character(category_id),
         category_id = case_when(category_id == "1" ~ "Film and Animation",
                                 category_id == "2" ~ "Autos and Vehicles",
                                 category_id == "10" ~ "Music", 
                                 category_id == "15" ~ "Pets and Animals", 
                                 category_id == "17" ~ "Sports",
                                 category_id == "19" ~ "Travel and Events", 
                                 category_id == "20" ~ "Gaming",
                                 category_id == "22" ~ "People and Blogs",
                                 category_id == "23" ~ "Comedy",
                                 category_id == "24" ~ "Entertainment",
                                 category_id == "25" ~ "News and Politics",
                                 category_id == "26" ~ "Howto and Style",
                                 category_id == "27" ~ "Education",
                                 category_id == "28" ~ "Science and Technology",
                                 category_id == "29" ~ "Nonprofit and Activism",
                                 category_id == "43" ~ "Shows"),
         category_id = as.factor(category_id),
         trending_date = ydm(trending_date),
         publish_time = ymd_hms(publish_time, tz = "America/New_York"))
```

```{r, echo=FALSE, rows.print = 6}
laporan <- read.csv("data/01-DW/data-bugdet.csv")
```

## Regular Expression

### **Bagaimana cara membuat nama kolom menjadi lebih rapih saat dilakukan visualisasi?**

```{r}
names(vids)
```

Untuk membuat tampilan visualisasi menjadi lebih rapih kita dapat mengubah nama kolom menggunakan function `str_replace()` dan `str_to_title()`. Function `str_replace()` akan mengubah nama kolom dengan menghapus pattern "_". Sedangkan function `str_to_title()` akan membuat huruf awal setiap kata menjadi *uppercase*.

```{r}
names(vids) %>% 
  str_replace(pattern = "_",
              replacement = " ") %>% 
  str_to_title()
```

### **Bagaimana cara mengubah nama kolom dengan bentuk (pattern) tertentu?**

Pada data laporan kita memiliki kolom "hasil_pajak_daerah", "hasil_retribusi_daerah", "hasil_pengelolaan_kekayaan_daerah_yang_dipisahkan". Berikut ini kita akan mengubah nama kolom yang memiliki pattern `hasil_` diubah menjadi `total_` menggunakan function `str_replace()`

```{r}
paged_table(laporan)
```

```{r}
names(laporan) %>% 
  str_replace(pattern = "hasil_",
              replacement =  "total_")
```

### **Bagaimana cara menggabungkan dua atau lebih vector ke dalam satu vector? **

Kita dapat menggunakan function `str_c()` sebagai berikut:

```{r}
str_c(c("Music","Gaming","Shows"), collapse = ",")
```

Function `str_c()` juga dapat digunakan untuk membuat vector dengan pattern yang berulang sebagai berikut:

```{r}
str_c("Laporan", c(2017:2020),"Q1",sep = "-")
```

### **Apa perbedaan dari function `str_replace()` dan `str_replace_all()`?**

```{r}
dat <- c("data","science","algoritma")
```

Ketika menggunakan function `str_replace()` akan mengubah pattern pertama yang ditemui, sebagai berikut:
```{r}
str_replace(dat,"[aiueo]","-")
```

Sedangkan function `str_replace_all()` akan mengubah semua pattern yang ditemui pada vector, sebagai berikut:
```{r}
str_replace_all(dat,"[aiueo]","-")
```

## Working Datetime

### **Bagaimana cara mengubah variabel/kolom bertipe "character" menjadi "date", jika dalam 1 kolom terdapat format (urutan) tanggal yang berbeda?**

Untuk mengubah tipe data "character" menjadi "date" pada kolom yang memiliki format (urutan) tanggal yang berbeda-beda, dapat mnggunakan fungsi `parse_date()` dari library `parsedate`.
```{r}
# membuat sebuah vector yang berisi tanggal dengan format yang berbeda
tanggal <- c("1-January-2020", "01/01/20", "12-31-2019")

tanggal <- parsedate::parse_date(tanggal)

class(tanggal)
tanggal
```

## Data Transformation with `dplyr`

### **Bagaimana cara melakukan subsetting baris (filter) terhadap baris-baris yang sama dengan beberapa nilai? Misal, akan dilakukan filter terhadap baris-baris yang memiliki ketegori (`category_id`) Comedy, Music, atau Gaming?**

Untuk melakukan filter terhadap baris-baris yang sama dengan beberapa nilai (lebih dari satu nilai), dapat menggunakan operator atau `|` ataupun menggunakan operator inlude `%in%`.
```{r}
unique(vids$category_id)
```

```{r}
filter1 <- vids %>% 
  filter(category_id == "Comedy" | category_id == "Music" | category_id == "Gaming")
  
unique(filter1$category_id)
```

```{r}
# code di atas dapat disederhanakan menjadi
filter1 <- vids %>% 
  filter(category_id %in% c("Gaming", "Music", "Comedy"))

unique(filter1$category_id)
```

Berikut contoh kasus jika baris-baris yang ingin dipilih tidak sama dengan beberapa nilai (lebih dari satu nilai), dapat menggunakan operator dan `&` ataupun menggunakan operator include `%in%` yang digabungkan dengan operator tidak `!`.
```{r}
filter2 <- vids %>% 
  filter(category_id != "Comedy" & category_id != "Music" & category_id != "Gaming")
  
unique(filter2$category_id)
```

```{r}
# code di atas dapat disederhanakan menjadi
filter2 <- vids %>% 
  filter(!category_id %in% c("Comedy", "Music", "Gaming"))
  
unique(filter2$category_id)
```

### **Bagaimana cara menampilkan kolom yang memiliki unsur kata *dana*?**

Untuk menampilkan kolom dengan kata (term) tertentu dapat menggunakan function `select_at()` dari package dplyr:
```{r}
laporan %>% 
  select_at(.vars = vars(contains("dana"))) %>% 
  head()
```

### **Bagaimana cara menampilkan kolom dengan lebih dari satu kata (term) tertentu?**

Berikut ini kita akan menampilkan kolom yang memiliki unsur *Pendapatan* atau *Daerah* dengan bantuan function `matches()` dari package dplyr

```{r}
laporan %>% 
  select_at(.vars = vars(matches("Pendapatan|Daerah"))) %>% 
  head()
```

### **Bagaimana cara menampilkan kolom dengan kata (term) awalan atau akhiran tertentu?**

Untuk meampilkan kolom yang diawali dengan kata *Dana* atau diakhiri dengan kata *pajak* dapat menggunakan bantuan function `starts_with()` dan `ends_with()` dari package dplyr

```{r}
laporan %>% 
  select(starts_with("Dana")) %>% 
  head()
```

```{r}
laporan %>% 
  select(ends_with("pajak")) %>% 
  head()
```

### **Bagaimana cara menampilkan data teratas untuk setiap kategori dari variabel tertentu?**

Berikut ini kita akan menampilkan jenis Anggaran terbaru untuk setiap provinsi, langkah yang dilakukan sebagai berikut:

    - Melakukan filter pada kolom jenis untuk tipe "Anggaran"
    - Mengurutkan periode dari yang terbaru hingga terlama
    - Melakukan grouping berdasarkan `provinsi`
    - Menampilkan 1 data teratas untuk setiap provinsi
    
Output berikut ini menampilkan Anggaran terbaru dari setiap provinsi:
```{r}
laporan %>% 
  filter(
    jenis == "Anggaran"
  ) %>% 
  arrange(daerah, desc(periode)) %>% 
  group_by(provinsi) %>% 
  slice(1)
```

### **Bagaimana cara untuk memisahkan beberapa nilai pada 1 baris/observasi di kolom tertentu ke dalam beberapa kolom?**

Berikut ini kita memiliki variabel product yang berisikan berbagai macam product yang dibeli oleh customer, bagaimana cara kita untuk memisahkan variabel tersebut menjadi beberapa kolom untuk setiap product yang dibeli?
```{r, echo=FALSE}
id <- 1:4
product <- c("Milk, Cereal", "Coffe, Sugar, Milk",
             "Bread","Tea, Sugar, Bread")
dat <- data.frame(id, product)
dat
```

Kita dapat menggunakan function `separate()` dari package `tidyr` sebagai berikut:

```{r}
dat %>% 
  separate(col = "product",
           into = str_c("Product",1:3, sep = "-"),
           sep = ", ")
```


### **Apa perbedaan dari `left_join`, `right_join`, `full_join`, dan `inner_join`?**

- Function `left_join()` akan mempertahankan observasi X
- Function `right_join()` akan mempertahankan observasi Y
- Function `full_join()` akan menampilkan observasi yang berada pada data X atau Y
- Function `inner_join()` akan menampilkan observasi yang terdapat pada data X dan Y.

```{r, echo=FALSE, out.width="70%", fig.align="center"}
knitr::include_graphics("assets/01-DW/join-outer.png")
```

[Source: R For Data Science](https://r4ds.had.co.nz/relational-data.html)

```{r, echo=FALSE, out.width="70%", fig.align="center"}
knitr::include_graphics("assets/01-DW/join-inner.png")
```

[Inner join](https://r4ds.had.co.nz/relational-data.html)

### **Bagaimana cara menghilangkan bahasa latin pada data?**

Untuk menghilangkan bahasa latin pada data dapat menggunakan fungsi `stri_trans_general()` dari library `stringi`
```{r}
dat <- "Special,  satisfação, Happy, Sad, Potential, für"
dat
```

```{r}
library(stringi)
stri_trans_general(dat, "latin-ascii")
```

## Handling Missing Value

### **Bagaimana cara mengatasi missing value pada data?**

Salah satu cara menangani missing value adalah melakukan *imputation* atau mengisi missing value dengan suatu nilai. Package `tidyr` menyediakan function `fill()` yang berfungsi untuk mengisi missing value menggunakan nilai observasi berikutnya atau sebelumnya.

```{r, echo=FALSE}
treatment <- tribble(
  ~ person,           ~ treatment, ~response,
  "Derrick Whitmore", 1,           7,
  NA,                 2,           10,
  NA,                 3,           9,
  "Katherine Burke",  1,           4
)
treatment
```

Function `fill()` memiliki parameter `direction` untuk mengatur arah nilai yang akan diisi. Parameter direction terdiri dari "down", "up", "downup", dan "updown".
```{r}
treatment %>% 
  fill(person,.direction = "down")
```

Tentunya penanganan tersebut tidak dapat diterapkan untuk semua data, penanganan ini dapat digunakan untuk format data yang memiliki nilai tidak berulang.

## DB Connections

**Bagaimana mengkoneksikan database ke R?**

### MySQL

[Connecting to MySQL from R](https://stackoverflow.com/questions/50544230/connecting-to-mysql-from-r/50544442)

```{r eval=FALSE}
# 1. Library
library(RMySQL)

# 2. Settings
db_user <- 'mydatabase_admin'
db_password <- 'bintang123#'
db_name <- 'iris'
db_table <- 'irisData'
db_host <- '127.0.0.1' # for local access
db_port <- 3306

mydb <-  dbConnect(MySQL(), 
                   user = db_user, 
                   password = db_password,
                   dbname = db_name, 
                   host = db_host, 
                   port = db_port)

# 3. Read data from db
# SELECT * FROM irisData LIMIT 5
s <- paste0("select * from ", db_table, " limit 5")
rs <- dbSendQuery(mydb, s)
df <-  fetch(rs)
on.exit(dbDisconnect(mydb))
```

### SQL Server

[Connecting to SQL Server from R](https://db.rstudio.com/getting-started/connect-to-database/)

```{r eval=FALSE}
# 1. Library
library(DBI)
library(odbc)

# list driver
sort(unique(odbcListDrivers()[[1]]))

# 2. Settings
conn <- dbConnect(odbc(),
                  Driver = "SQL Server", # check your odbcinst.ini
                  Server = "localhost\\SQLEXPRESS", # server ip address
                  Port = 3306, 
                  UID = "mydatabase_admin", # username
                  PWD = "bintang123#", # password
                  Database = "iris") # database name
```

### SQLite

[Connecting to SQLite from R](https://db.rstudio.com/databases/sqlite/)

1. database
```{r eval=F}
# 1. Library
library(RSQLite)
library(DBI)

# 2. Settings
conn <- dbConnect(SQLite(), 
                  host = '127.0.0.1', # for local host 
                  port = 3306,
                  user = 'mydatabase_admin',
                  password = 'bintang123#',
                  db = 'iris')
```

2. local file
```{r, eval = FALSE}
# 1. Library
library(RSQLite)
library(DBI)

# 2. Settings
connection <- dbConnect(SQLite(), "data_input/flights.db")

# 3. Read data from db (local file)
dbListTables(connection)

s <- "select * from airports limit 5"
rs <- dbSendQuery(connection, s)
df <-  fetch(rs, n = -1)
```

### Oracle

- [Connecting to Oracle from R](https://db.rstudio.com/databases/oracle/)
- [R to Oracle Database Connectivity](https://blogs.oracle.com/r/r-to-oracle-database-connectivity%3a-use-roracle-for-both-performance-and-scalability)
- [How to Connect to Database in R](http://rprogramming.net/connect-to-database-in-r/)

```{r eval=FALSE}
# 1. Library
library(DBI)
library(odbc)
library(RODBC)

# 2. Settings
con <- dbConnect(odbc(),
                 Driver = "[your driver's name]",
                 Host   = "[your server's path]",
                 SVC    = "[your schema's name]",
                 UID    = "Database user",
                 PWD    = "Database password",
                 Port   = 1521)
```

```{r eval=FALSE}
# 1. Library
library(DBI)
library(odbc)
library(RJDBC)

# 2. Settings
drv <- JDBC("oracle.jdbc.OracleDriver",
classPath="…tklocal/instantclient_11_2/ojdbc5.jar"," ")
con <- dbConnect(Driver = drv, 
                 Host = " jdbc:oracle:thin:@myHost:1521:db", 
                 UID = "user",
                 PWD = "pass")
```