-
Notifications
You must be signed in to change notification settings - Fork 0
/
Copy pathLuengo_Carretero_Patricia_PEC2.Rmd
183 lines (125 loc) · 5.2 KB
/
Luengo_Carretero_Patricia_PEC2.Rmd
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
33
34
35
36
37
38
39
40
41
42
43
44
45
46
47
48
49
50
51
52
53
54
55
56
57
58
59
60
61
62
63
64
65
66
67
68
69
70
71
72
73
74
75
76
77
78
79
80
81
82
83
84
85
86
87
88
89
90
91
92
93
94
95
96
97
98
99
100
101
102
103
104
105
106
107
108
109
110
111
112
113
114
115
116
117
118
119
120
121
122
123
124
125
126
127
128
129
130
131
132
133
134
135
136
137
138
139
140
141
142
143
144
145
146
147
148
149
150
151
152
153
154
155
156
157
158
159
160
161
162
163
164
165
166
167
168
169
170
171
172
173
174
175
176
177
178
179
180
181
182
183
---
title: "Visualización de datos"
author: "Patricia Luengo Carretero"
date: "14/11/2023"
output: html_document
---
```{r setup, include=FALSE}
if (!require('dplyr')) install.packages('dplyr');
library(dplyr)
if (!require('vcd')) install.packages('vcd');
library(vcd)
if (!require('sf')) install.packages('sf');
library(sf)
if (!require('mapSpain')) install.packages('mapSpain');
library(mapSpain)
if (!require('ggplot2')) install.packages('ggplot2');
library(ggplot2)
```
## Marimekko Diagram (Mosaic Plot)
**Los gráficos de mosaico o diagramas de Marimekko** son usados para mostrar la relación entre dos variables discretas, ya sean factores o cadenas de texto.
Este tipo de grafico recibe su nombre porque consiste en una cuadricula, en la que cada rectángulo representa el numero de casos que corresponden a un cruce específico de variables. Entre más casos se encuentren en ese cruce, más grande será el rectángulo.
### Conjunto de datos
El dataset se ha obtenido de kaggle en el siguiente [enlace](https://www.kaggle.com/datasets/joebeachcapital/students-performance/) y contiene datos del desempeño de los estudiantes al finalizar el año académico. Contiene 145 muestras y 33 atributos.
```{r}
library(readr)
StudentsPerformance <- read_csv("C:/Users/patri/OneDrive/Documentos/MEGAsync/Ciencia de Datos Master/3 Visualización de datos/PEC2/data/StudentsPerformance.csv")
head(StudentsPerformance)
```
Vamos a fijarnos en los siguientes atributos:
-**Sex:** (1: femenino, 2: masculino)
-**Graduated high-school type:** (1: privada, 2: estatal, 3: otra)
-**Additional Work**: (1: Si, 2: No)
```{r}
students <- select(StudentsPerformance, Sex, 'Graduated high-school type', 'Additional work')
colnames(students)[1] <-"sex"
colnames(students)[2] <-"graduated"
colnames(students)[3] <-"work"
head(students)
```
Modificamos los datos categóricos de rango numérico a etiquetas más legibles:
**sex**
```{r}
students <- students %>%
mutate(sex = case_when(
(sex == 1) ~ 'female',
(sex == 2) ~ 'male'))
head(students$sex)
```
**graduated**
```{r}
students <- students %>%
mutate(graduated = case_when(
(graduated == 1) ~ 'private',
(graduated == 2) ~ 'state',
(graduated == 3) ~ 'other'))
head(students$graduated)
```
**work**
```{r}
students <- students %>%
mutate(work = case_when(
(work == 1) ~ 'Yes',
(work == 2) ~ 'No'))
head(students$work)
```
**Dos variables**
```{r}
mosaic( ~ sex + graduated, data = students,
highlighting = "sex", highlighting_fill = c("pink", "lightblue"),
direction = c("h", "v"))
```
**Conclusion**
Observamos que los hombres en su mayoria se han graduado un universidades estatales.
**Tres variables**
```{r}
mosaic( ~ sex + graduated + work, data = students,
highlighting = "sex", highlighting_fill = c("pink", "lightblue"),
direction = c("h", "v", "v"))
```
**Conclusion**
La mayor parte de los hombres que se graduaron en universidades estatales no trabajaban.
## Choropleth Map
Choropleth Map proporcionan una manera fácil de visualizar cómo varía una variable en un área geográfica o muestran el nivel de variabilidad dentro de una región. La diferencia con un mapa de calor es que en un Choropleth Map utiliza las regiones dibujadas según el patrón de la variable.
### Conjunto de datos
El dataset se ha obtenido de kaggle en el siguiente [enlace](https://www.kaggle.com/datasets/josepblasco/hidro-data) y contiene datos de las precipitaciones por provincia en España en los útimos años, en concreto, nosotros hemos seleccionado los del año 2021.
```{r}
library(readr)
precipitaciones <- read_delim("C:/Users/patri/OneDrive/Documentos/MEGAsync/Ciencia de Datos Master/3 Visualización de datos/PEC2/data/precipitaciones.csv",
delim = ";", escape_double = FALSE, trim_ws = TRUE)
head(precipitaciones)
```
```{r}
library(mapSpain)
library(sf)
codelist <- mapSpain::esp_codelist
prep <- unique(merge(precipitaciones, codelist[, c("cpro", "codauto")], all.x = TRUE))
prov <- esp_get_prov()
prov_sf <- merge(prov, prep)
ggplot(prov_sf) +
geom_sf(aes(fill = anual),
color = "grey70",
linewidth = .3
) +
scale_fill_gradientn(
colors = hcl.colors(10, "Blues", rev = TRUE),
n.breaks = 10,
guide = guide_legend(title = "Precipitaciones")
) +
theme_void() +
theme(legend.position = c(0.1, 0.6))
```
**Conclusion**
Como era de esperar la mayor cantidad de precipitaciones en el acumulado anual se producen en el Norte de España.
## Histograms
Su origen se debió al matemático Karl Pearson en 1895. Se utiliza para representar variables cuantitativas continuas y lo que suele hacerse es realizar una agrupación por franjas.
### Conjunto de datos
Utilizamos un dataset que contiene datos relacionados con vehículos, por ejemplo cilindrada, consumo, etc.
```{r}
mtcars
```
```{r}
hist(mtcars$mpg,main="Distribución de vehículos según su consumo",breaks=15,xlab="Consumo",ylab="Vehículos", xlim=c(5,40))
```
**Conlusión**
Vemos que hay una gran cantidad de vehículos cuyo consumo se encuentra entre 14 y 22 galones/milla.