Esta vez se trabaja con el paquete ”rvest” y la intención es obtener un marco de datos de Wikipedia.
En primer lugar se obtienen datos de la URL asignada, posteriormente se seleccionan los datos deseados: se seleccionan viables, se filtran elementos, se ordenan posiciones, se cambian nombres de variables, se cambian tipos de datos…
La finalidad de trabajar con este paquete es obtener y ordenar datos rápidamente para estudios específicos.
Manipulación de datos con “dplyr”.
# Librerías library("dplyr")library("rvest")library("showtext")# URLwebpage <-read_html("https://es.wikipedia.org/wiki/Anexo:Municipios_de_Espa%C3%B1a_por_poblaci%C3%B3n")# Se obtiene los datos de la URL:t <- webpage %>%html_nodes(".mw-parser-output") %>%html_table() t <- t[[1]] # Se seleccionan los elementos deseados:t <- t[(8:31),] # Se seleccionan variables y se cambian los nombres:t1 <-select(t, 2:5)variables <-c("Nombre", "Población", "Provincia", "Comunidad Autónoma")names(t1) =c(variables)t1
# A tibble: 24 × 4
Nombre Población Provincia `Comunidad Autónoma`
<chr> <chr> <chr> <chr>
1 Murcia 469 177 Región de Murcia R… Región de Murcia Re…
2 Palma de Mallorca 423 350 Islas Baleares Isl… Islas Baleares Isla…
3 Las Palmas de Gran Canaria 378 027 Las PalmasLas Palm… Canarias Canarias
4 Alicante 349 282 AlicanteAlicante Comunidad Valencian…
5 Bilbao 346 096 Vizcaya Vizcaya País Vasco País Vas…
6 Córdoba 323 763 Córdoba Córdoba Andalucía Andalucía
7 Valladolid 297 459 Valladolid Vallado… Castilla y León Cas…
8 Vigo 293 652 Pontevedra Ponteve… Galicia Galicia
9 Hospitalet de Llobregat 274 455 Barcelona Barcelona Cataluña Cataluña
10 Gijón 268 313 Principado de Astu… Principado de Astur…
# ℹ 14 more rows