Web Scraping con rvest

code
analysis
Author

FV

Published

September 22, 2024

Esta vez se trabaja con el paquete ”rvest” y la intención es obtener un marco de datos de Wikipedia.

# Librerías 
library("dplyr")
library("rvest")
library("showtext")

# URL
webpage <- read_html("https://es.wikipedia.org/wiki/Anexo:Municipios_de_Espa%C3%B1a_por_poblaci%C3%B3n")

# Se obtiene los datos de la URL:
t <- webpage %>%
  html_nodes(".mw-parser-output") %>%
  html_table()  
t <- t[[1]] 

# Se seleccionan los elementos deseados:
t <- t[(8:31),] 

# Se seleccionan variables y se cambian los nombres:
t1 <- select(t, 2:5)
variables <- c("Nombre", "Población", "Provincia", "Comunidad Autónoma")
names(t1) = c(variables)
t1
# A tibble: 24 × 4
   Nombre                     Población Provincia           `Comunidad Autónoma`
   <chr>                      <chr>     <chr>               <chr>               
 1 Murcia                     469 177   Región de Murcia R… Región de Murcia Re…
 2 Palma de Mallorca          423 350   Islas Baleares Isl… Islas Baleares Isla…
 3 Las Palmas de Gran Canaria 378 027   Las PalmasLas Palm… Canarias Canarias   
 4 Alicante                   349 282   AlicanteAlicante    Comunidad Valencian…
 5 Bilbao                     346 096   Vizcaya Vizcaya     País Vasco País Vas…
 6 Córdoba                    323 763   Córdoba Córdoba     Andalucía Andalucía 
 7 Valladolid                 297 459   Valladolid Vallado… Castilla y León Cas…
 8 Vigo                       293 652   Pontevedra Ponteve… Galicia Galicia     
 9 Hospitalet de Llobregat    274 455   Barcelona Barcelona Cataluña Cataluña   
10 Gijón                      268 313   Principado de Astu… Principado de Astur…
# ℹ 14 more rows