Skip to content

Tipologia-y-Ciclo-de-Vida-de-los-Datos/Practica1-Web_Scraping

Folders and files

NameName
Last commit message
Last commit date

Latest commit

 

History

54 Commits
 
 
 
 
 
 
 
 
 
 

Repository files navigation


Logo

Práctica 1 - Web Scraping

En esta práctica se ha llevado a cabo un caso práctico de Web Scraping, orientado a identificar y extraer datos relevantes del dominio Expatistan. Esta webpage nos muestra los costes de vida por países y ciudades en un formato de Ranking, es decir, del que mayor costes prensenta hasta el país o ciudad donde vivir es más barato.

Partiendo de la premisa del webpage y que cada país/ciudad tiene sus gastos divididos en categorías y elementos, esta página nos abre un mundo entero para realizar análisis estadístico de los costes de vida y concluir

ÍNDICE
  1. Sobre el proyecto
  2. Incio del proyecto
  3. Licencia del Dataset
  4. Dataset link
  5. Contactos

Sobre el proyecto

Expatistan es un webpage que nos ofrece una forma sencilla, intiutiva y eficaz de visualizar el coste de vida por ciudades y países. Además, también se pueden hacer comparativas entre ellos y cálcular tu salarios aproximado por ciudad actual y ciudad de destino.

Par este proyecto nos centraremos en extraer los datos que hacer referencia a cada ciudad y país explicados por la página web. De ahí que en el repositorio hayan dos datasets extraídos: cost_of_living_cities.csv y cost_of_living_countries.csv. Como dicen sus nombres, cada uno corresponde al tipo de Web Scraping realizado en la página web y contendrán los siguinetes valores.

cost_of_living_cities.csv cost_of_living_countries.csv Explicación
Ranking position Ranking position Posición numérica del país o ciudad en el Raking de la web
Country Country Nombre del país de originen de la ciudad o país al que se le hace el Web Scraping respectivamente
City (No presenta esta columna) Nombre de la ciudad a la que se le está aplicando el Web Scraping
State (No presenta esta columna) Nombre del estado, si lo presenta, de la ciudad a la que se le está aplicando el Web Scraping
Category Category Nombre de la clasificación genérica que se le ha otorgado a un conjunto de items
Items Items Objetos o servicioscuyos precios nos sirven para estimar el coste de vida por país o ciudad
Original Currency Original Currency Nombre de la moneda usada por el país o ciudad a los que se ha aplicado el Web Scraping
Original Currency Value Original Currency Value Valor de la moneda usada por el país o ciudad a los que se ha aplicado el Web Scraping
Exchanged Currency Exchanged Currency Nombre de la moneda usada para el cambio de divisa
Exchanged Currency Value Exchanged Currency Value Valor de la moneda usada para el cambio de divisa



Estos CSV se consiguen a partir del código explicado en el Jupyter notebook Scraping-notebook.ipynb, que contiene una pequeña introducción a la página web y el Web Scraping de Ciudades (clase ExpatistanCityScraper()) y de Países (clase ExpatistanCountryScraper()).

Por otro lado, tenemos un archivo utils.py que contiene todas las funciones comunes a ambos Web Scrapings. Este fichero nos ahorrará tener código duplicado o con minimos cambios en ambas clases ExpatistanCountryScraper() y ExpatistanCityScraper(), haciendo que el notebook esté mejor optimizado y limpio.

(back to top)

Herramientas y Librerías utilizadas

(back to top)

Requisitos previos

  1. Tener instalado Jupyter Notebook en local o una cuenta de alguna plataforma de servicio Cloud con python notebooks habilitados (Google Colab, Kaggle, etc.)
  2. Tener python instalado en la máquina si se quiere usar el notebook en local.
  3. Tener las siguientes librerías instaladas (ver siguiente apartado).

Instalaciones

  1. Descargar la version gratis del IDE Jupyter Notebook
  2. Descarga el repositorio en tu máquina o clonalo
    git clone https://github.com/Tipologia-y-Ciclo-de-Vida-de-los-Datos/Practica1-Web_Scraping
  3. Instala python, si no lo tienes en tu máquina, desde Microsoft Store y comprueba su instalación en PowerShell
    Python --version
  4. Abre el IDE Jupyter Notebook y navega entre los directorios hasta donde tengas guardado el notebook
  5. Abre el notebook Scraping-notebook
  6. Recomendamos ejecutar el apartado 1.1 Installationsauque se crea que la máquina tiene todas las librerías
!pip install requests
!pip install builtwith
!pip install beautifulsoup4
!pip install python-whois
  1. Importar las librerías y el archivo utils.py
  2. Notebook preparado para realizar el scraping.

(back to top)

Licencia

Distributed under the CC BY-NC-SA 4.0 License. Ver LICENSE.txt para más información.

(back to top)

Dataset link

(back to top)

Contactos

Este proyecto ha sido llevado a cabo por:

  1. José Luis Santos Durango - josant05@uoc.edu
  2. María Isabel González Sánchez - mgonzalezsanchez19@uoc.edu

Contáctanos: Miembros del equipo

(back to top)