Otros datasets

A continuación se referencian otros dataset incluidos en la librería datosIC, con su descripción, variables y fuente; y un detalle de posibles temas que podrían cubrir en aspectos de docencia.

Dataset Temas
bateria Regresión
jugadores Estadística descriptiva
nombresARG Estadística descriptiva
viviendas Datos espaciales, regresión
xGFIFA22 Detección de atípicos

Descripción, variables y fuente


bateria

  • Descripción: Datos del historial de capacidad de carga de una batería de Li-Ion L19M4PC2 con capacidad de fábrica de 80.000 mWh en una Notebook LENOVO 81YT con 505 ciclos de carga.

  • Variables:

    • desde: fecha de inicio del período, en el formato año-mes-día.
    • hasta: fecha de finalización del período, en el formato año-mes-día.
    • carga: carga máxima alcanzada (mWh) durante el período.
  • Fuente: Reporte generado a partir de la instrucción powercfg /batteryreport en Windows 11.

Disponible en la librería datosIC bajo el nombre de bateria.

Primeros 10 datos de ‘bateria’.
desde hasta carga
2021-04-05 2021-04-12 84380
2021-04-12 2021-04-19 84161
2021-04-19 2021-04-26 83950
2021-04-26 2021-05-02 84340
2021-05-02 2021-05-10 84340
2021-05-10 2021-05-16 83002
2021-05-16 2021-05-23 82206
2021-05-23 2021-05-31 83694
2021-05-31 2021-06-06 80030
2021-06-06 2021-06-13 80622

Ciclo de vida de baterías de Li-Ion. Tomado de Simulation of capacity fade in lithium-ion batteries (Spotnitz, 2003).

jugadores

  • Descripción: Datos de jugadores de fútbol y directores técnicos de primera división de Argentina al 2023, que incluyen datos de nacimiento y altura. Datos procesados y puestos a disposición por Pablo Mislej para el DATATÓN llevado a cabo en 2023 en FCEyN UBA, a cargo de Mariela Sued y en colaboración con María Eugenia Szretter Noste.

  • Variables:

    • Equipo: equipo en el que juega (o dirige) a la fecha.
    • Puesto: posición en la que juega a la fecha. En el caso de director técnico, se indica acá.
    • Jugador: nombre del jugador (o director técnico).
    • Edad: edad del jugador (o director técnico) al 2023.
    • Nacimiento: fecha de nacimiento del jugador (o director técnico), en el formato día-mes-año.
    • Altura: altura (cm) del jugador (o director técnico).
    • Ciudad: ciudad de nacimiento del jugador (o director técnico).
    • Pais: país de nacimiento del jugador (o director técnico).
    • Mes: mes de nacimiento del jugador (o director técnico).
    • Anio: año de nacimiento del jugador (o director técnico).
  • Fuente: Adaptación de Pablo Mislej a partir de la información disponible acá, 3 de mayo de 2023.

Disponible en la librería datosIC bajo el nombre de jugadores.

Primeros 10 datos de ‘jugadores’.
Equipo Puesto Jugador Edad Nacimiento Altura Ciudad Pais Mes Anio
Argentinos ARQ Alexis Martin Arias 30 1992-07-04 185 Pellegrini Argentina 7 1992
Argentinos ARQ Federico Lanzillota 30 1992-12-01 188 Villa Luzuriaga Argentina 12 1992
Argentinos ARQ Miguel Acosta 21 2001-10-19 189 NA Argentina 10 2001
Argentinos ARQ Lucas Alegre 20 2002-12-12 NA NA Argentina 12 2002
Argentinos ARQ Agustin Mangiaut 18 2004-05-24 NA NA Argentina 5 2004
Argentinos DEF Miguel Torren 34 1988-08-12 179 Santa Fe Argentina 8 1988
Argentinos DEF Mariano Bittolo 33 1990-04-24 175 Moron Argentina 4 1990
Argentinos DEF Lucas Villalba 28 1994-08-19 177 NA Argentina 8 1994
Argentinos DEF Jonathan Sandoval 35 1987-06-25 179 NA Uruguay 6 1987
Argentinos DEF Leonel Gonzalez 29 1994-03-15 177 Concordia Argentina 3 1994

nombresARG

  • Descripción: Datos del histórico de nombres registrados ante el Registro Nacional de las Personas en Argentina desde 1922 y hasta 2015 agrupado por nombre y año, para nombres de más de 100 ocurrencias anuales. Se preprocesó la base de datos.gob.ar excluyendo, entre otros, casos de múltiples nombres (especialmente, muy antiguos). La librería guaguas contiene un dataset similar, pero para el caso chileno.

  • Variables:

    • nombre: nombre registrado, en mayúsculas y sin tilde.
    • cantidad: cantidad de nombres registrados en el año.
    • anio: año de registro.
  • Fuente: datos.gob.ar

Disponible en la librería datosIC bajo el nombre de nombresARG.

Primeros 10 datos de ‘nombresARG’.
nombre anio cantidad
LEONEL HERNAN 1975 7939
JUAN CARLOS 1953 7371
JUAN CARLOS 1950 7330
JUAN CARLOS 1951 7295
JUAN CARLOS 1952 7140
JUAN CARLOS 1954 7117
JUAN CARLOS 1955 7086
JUAN CARLOS 1949 7019
MARIA BELEN 1993 7018
JUAN CARLOS 1956 6924


viviendas

  • Descripción: Datos de viviendas en venta en Argentina, publicadas en el sitio inmobiliario online Properati durante los años 2013 a 2018. Los datos corresponden a viviendas publicadas a menos de 10 millones de dólares y con superficie total cubierta menor a 1000 metros cuadrados.

  • Variables:

    • tipo: tipo de vivienda en venta.
    • ciudad: ciudad, municipio (GBA) o barrio (CABA) de la vivienda.
    • provincia: provincia (con distinción entre zonas de GBA y CABA).
    • lat: latitud de la ubicación de la vivienda.
    • lon: longitud de la ubicación de la vivienda.
    • precioUSD: precio publicado (USD) de la vivienda en venta.
    • sup_tot: superficie total (m2) de la vivienda.
    • sup_cub: superficie cubierta (m2) de la vivienda.
    • precio_sup_tot: precio (USD) del m2 según superficie total de la vivienda.
    • precio_sup_cub: precio (USD) del m2 según superficie cubierta de la vivienda.
    • ambientes: cantidad de ambientes de la vivienda reportados en la publicación.
  • Fuente: Properati Data

Disponible en la librería datosIC bajo el nombre de viviendas.

Primeros 10 datos de ‘viviendas’ para algunas variables.
tipo ciudad precioUSD sup_tot precio_sup_tot ambientes
PH Mataderos 62000 55 1127.273 NA
departamento Mataderos 72000 55 1309.091 NA
departamento Centro 64000 35 1828.571 NA
PH Munro 130000 106 1226.415 NA
departamento Belgrano 138000 45 3066.667 NA
departamento Belgrano 195000 65 3000.000 NA
departamento Martínez 115000 39 2948.718 NA
departamento Palermo Soho 111700 50 2234.000 1
departamento Palermo Soho 147900 42 3521.429 1
PH Mataderos 239000 140 1707.143 4

xGFIFA22

  • Descripción: Datos resumen de goles esperados (xG) y de goles esperados asistidos (xGA) para los jugadores del mundial FIFA 2022. En la actualidad, xG es el mejor predictor del rendimiento futuro tanto para jugadores como para equipos. xG es una métrica que mide la probabilidad de que un tiro dado termine en gol. Según StatsBomb, un modelo de xG utiliza información histórica de miles de tiros con características similares para estimar la probabilidad de gol en una escala de 0 a 1. Por ejemplo, un tiro con un valor de xG de 0,2 es uno que razonablemente se puede esperar que termine en gol dos de cada 10 veces. En el dataset, la columna de xG se construyó a partir de los datos de statsBombR filtrando todos los shots (tiros al arco) que no fueran penales, y sumando sus xG para cada uno de los jugadores. La métrica xGA se construye con una información adicional: la de los pases. De cada tiro al arco, se registra si proviene de un pase de asistencia. Luego, la variable xGA de este dataset se construyó a partir de filtrar todos los shots asistidos de los datos del mundial 2022 de statsBombR y sumar sus xG para cada uno de los jugadores.

  • Variables:

    • jugador: nombre del jugador.
    • xG: goles esperados (sin penales).
    • xGA: goles esperados asistidos
  • Fuente: StatsBombR

Disponible en la librería datosIC bajo el nombre de xGFIFA22.

Primeros 10 datos de ‘xGFIFA22’.
jugador xG xGA
Aaron Mooy 0.0391913 0.0394844
Aaron Ramsey 0.0253614 0.0226158
Abdelhamid Sabiri 0.1233840 0.6250091
Abdelkarim Hassan Al Haj Fadlalla 0.2749146 0.0308553
Abdessamad Ezzalzouli 0.0595074 0.1866609
Abdou Diallo 0.0354115 0.0581968
Abdulaziz Hatem Mohammed Abdullah 0.0244957 0.0233703
Abdulrahman Al-Obood 0.0417447 0.0131055
Achraf Hakimi Mouh 0.1360969 0.3659694
Adrien Rabiot 0.7281201 0.7964649

El gráfico de xG vs XGA que reproducimos a partir de los datos de xGFIFA22 puede verse en el carrousel de imágenes de StatsBomb, acá.