Qué es un Hit?

Qué es un hit?

Descubriendo los secretos detrás del ranking Billboard 2000

Autores
Jonatan Mortarini Juan Manuel Haedo

Análisis del ranking Billboard para el año 2000

Para el segundo desafío del curso de Data Science, se nos solicitó realizar un análisis exploratorio de datos, en un dataset que contiene las canciones que estuvieron en el ranking Top 100 de Billboard en el año 2000.
Para esto se nos proporcionó un dataset, sobre el cual tuvimos que realizar un análisis exploratorio de los datos (EDA por sus siglas en inglés).


Limpieza y reestructuración de Datos

El primer proceso que realizamos, fue el de un análisis exploratorio, que incluye la limpieza y transformación de los datos. Esta etapa estuvo compuesta por los siguientes pasos:
  • Eliminar columnas sin datos: Las columnas que no contienen ningún dato en TODAS sus filas, se toman como irrelevantes y se eliminan.
  • Corrección de nombres de canciones: Muchas de las canciones están ingresadas con nombres que no son completamente correctos. Esto se descubrió en un paso más adelante, en donde se obtiene la información del proveedor Last.FM, ya que al realizar la búsqueda no devolvió resultados.
  • Inversión de nombres de artistas: El dataset provisto contiene los nombres de los artistas en formato “Apellido, Nombre”. Al igual que con las canciones, esto generó que no se encuentren alguno de ellos, por lo que decidimos convertirlo al formato “Nombre Apellido”. Luego de esto, la búsqueda en Last.FM comenzó a devolver resultados mas precisos.
  • Corrección de nombres de artistas: Una vez más, gracias a la búsqueda en Last.FM, encontramos que algunos nombres de algunos artistas no estaba bien ingresados, o no eran válidos para la búsqueda en Last.FM por lo que realizamos una corrección manual de los mismos.
  • Corrección del Género: Analizando el dataset, descubrimos que muchas de las canciones incluían un género incorrecto. Esto pudimos deducirlo ya que encontramos obras de artistas como Christina Aguilera o Backstreet Boys, con el género rock, y es de conocimiento general, que estos artistas crean música pop.
    Para la corrección del género, utilizamos la API de Last.FM que nos proporciona un campo llamado popular tags. Estos campos son datos que los usuarios de Last.FM ingresan manualmente, y por lo general incluyen el género correcto.
  • Conversión de Fechas a períodos: Convertimos los campos “date.entered” y “date.peaked” de fechas a períodos Mes-Año. Esto nos permite realizar exploración en los datos, basados en un rango por mes.
  • Reubicación de columnas de posición por semana: Por último, el dataset está estructurado con una columna por cada semana en el billboard, con su posición en el ranking cada columna. Para facilitar el análisis, se pivotearon las columnas de semana en filas que quedaron con dos columnas: Número de semana y Posición en el ranking.

Análisis Exploratorio

Top Géneros

Observamos la cantidad de obras por género y encontramos los géneros más populares.
El gráfico nos muestra que hay una gran cantidad de obras del género POP.
Luego, las más populares son Country, Rock, R&B y Hip-Hop.

Evolución de obras por semana

Graficamos la evolución de cada obra en el Billboard, con su posición semana tras semana.


Esto nos permitió plantear dos conclusiones sobre el funcionamiento de Billboard:
  • Todas las obras que, llegada la semana 20, están en descenso, son eliminadas del ranking automáticamente.
  • Todas las obras que hayan superado la semana 20, son eliminadas apenas descienden de la posición 50.
A su vez, podemos realizar una conclusión en base al comportamiento de las obras: Cuanto más impulso tenga al momento del lanzamiento, más chances tienen de llegar a superar las 20 semanas y de superar el top 50.


Distribución del Ranking Por Género

Luego de observar los géneros que son más frecuentes en el billboard, exploramos la distribución de la posición máxima de cada obra, de cada uno de estos géneros.
En este caso, se observa claramente, que el género POP tiene la distribución más cercana a los primeros lugares, seguido por Rock y luego R&B.
A su vez, esto tres también son los únicos 3 que al menos una de sus obras llega al puesto 1.


Distribución de Semanas por Género

Realizamos el gráfico, pero esta vez, sobre la cantidad de semanas en el BIllboard para cada género.
Podemos observar, que al igual que con el ranking, los 3 géneros que más tiempo se mantienen en el ranking con POP, ROCK y R&B

Correlación de Cantidad de Semanas vs Ranking Max

Por último, y basados en los dos análisis anteriores (Semana y Ranking) observamos una correlación entre la cantidad de Semanas que una obra se mantiene en el ranking, y la posición máxima a la que llega (siendo el ranking máximo = 1)


Ranking Ponderado

Con el objetivo de poder hacer un análisis descriptivo acerca de cuáles fueron los hits del año 2000 las dos variables más relevantes que encontramos fueron la permanencia que tuvieron las canciones en el Billboard 100 durante ese año y luego cada uno de puestos por los que pasaron.


Para realizar un análisis que contemple de manera unificada estas dos variables se aplicó a cada cación del dataset una ponderación con el siguiente tratamiento:


  • Se invirtieron los puestos del ranking para poder realizar una ponderación que represente mayor peso para los primeros puestos. De esta manera al puesto 1 se lo re codificó como 100, al 2 cómo 99, y así siguiendo con cada uno.
  • Para la ponderación lo que se hizo fue darle a cada puesto un peso igual al ranking invertido dividido 5050, que es el valor que resulta de hacer la suma de las posiciones del ranking posibles (1 al 100). Aquí se consigue una ponderación de suma 1.
  • A continuación se realiza el producto entre la ponderación del puesto y el puesto invertido, con esto lo que se logra es que tengan mayor peso aquellas canciones que se encuentran en los primeros puestos.
  • Por último, y para incluir la variable “permanencia” en el Billboard 100 durante el año 2000, lo que se hizo fue realizar una suma de todos estos valores ponderados para cada una de las canciones y para todas las semanas de permanencia que tuvo. Lo que se obtiene es un ranking anual que tiene en cuenta la permanencia dentro del ranking y los puestos que obtuvo en cada una de las semanas.


A continuación, se muestra un gráfico que demuestra en el eje Y la posición máxima que tuvo cada canción, en el eje X la cantidad de semanas de permanencia y cada punto se encuentra en una escala de colores que representa en colores más oscuros los valores más altos obtenidos en el ranking anual, así podemos notar que las canciones que tuvieron pocas semanas de permanencia y no consiguieron tener puestos altos se encuentran representados con un color muy claro, mientras que aquellos que permanecieron muchas semanas y escalaron a los primeros puestos del ranking se indican con un color mucho más oscuro.


Luego, teniendo el conocimiento de un gran conjunto de variables, se plantea la correlación existente entre las mismas, destacando las más representativas.


Las variables analizadas fueron:


  • Ranking ponderado: ranking total del dataset formado por la ponderación realizada según se indicó anteriormente.
  • Total: permanencia que tuvo la canción en el Billboard 100 del año 2000.
  • Top ranking: puesto máximo que tuvo la canción durante su permanencia.
  • Pico a salida: tiempo que transcurre entre la semana que alcanza el puesto máximo y la semana en la cual abandona el ranking.


Ponderado por Género

Una vez obtenido el ranking total ponderado, se realiza un análisis de lo que ocurre en cada uno de los géneros para reconocer cuáles son los géneros con mayores puntuaciones. Esto se hace sumando la puntuación de cada una de las canciones para cada uno de los géneros.


Lo que se obtuvo sirve para validar la hipótesis planteada en un inicio que indicaba que los 5 géneros más representativos en el ranking Billboard 100 son: Pop, Rock, R&B, Country y Hip Hop.

Probabilidad de ser un Hit

De acuerdo al análisis presentado, podemos calcular la probabilidad de ser un hit que tiene cada género.
Esto se hace calculando el total de tracks que tiene cada género en todo el Billboard dividido la cantidad de tracks por género cuyo ranking ponderado está por encima del 75%

Conclusión

Luego de trabajar el dataset Billboard 100 del año 2000 en todo lo referido a limpieza de datos (ver Notebook), se hizo un doble análisis: por un lado descriptivo y por otro predictivo. Cada uno de ellos arrojan sus propias conclusiones.


Análisis descriptivo:
Teniendo todos los datos y transformándolos en un único ranking anual ponderado que tiene en cuenta el puesto que una canción tiene en cada una de las semanas se puede decir que los hits del año 2000 son las siguientes:


a.png


b.png


Estas canciones representan el 25% superior del ranking ponderado anual y es por ese motivo que las consideramos los hits del Billboard 100 del año 2000.


Análisis predictivo:

En cuanto a la predicción de un hit (y sabiendo cuáles fueron los hits del 2000) se tomaron las probabilidades que tiene una canción dentro de cada uno de los géneros, es decir, si un tema de Pop llega al Billboard 100 tiene un 37,11% de probabilidades de convertirse en un hit, lo cual es mucho mayor que una canción perteneciente al género R&B.

Comentarios

Entradas populares