Análisis de la base de datos Human Resources Analytics

En este trabajo realizo un análisis de la base de datos 'Human Resources Analytics'. Analizo las distribuciones de las variables que la componen y la relación que existe entre ellas.



La base de datos 'Human Resources Analytics' (ccds) es una base de datos simulada formada por 14999 observaciones de empleados y ex-empleados de una empresa. En cada observación están registrados los valores de 10 características de los empleados. Estas características son:


  • Nivel de satisfacción (satisfaction_level)
  • última calificación del trabajador (last_evaluation)
  • Número de projectos completados (number_project)
  • Media de horas mensuales (average_montly_hours)
  • Tiempo en la empresa (time_spend_company)
  • Si ha tenido algún accidente laboral (Work_accident)
  • Si ha sido promocionado en los últimos 5 años (promotion_last_5years)
  • Departamento (sales)
  • Salario (salary)
  • Si el trabajador ha abandonado la empresa (left)

En la tabla siguiente se muestran las primeras observaciones de la base de datos. El nombre de la columna 'sales' se ha cambiado por el nombre 'department'.


satisfaction_level last_evaluation number_project average_montly_hours time_spend_company Work_accident left promotion_last_5years department salary
1 0.38 0.53 2 157 3 0 1 0 sales low
2 0.80 0.86 5 262 6 0 1 0 sales medium
3 0.11 0.88 7 272 4 0 1 0 sales medium
4 0.72 0.87 5 223 5 0 1 0 sales low
5 0.37 0.52 2 159 3 0 1 0 sales low
6 0.41 0.50 2 153 3 0 1 0 sales low

Las cinco primeras variables son numéricas, las tres siguientes binarias y las dos últimas categóricas.

Valores faltantes y outliers
satisfaction_level last_evaluation number_project average_montly_hours time_spend_company Work_accident left promotion_last_5years department salary
1 Min. :0.0900 Min. :0.3600 Min. :2.000 Min. : 96.0 Min. : 2.000 Min. :0.0000 Min. :0.0000 Min. :0.00000 sales :4140 high :1237
2 1st Qu.:0.4400 1st Qu.:0.5600 1st Qu.:3.000 1st Qu.:156.0 1st Qu.: 3.000 1st Qu.:0.0000 1st Qu.:0.0000 1st Qu.:0.00000 technical :2720 low :7316
3 Median :0.6400 Median :0.7200 Median :4.000 Median :200.0 Median : 3.000 Median :0.0000 Median :0.0000 Median :0.00000 support :2229 medium:6446
4 Mean :0.6128 Mean :0.7161 Mean :3.803 Mean :201.1 Mean : 3.498 Mean :0.1446 Mean :0.2381 Mean :0.02127 IT :1227
5 3rd Qu.:0.8200 3rd Qu.:0.8700 3rd Qu.:5.000 3rd Qu.:245.0 3rd Qu.: 4.000 3rd Qu.:0.0000 3rd Qu.:0.0000 3rd Qu.:0.00000 product_mng: 902
6 Max. :1.0000 Max. :1.0000 Max. :7.000 Max. :310.0 Max. :10.000 Max. :1.0000 Max. :1.0000 Max. :1.00000 marketing : 858
7 (Other) :2923

Compruebo si existen valores faltantes y outliers. Para detectar los outliers considero como outlier cualquier valor \(x\) que se encuentre fuera del rango \( [Q_{1}-1.5IQR,Q_{3}+1.5IQR]\), donde \(Q_1\) y \(Q_3\) son el cuartil primero y tercero respectivamente, e \(IQR\) es el rango intercuartil.

[1] 0


[1] 0 0 0 0 1282


Como se observa, no existen valores faltantes entre los datos pero sí existen 1282 outliers en la quinta columna (tiempo en la empresa).

Distribución de las características
Figura 1. Distribuciones de las variables cuantitativas

Se puede observar que, salvo las variables 'Tiempo en la empresa' y 'Número de projectos completados', el resto de variables tienen una distribución bastante uniforme. Se aprecia un grupo apartado de trabajadores con un nivel de satisfacción muy bajo

Figura 2. Distribuciones de las variables binarias

Respecto a las variables binarias, el 14,46% de las personas que han trabajado en la empresa han tenido un accidente laboral, el 23,81% han abandonado la empresa y el 2,13% han sido promocionados.



Figura 3. Distribuciones de las variables categóricas

En cuanto la las variables categóricas se puede observar que el salario más común es el bajo, seguido por el medio y el alto. Respecto a los departamentos, la mayoría de los empleados que han trabajado en la empresa forman o formaban parte de los departamentos de ventas, soporte y departamento técnico.

Matriz de correlación
Figura 4. Matriz de correlación

A través de la matriz de correlación se pueden ver las correlaciones entre las distintas características. La mayor correlación (-0.42) se aprecia entre la variable 'average_montly_hours' y 'number_project'. Esto indica que los empleados que más horas trabajan, más proyectos han finalizado. Esta correlación encaja con la distribución de los años que los empleados llevan en la empresa. Como ya se ha mostrado en la Figura 1, la mayoría de los empleados llevan entorno a 3.5 años en la empresa, y muy pocos llevan más de 5 años. Por lo que es dificil ver empleados con muchos proyectos completados y pocas horas de trabajo mensuales.
La siguiente correlación más significativa aparece entre las variables 'left' y 'satisfaction_level' (-0.39), que implica que los empleados que estén poco satisfechos será más problabe que decidan abandonar la empresa.
En el gráfico siguiente se muestra la matriz con los gráficos de dispersión de cada par de variables cuantitativas. Los puntos de los gráficos están coloreados en función del valor de la variable 'left'. Si el empleado ha abandonado la empresa, es decir, la variable 'left' toma el valor 1, su punto en el gráfico se muestra de color rojo, y si el trabajador sigue en la empresa, su punto se muestra de color azul.



Figura 5. Matriz de gráficos de dispersión

En la matriz de gráficos de dispersión se pueden apreciar claramente las regiones donde los empleados han decidido abandonar la empresa. En la columna 'satisfaction_level' se puede apreciar que existe un tipo de trabajador que decide dejar la empresa a pesar de tener un nivel de satisfacción elevado. Este tipo de trabajador tiene una buena calificación en la empresa 'last_evaluation, ha completado entre 3 y 6 proyectos en la empresa, trabaja entre 200 y 300 horas al mes, lleva entre 4 y 7 años en la empresa y tiene un salario medio o bajo. En la columna 'average_montly_hours' se puede ver que todos los trabajadores que trabajan entorno a las 300 horas al mes terminan abandonando la empresa. Concretamente:

[1] 0


No hay empleados que se queden en la empresa si trabajan más de 288 horas al mes, independientemente del salario, nivel de satisfacción u otra característica.

Conclusiones

La base de datos simulada 'Human Resources Analytics' está compuesta por 14999 observaciones de 10 variables de los empleados y ex-empleados de una empresa. Contiene 1282 outliers y no tiene valores faltantes. Entre las relaciones entre las variables destaca principalmente la relación negativa entre el nivel de satisfacción de los trabajadores y su marcha o no de la empresa. Por otro lado, destaca el grupo de trabajadores con unas características comunes que han abandonado la empresa.

Si se quisiera predecir con cierta exactitud qué empleados tienen intención de abandonar la empresa en el futuro se podría utilizar algún modelo predictivo que no asumiese una distribución normal para las variables numéricas y que fuese compatible con el uso de variables categóricas.

Esta web utiliza cookies para obtener datos estadísticos de la navegación de sus usuarios. Si continúas navegando se considera que aceptas su uso. Más información Cerrar