INTRODUCCIÓN
Según lo describe la Organización Internacional del Trabajo (OIT), las enfermedades derivadas del estrés relacionadas con el trabajo se desarrollan debido a la falta de capacidad que pueden tener los trabajadores para enfrentar las condiciones y demandas que se derivan de la exigencia de la organización del trabajo, de las relaciones en el trabajo, de las condiciones ambientales que se transforman en factores de riesgo por la mala adecuación que las organizaciones les dan (ILO, 2016). Los sistemas integrados de gestión pretenden mejorar cada día estas situaciones que son inherentes al trabajo y motivo de preocupación (Soler et al.,2014) y en busca de mejoramiento continuo se hace necesario el innovar con técnicas en áreas que aún no son exploradas y que contribuyan a la toma de decisiones estratégicas, como las técnicas de machine learning o aprendizaje de máquina (Mosquera et al.,2016). En los sistemas de gestión de la seguridad y salud en el trabajo es preponderante realizar los respectivos seguimientos y controles de proceso a que haya lugar en cualquier tipo de industria y organización cuya relación sea directa (Arias 2014; Saizarbitoria et al.,2014). Es decir, el monitoreo constante de absolutamente todos los procesos organizacionales y de organización del trabajo se hacen necesarios, fundamentalmente donde existen demasiadas variables que tienen relación directa en el desempeño de los trabajadores (Huerta et al.,2016), como es el caso de los docentes de colegios públicos.
Tzeng et al., (2004), en un proyecto sobre la intencionalidad de las enfermeras de abandono del puesto de trabajo en Taiwan, encontró en la base de datos de MEDLINE que previamente nadie había trabajado la aplicación de máquinas de soporte vectorial (SVM) en el área de gestión de recursos humanos. Se formuló la hipótesis de que este enfoque podría ser útil para establecer un mecanismo de alerta temprana para la administración de recursos de enfermería, utilizando un nuevo método llamado “support vector learning machine”. Se sabe con claridad que las máquinas de soporte vectorial pueden establecer una relación no lineal entre la (s) variable (s) independiente (s) y la (s) variable (s) dependiente (s) y pronosticar el (los) valor (es) de la (s) variable (s) dependiente (s). Las máquinas de vectores de soporte se pueden equiparar a los análisis estadísticos de regresión lineal o no lineal comúnmente utilizados, como la regresión múltiple, pero son mucho más robustos, la calidad de las máquinas de soporte vectorial se determina con el entrenamiento y la capacidad de generalización (Cristianini et al.,2000). Yasodha et al., (2012), tomaron factores tales como la experiencia humana, el conocimiento y la capacidad de juicio y aplicaron técnicas de minería de datos utilizando un método híbrido entre coeficiente de contingencia de atributo de clase (CACC) y máquinas de soporte vectorial (SVM) para la clasificación de datos para la gestión y selección de recursos humanos para determinados puestos laborales.
Es por eso que la aplicación de técnicas de aprendizaje de máquina (machine learning) como los algoritmos máquina de soporte vectorial (SVM) (Cortes et al.,1995; Vapnik 1998), el algoritmo Naïve Bayes (Chandra et al.,2007)., se utilizan como herramienta para la predicción de afecciones de índole psicosocial, con el fin de evaluar su eficiencia en el grado de precisión con respecto a la identificación del tipo de grado de riesgo y mejorar los procesos de administración y gestión de recursos humanos para la prevención de riesgos. Para la reducción de la dimensionalidad se utilizan los algoritmos genéticos, los cuales ya han sido probados como técnicas de inteligencia artificial (Coca et al.,2013) en otros procesos para optimizar diferentes objetivos. El desarrollo y validación de nuevos instrumentos desde la rama de la ingeniería que contribuyan a la detección de riesgos psicosociales en las organizaciones de toda índole es posible gracias a los patrones que facilitan la clasificación de las variables (atributos) que denotan un resultado (clase), actualmente se trabaja en el desarrollo de nuevos algoritmos que faciliten el trabajo para la administración y la gerencia de seguridad y salud en el trabajo en todo tipo de actividades (Mosquera et al.,2016; Mosquera et al.,2018).
En este artículo se presentan los pasos para la aplicación de los algoritmos Naïve Bayes y Maquinas de Soporte Vectorial (SVM) a la Batería para la evaluación de factores de riesgo psicosocial intralaboral (Villalobos et al., 2010, Anexo 1) más las variables fisiológicas evaluadas (electroencefalografía, electrocardiograma, frecuencia cardíaca, actividad eléctrica de la piel y electromiografía) en primera instancia, posteriormente, a estas mismas variables para reducir el error de clasificación a los atributos, se le redujo la dimensionalidad de los datos a través de la aplicación de algoritmos genéticos para observar el grado de precisión de los algoritmos para la predicción del grado de riesgo psicosocial en docentes de colegios públicos de una ciudad de Colombia. En este artículo se presentan los pasos para obtener un modelo cuantitativo con el cual se pueda evaluar y predecir el grado de riesgo psicosocial aplicando técnicas de aprendizaje de máquina adicionando variables fisiológicas al modelo existente.
MATERIALES Y MÉTODOS
Para el desarrollo del artículo se presenta la información concerniente a la base de datos a intervenir, las variables que la componen, la descripción de los modelos de clasificación Naïve Bayes, máquinas de soporte vectorial (SVM) y el método de reducción de la dimensionalidad de los datos concernientes a este estudio: algoritmo genético (Whitley 1994), dejando como variables a intervenir los cuarenta atributos de mayor impacto para la correcta clasificación y con menor tasa de error. La metodología descrita que se utilizó para el desarrollo se muestra en la figura 1. El conjunto de datos que se analizó proviene de datos de docentes, información de variables sociodemográficas, físicas, psicosociales, ambientales y fisiológicas, como se muestra en la tabla 1, se verifican los campos con la información correcta en la base de datos de 3000 registros. Los antecedentes de los algoritmos a desarrollar en la investigación, se describen en los que sigue.
Naïve Bayes
El algoritmo clasificador Naïve-Bayes (NBC), es un clasificador probabilístico simple con fuerte suposición de independencia. Aunque la suposición de la independencia de los atributos es generalmente una suposición pobre y se viola a menudo para los conjuntos de datos verdaderos. A menudo proporciona una mejor precisión de clasificación en conjuntos de datos en tiempo real que cualquier otro clasificador. También requiere una pequeña cantidad de datos de entrenamiento. El clasificador Naïve-Bayes aprende de los datos de entrenamiento y luego predice la clase de la instancia de prueba con la mayor probabilidad posterior. También es útil para datos dimensionales altos ya que la probabilidad de cada atributo se estima independientemente (Chandra et al., 2007).
Ítems | Dominios | Variables |
---|---|---|
S1 | Sociodemográficas | S1… S10 |
D1 | Demandas del trabajo | D1 … D50 |
W1 | Control sobre el trabajo | W1 … W21 |
L1 | Liderazgo y relaciones sociales en el lugar de trabajo (Workplace) | L1 … L32 |
R1 | Recompensas | R1 … R11 |
P1 | V. Fisiológicas | P1 … P5 |
El clasificador se denota de la siguiente manera: Sea C la variable aleatoria que denota la clase de una instancia que X <X1, X2, . . ., Xm> un vector de variables aleatorias que denote los valores de los atributos observados. Sea c representando una etiqueta de clase particular x <X1, X2, . . ., Xm> representan un vector de valor de atributo observado particular. Para predecir la clase de una instancia de prueba x, el teorema de Bayes se utiliza para calcular la probabilidad (Chandra et al.,2007, p.12):
Luego, predecir la clase de instancia de prueba con mayor probabilidad. Aquí X = x representa el evento que X1 = X1 ∧ X2 = X2 ∧ . . . Xm = xm * P (X = x) puede ser ignorada ya que es invariante a través de las clases, entonces la ecuación (1) se convierte en:
“p (C = c) y p (X = x | C = c)” se calculan a partir de los datos de entrenamiento. Como los atributos X1, X2, . . ., Xm son condicionalmente independientes entre sí para una clase determinada, entonces la ecuación (2) se convierte en:
Que es simple de calcular para instancias de prueba y estimar a partir de datos de entrenamiento. Los clasificadores que utilizan la ecuación (3) se llaman clasificador Naïve Bayes. El algoritmo Naïve Bayes puede manejar atributos categóricos y numéricos. Así, para un atributo numérico de una instancia de prueba x <X1, X2, Xm>, la probabilidad se calcula mediante la ecuación (Chandra et al.,2007, p.13):
Para reducir el error de clasificación de datos ruidosos y superar los problemas de la estimación de probabilidades en el clasificador Naïve Bayes, un enfoque simple novedoso basado en la máxima ocurrencia del número para el cual las probabilidades condicionales de cualquiera de los atributos son cero para una instancia dada, ha sido propuesto por Chandra et al., (2007) como sigue a continuación.
Para la instancia de prueba dada X <X1, X2,. . . , Xm> , si p (C = c | X = x) para cada clase es cero, entonces para cada clase cuenta las ocurrencias de valores de atributos (digamos, ni ) para los cuales p (ai <xi ≤ bi | C = c ) = 0 . Aquí, ni significa el número de atributos para los cuales la instancia de entrenamiento con Xi = xi ∧ C = c no está presente en los datos de entrenamiento. Cuanto mayor es el número ni de una clase c, menor es la probabilidad de que la instancia de prueba x pertenezca a esa clase c. Ni depende también de la probabilidad de esa clase en los datos de entrenamiento. Por lo tanto, en lugar de tomar ni como el número significativo en la decisión de la clase de tal instancia de prueba, se calcula para cada atributo (Chandra et al., 2007, p.14):
Máquina de Soporte Vectorial (SVM)
La clasificación multi-clase está presente en muchos problemas del mundo real, inicialmente las máquinas de soporte vectorial fueron diseñadas para tratar con problemas binarios +/-1. Ahora veremos cómo tratar este problema. Podría decirse que el algoritmo multi-clase más elegante, y sin duda el método más alineado con el principio de Vapnik de tratar siempre de resolver problemas directamente, implica la modificación de la función objetivo SVM de tal manera que, simultáneamente permite el cálculo de un clasificador multi-clase (smola et al.,1998, p.233) podemos usar la siguiente configuración cuadrática:
Sujeto a:
Donde:
m ϵ {1, …, M} \ Yi, y Yi ϵ [1, …, M} es la etiqueta multi-clase del patrón Xi.
En términos de precisión, los resultados obtenidos con esta aproximación son comparables a los obtenidos directamente usando el método uno contra el resto. Para problemas prácticos, la elección del enfoque dependerá de las limitaciones disponibles, los factores relevantes incluyen la precisión requerida, el tiempo disponible para el desarrollo, el tiempo de procesamiento y la naturaleza del problema de clasificación (Smola et al.,1998, p.234).
Algoritmos genéticos
Los algoritmos evolutivos son técnicas de optimización metaheurística inspiradas en la evolución biológica. Se mantiene una población de soluciones candidatas en cada generación, y cada solución candidata se codifica en un espacio apropiado para aplicar operadores como selección, reproducción y mutación. Se define una función de fitness para medir la calidad de los individuos (Whitley, 1994). En nuestro caso, esta función lo que hace es entrenar clasificadores usando las 40 características contenidas en los padres y la información de las muestras que se extrae de la base de datos. El método de entrenamiento es el de k vecinos más cercanos y para entrenar se usa solo el 60% de las muestras (Mosquera et al., 2018):
Dónde “i” representa cada variable, “N" representa el número total de variables con sus respectivos valores y "P ij" hace referencia a la eficiencia de cada variable i con respecto al grado de riesgo j. Las subpoblaciones corresponden a un conjunto de 10 individuos, donde cada individuo representa un conjunto de 40 características. Entonces:
Paso 3. Evaluación con las técnicas de aprendizaje de máquina
Se realizó nuevamente la evaluación a los datos con las 40 variables seleccionadas con los dos algoritmos de aprendizaje de máquina, Naïve Bayes (NBC) y máquinas de soporte vectorial (SVM), para obtener los resultados de precisión, sensibilidad, especificidad y tasa de error de cada uno.
Donde TP (Verdaderos Positivos) = Casos positivos correctamente clasificados; TN (Verdaderos Negativos) = Casos negativos correctamente clasificados; FP (Falsos Positivos) = Casos negativos incorrectamente clasificados; FN (Falsos Negativos) = Casos positivos incorrectamente clasificados; y Sensibilidad (Fracción positiva verdadera) es la probabilidad de que una prueba de diagnóstico sea positiva, dado que la persona tiene la afección. La especificidad (fracción negativa verdadera) es la probabilidad de que una prueba de diagnóstico sea negativa, dado que la persona no tiene la enfermedad. La precisión es la probabilidad de que una prueba de diagnóstico se realice correctamente.
Paso 4. Análisis de estabilidad
Con la finalidad de establecer la estabilidad del sistema en los resultados que se obtuvieron, su usó un análisis de varianza (ecuación 13) para establecer si existen diferencias significativas en el valor de los resultados. En este análisis, y representa la respuesta a las variables; Ti , es el efecto causado por el tratamiento i-esimo y εi , el i-esimo error experimental. La información obtenida cumple los requerimientos de independencia y normalidad requeridos. El análisis de varianza se realizó en un intervalo de confianza del 99.5% (Rodríguez 2014).
RESULTADOS
Primero se organizaron los Datasets, luego se realizó la aplicación de los algoritmos, luego se procede a realizar la reducción de la dimensionalidad, aplicación de los algoritmos y por último se realiza el análisis de estabilidad.
Paso 1. Datasets y comprobación de la información
Se consideraron 129 variables, con valores cuantitativos y cualitativos y 3000 registros, la aplicación de la evaluación se hizo de manera directa a cada uno de las personas, la que contenía 129 variables predictoras y 1 variable de clase.
Paso 2. Aplicación de técnicas de aprendizaje de máquina
Luego de aplicar en primera instancia los algoritmos Naïve Bayes y máquinas de soporte vectorial al conjunto de datos de entrenamiento, se obtuvieron los resultados que se muestran en la tabla 2, la cual presenta de manera comparativa las instancias correctas generadas por cada algoritmo.
Técnica | TP | TN | FP | FN | Sensibilidad ± SD | Especificidad | Precisión± SD |
---|---|---|---|---|---|---|---|
Naïve Bayes | 30 ±1 | 15 | 0 | 2 ± 1 | 90,5 ± 2,6 | 100 | 90,55 ± 1,85 |
SVM | 31 ± 1 | 15 | 0 | 2 ± 1 | 91,6 ± 2,5 | 100 | 93, 3 ± 1,85 |
Esta comparación muestra que el sistema SVM tiene una alta precisión de clasificación y menos computación debido a la extracción de características. De hecho, los resultados experimentales muestran una menor tasa de error y la tasa de sensibilidad varía entre 89.1 a 94.1% con una media ± Desviación Estándar de 91.6 ± 2.5%.
Paso 3. Reducción de la dimensionalidad
Se redujo la dimensionalidad de los datos utilizando: algoritmo genético, del método se extrajo las variables en común para conformar una nueva organización de variables (40), como se muestra en la tabla 3. En el Algoritmo genético se utilizaron subconjuntos de poblaciones de 10 individuos usando 40 características, las más preponderantes contenidas en los padres, acorde a la información que se extrajo de la base de datos, como se muestra en la tabla 3.
Paso 4. Evaluación del nuevo conjunto de datos con técnicas de aprendizaje de máquina
Se realizaron 30 réplicas con cada algoritmo y se seleccionaron los 10 mejores resultados para ser expuestos. Los resultados obtenidos se exponen en la Tabla 4. Los valores obtenidos se utilizaron para realizar el análisis de estabilidad utilizando el análisis de varianza con un intervalo de confianza del 99%. Se realizó nuevamente la evaluación del conjunto de datos con los dos algoritmos, Naïve Bayes y SVM para obtener un promedio en la precisión respectivamente de 94,44% con una desviación estándar de 1,85 y 96,29% con una desviación estándar de 1,85 en la predicción del grado de riesgo psicosocial, como se ve en la tabla 5.
X99 | X2 | X21 | X10 | X15 | X8 | X20 | X11 | X30 | X19 |
X18 | X43 | X44 | X50 | X64 | X7 | X91 | X32 | X25 | X12 |
X65 | X117 | X100 | X21 | X16 | X47 | X66 | X77 | X90 | X116 |
X29 | X54 | X86 | X115 | X106 | X33 | X119 | X118 | X31 | X45 |
Paso 5. Análisis de estabilidad
Tomando como referencia las soluciones encontradas en el paso 4 (Tabla 4), se realizó el análisis de varianza, con un intervalo de confianza del 99.5%. Dado que en la Tabla 6, el F tabulado es mayor que el F calculado, se puede expresar que no existen diferencias significativas en los resultados entregados por el sistema; es decir, bajo un intervalo de confianza del 99.5% los datos son estadísticamente iguales.
DISCUSIÓN
El uso de clasificadores lineales como Naïve Bayes en la implementación de sistemas de recomendación (Zhang et al.,2002) permite obtener buenos resultados frente a otros sistemas como SVM, otros autores como (Varando et al.,2015) utilizan los algoritmos Naïve Bayes para potenciar los sistemas de redes bayesianas con el fin de optimizar los límites de decisión de las mismas, otros autores utilizan las redes bayesianas con el fin de poder hacer predictivo el padecer estrés debido a las condiciones laborales (Cárdenas, 2016), algunos autores utilizan las técnicas de Naïve Bayes para poder predecir la aparición de diabetes y poder estimar un tratamiento adecuado para los pacientes (Castrillón et al., 2017).
Allwein et al., (2000) propusieron un marco unificador para estudiar la solución de problemas de categorización multiclase al reducirlos a múltiples problemas binarios que luego se resuelven utilizando un algoritmo de aprendizaje binario basado en márgenes. Los resultados experimentales con SVM y AdaBoost muestran que el esquema proporciona una alternativa viable a los algoritmos multiclase más comúnmente utilizados. Huang et al., (2013) proponen extender la discriminación binaria ponderada por distancia (DWD) a los casos multi-clase. Además de las extensiones habituales que combinan varios clasificadores DWD binarios, proponen un DWD multiclase global (MDWD) que encuentra un único clasificador que considera todas las clases a la vez. Los resultados teóricos muestran que MDWD es estable con la consistencia deFisher, incluso en el caso particularmente desafiante cuando no hay una clase dominante, es decir, una clase con probabilidad mayor a 0.5. El rendimiento de diferentes métodos DWD multiclase se evaluaron mediante estudios de simulación y aplicación a conjuntos de datos de microarrays reales. También proporcionaron una comparación con las máquinas de vectores de soporte.
Qiao et al., (2015a) proponen un novedoso método de clasificación lineal que posee los méritos tanto de la máquina de vectores de soporte (SVM) como de la discriminación ponderada por distancia (DWD). El método de máquina de vectores de soporte ponderado por distancia propuesto se puede ver como un híbrido de SVM y DWD que encuentra la dirección de clasificación minimizando principalmente la pérdida de DWD, y determina el término de intercepción en la forma de SVM. Muestran que el mérito del método es la aplicación de DWD y, por lo tanto, supera el problema de superposición de datos y superposición de SVM. Por otro lado, el nuevo método no está sujeto a problemas de datos desequilibrados, que era una ventaja principal de SVM sobre DWD. Utiliza una pérdida inusual que combina la pérdida de bisagra (de SVM) y la pérdida de DWD a través de un truco de hiperplano axilar. Se desarrollan varias propiedades teóricas, que incluyen la consistencia de Fisher y la normalidad asintótica de la solución DWSVM. Utilizaron algunos ejemplos simulados para mostrar que el nuevo método puede competir con DWD y SVM en el rendimiento de la clasificación y la interpretabilidad.
Sun et al., (2017) desarrollaron un nuevo método de clasificación basado en ángulos multicategoría de máquinas de vectores de soporte ponderado por distancia (MD-WSVM) que está motivado por el método de clasificación binaria de vector de soporte ponderado por distancia (DWSVM). El nuevo método tiene los méritos tanto de la máquina de vectores de soporte (SVM) como de la discriminación ponderada por distancia (DWD), pero también alivia tanto el problema de acumulación de datos de SVM como el problema de datos desequilibrados de DWD. Los estudios teóricos y numéricos desarrollados por ellos demuestran las ventajas del método MDWSVM sobre los métodos basados en ángulos existentes, lo que permite una mejor clasificación. Hong et al., (2005), decidieron comparar las máquinas de soporte vectorial con los modelos de regresión logístico y probabilístico para evaluar la predicción en la rotación de empleados basado en el desempeño laboral, dónde, los resultados empíricos demostraron que el uso de las máquinas de soporte vectorial (SVM) es una alternativa prometedora para predecir la rotación de empleados en la gestión de recursos humanos. Con base en esto, nuestro modelo demuestra que la utilización de máquinas de vectores de soporte en la clasificación del riesgo psicosocial tiene un gran futuro para la implementación de modelos ya probados y para el desarrollo de un nuevo método basado en máquinas de vector de soporte que se adapte al modelo de datos que se generan en la identificación de riesgo psicosocial en población docente de colegios públicos colombianos. El uso de variables fisiológicas en el estudio y su uso con algoritmos como las máquinas de vectores de soporte permiten generalizar e inferir que se adaptan fácilmente al tratamiento del modelo matemático que trata SVM. Se recomienda seguir utilizando este tipo de algoritmos con este tipo de variables fisiológicas para su implementación en SVM.
Se puede para futuros trabajos de investigación seguir implementando las máquinas de vectores de soporte (SVM) incluyendo nuevas variables a parte de las fisiológicas ya demostradas aquí, como reconocimiento de patrones visuales o patrones de imágenes, desarrollar un nuevo método basado en las variables fisiológicas junto a variables organizacionales y variables asociadas a técnicas lean con técnicas de aprendizaje de máquina (machine learning) para automatizar el proceso de reconocimiento de presencia de riesgo psicosocial en la cultura organizacional de colegios y compañías. La optimización del espacio de búsqueda a través de métodos de optimización matemática como algoritmos de optimización perteneciente a la clase de técnicas de búsqueda local (hill climbing) y de búsqueda global (simulated annealing) adicional a las técnicas de SVM y NBC, puede mejorar el desarrollo y la aplicación de técnicas de clasificación respecto a identificación de riesgo psicosocial en diferentes modelos organizacionales.
Como vemos las disciplinas relacionadas con las técnicas de machine learning, incluyen el estudio psicológico del aprendizaje humano, el estudio de la evolución, la teoría del control adaptativo, el estudio de las prácticas educativas, la neurociencia, el comportamiento organizacional y la economía. Aunque la última década ha visto un mayor crecimiento con estos otros campos, recién estamos comenzando a aprovechar las posibles sinergias y la diversidad de formalismos y métodos experimentales utilizados en estos campos múltiples para estudiar sistemas que mejoran con la experiencia (Jordan et al., 2015), como son los psicosociales y organizacionales.
CONCLUSIONES
Con base en los resultados encontrados y su discusión se concluye que:
1) Se recomienda la utilización de algoritmos de máquinas de vectores de soporte para desarrollar mejores modelos que permitan mayor precisión para la predicción del riesgo psicosocial en este sector. 2) La utilización de modelos Naïve Bayes también podría ser fructífero en la predicción de este tipo de riesgo con menos variables incluidas en los estudios. 3) La experimentación con datos epidemiológicos de riesgo psicosocial y variables fisiológicas permitirá el desarrollo de herramientas tecnológicas que faciliten el mejoramiento de las condiciones laborales a través de la predicción. 4) La implementación de heurísticas poco utilizadas (Hill Climbing, Grasp) optimiza el espacio de búsqueda logrando la mejor solución posible local, que se puede mejorar realizando búsquedas locales iteradas para favorecer modelos de clasificación, como, las máquinas de soporte vectorial. 5) La creación de una línea de investigación dedicada a la implementación de algoritmos tipo SVM permitirá mejorar el desarrollo de la ingeniería y la aplicación de técnicas de soft computing en los niveles organizacionales, psicosociales y ergonómicos de las empresas en el país. 6) La implementación de machine learning en la toma de decisiones organizacionales favorecerá el mejoramiento de las condiciones de seguridad y salud en el trabajo en diferentes sectores económicos del país. 7) El mejor desempeño de predicción se obtuvo con el método SVM con una eficiencia en la precisión del 96,3%.