Julián Alberto Uribe Gómez
Aplicación de la minería de datos para la toma de decisiones en procesos de fabricación de productos farmacéuticos
En la actualidad, debido al incremento masivo de la cantidad de datos que deben ser recogidos y analizados en entornos empresariales, surgen metodologías de minería de datos, las cuales constituyen técnicas que permiten extraer conocimiento a partir de fuentes masivas de datos, detectando oportunidades de optimización en la toma de decisiones. De esta manera, se busca aprovechar los datos obtenidos durante el proceso de producción de una empresa farmacéutica, enfocada en fabricar sueros fisiológicos y soluciones intravenosas.
Para este estudio se disponían de 2.724 datos, que contenían información sobre identificación del producto, líneas de producción, lotes de producción, tamaño del lote, tipo de defecto encontrado, cantidad de defectos presentados y la etapa en la que fueron detectados. Es así como los objetivos específicos con este estudio son: describir cuál línea es la que presenta mayor cantidad de defectos, observar si existe una asociación entre la línea de producción y el tipo de defecto encontrado, definir cuál de las etapas del proceso se encuentran la mayor cantidad de defectos e identificar aquellos tipos de defectos que son más probables a presentarse, cuyo objetivo general apunta a diseñar estrategias que ayuden a mejorar la detec- ción de anomalías dentro del proceso de producción.
1. Clasificar los datos por sus características, generando varios grupos dentro de los cuales son recibidos solo aquellos datos que poseen los aspectos requeridos, de lo contrario son excluidos y deben seguir intentado hasta ser admitidos en uno de ellos, esta técnica dentro de la minería de datos lleva por nombre clustering.
2.Describir una relación entre las variables que contienen los datos estudiados, de forma que se pueda asociar una línea de producción con un tipo de defecto, este tipo de análisis se conoce como reglas de asociación.
El procedimiento planteado es el siguiente
Preparar los datos.
Realizar proceso de limpieza y transformación. Se determinó que la variable Identificación y Lote no son relevantes para el análisis, por lo que son eliminadas.
Realizar gráficos boxplot de las variables numéricas Tamaño y Cantidad de defectos, para evidenciar mejor la distribución de los datos, permitiendo reconocer la existencia de valores atípicos, que posteriormente fueron eliminados (ver figura 1).
Identificar características de las variables categóricas, en este pasó, se logró definir que la línea 6 es la que mayor cantidad de defectos presenta. Por otra parte, los tipos de defectos que más se repiten son: partícula tapa y el mal termosellado, que pertenecen a la etapa de revisión.
Observar las características que conducen a la genera- ción de defectos, se realiza inicialmente un análisis por clustering, determinando 8 grupos (o clústeres) a crear, utilizando el método k-Means, cuyo propósito es asignar a cada punto (fila) uno de los k grupos basados en sus características y la distancia del punto con respecto al centro (ver tabla 1).
Para realizar este agrupamiento se utilizó el software Knime, plataforma de minería de datos que permite de- sarrollar modelos en un entorno visual (ver figura 2). Los clústeres generados se evalúan utilizando el índice Davies- Bouldin (DB) que indica lo compactos que están los clústeres, para este caso, el índice DB arroja un valor de 0.348, lo que significa que los clústeres creados presentan internamente una buena cohesión. De igual forma se recurre al índice Silhouette, que es utilizado para evaluar tanto la co- hesión como la separabilidad de los clústeres, en este caso este índice tiene un valor de 0.706, lo que indica una buena agrupación de los registros.
Los clústeres creados permiten conocer las característi- cas de los datos que están contenidos en ellos, como lo es el caso del clúster 0 el cual contiene observaciones de tamaño de 4641.7 unidades, que en promedio tienen 6.79 unidades defectuosas provenientes de la línea 3, que vie- nen presentado un defecto de tapa deforme que fue detec- tado en el periodo de revisión.
Para evaluar las reglas de asociación, se utiliza el algo- ritmo Apriori, el cual busca la reducción del número de candidatos para la asociación. Esta técnica se realiza utilizando el lenguaje de programación Python que permitió crear un modelo con 23 reglas relacionadas con las líneas 3, 5 y 6. Una de las reglas de asociación que resulto de este proceso afirma que cuando se fabrica en la línea 6 y se trabajó inicialmente con un tamaño de lote muy grande, se tiene una probabilidad del 79% de detectar un defecto por termo-sellado.
En conclusión, la minería de datos permite describir o explicar hechos a partir de un conjunto de datos. En este caso una empresa farmacéutica, donde las principales fallas se generan en la operación de la máquina, es importante que la empresa controle y ejecute mantenimientos preventivos constantemente. De igual forma, se recomienda realizar ajustes a la presión ejercida por la máquina para formar y unificar la tapa a la bolsa que contiene la solución, ya que a partir del clúster 0 se logró conocer que el defecto de tapa deforme era muy común dentro de la producción de la línea 3, por lo que es importante evaluar el estado actual de las máquinas de esta línea.
Tomado de: https://www.itm.edu.co/wp-content/uploads/la-tekhne/2019/PDF-La-Tekhne-No.-106-Diciembre-de-2019-3_compressed.pdf
No hay comentarios.:
Publicar un comentario