martes, 17 de diciembre de 2019

Aplicación de la mineria de datos para la toma de decisiones en procesos de fabricación de productos farmacéuticos

Tomado de: https://www.itm.edu.co/wp-content/uploads/la-tekhne/2019/PDF-La-Tekhne-No.-106-Diciembre-de-2019-3_compressed.pdf
APPLICATION OF DATA MINING FOR DECISION MAKING IN PROCESSES OF MANUFACTURE OF PHARMACEUTICAL PRODUCTS

Stefany Paola Tirado De Stefano
Julián Alberto Uribe Gómez

At present, due to the massive increase in the amount of data that must be collected and analyzed in business environments, data mining methodologies arise, which constitute techniques that allow knowledge to be extracted from massive data sources, detecting opportunities for optimization in decision making. In this way, we seek to take advantage of the data obtained during the production process of a pharmaceutical company, focused on manufacturing physiological sera and intravenous solutions.
For this study, 2724 data were available, which contained information on product identification, production lines, production lots, lot size, type of defect found, number of defects presented and the stage in which they were detected. This is how the specific objectives with this study are: describe which line has the greatest number of defects, observe if there is an association between the production line and the type of defect found, define which of the stages of the process are the greater number of defects and identify those types of defects that are most likely to occur, whose general objective aims to design strategies that help improve the detection of anomalies within the production process. To achieve this, two strategies are proposed:
1. Classify the data by their characteristics, generating several groups within which only those data that have the required aspects are received, otherwise they are excluded and must continue to be attempted until they are admitted in one of them, this technique within the data mining It is called clustering.
2. Describe a relationship between the variables that contain the studied data, so that a production line can be associated with a type of defect, this type of analysis is known as association rules.
The procedure is as follows:
1. Prepare the data.
2. Perform cleaning and transformation process. It was determined that the variable Identification and Batch are not relevant for the analysis, so they are eliminated.
3. Make box-plot graphs of the numerical variables Size and Quantity of defects, to better demonstrate the distribution of the data, allowing to recognize the existence of outliers, which were subsequently eliminated (see figure 1).
4. Identify characteristics of the categorical variables, in this step, it was possible to define that line 6 is the one with the greatest number of defects. On the other hand, the most common types of defects are: cap particle and heat sealing bad, which belong to the review stage.
5. To observe the characteristics that lead to the generation of defects, an analysis by clustering is initially carried out, determining 8 groups (or clusters) to be created, using the k-Means method, whose purpose is to assign to each point (row) one of the k groups based on their characteristics and the distance of the point from the center (see table 1).
To perform this grouping, the Knime software was used, a data mining platform that allows developing models in a visual environment (see figure 2). The generated clusters are evaluated using the Davies-Bouldin (DB) index that indicates how compact the clusters are, for this case, the DB index shows a value of 0.348, which means that the clusters created internally have good cohesion. Similarly, the Silhouette index is used, which is used to evaluate both the cohesion and the separability of the clusters, in this case this index has a value of 0.706, which indicates a good grouping of the records.
The created clusters allow to know the characteristics of the data that are contained in them, as it is the case of cluster 0 which contains observations of size of 4641.7 units, which on average have 6.79 defective units coming from line 3, which are presented a deformed cover defect that was detected in the review period.
To evaluate the association rules, the Apriori algorithm is used, which seeks to reduce the number of candidates for the association. This technique is performed using the Python programming language that allowed to create a model with 23 rules related to lines 3, 5 and 6. One of the association rules that resulted from this process states that when it is manufactured on line 6 and initially worked with a very large lot size, there is a 79% chance of detecting a heat seal defect.
In conclusion, data mining allows describing or explaining facts from a data set. In this case a pharmaceutical company, where the main failures are generated in the operation of the machine, due to this it is important that the company constantly monitors and executes preventive maintenance. Likewise, it is recommended to make adjustments to the pressure exerted by the machine to form and unify the lid to the bag containing the solution, since from cluster 0 it was possible to know that the defect of the deformed lid was very common within the production of line 3, so it is important to evaluate the current state of the machines of this line.

_____________________________________________________________________________________

Aplicación de la minería de datos para la toma de decisiones en procesos de fabricación de productos farmacéuticos

En la actualidad, debido al incremento masivo de la cantidad de datos que deben ser recogidos y analizados en entornos empresariales, surgen metodologías de minería de datos, las cuales constituyen técnicas que permiten extraer conocimiento a partir de fuentes masivas de datos, detectando oportunidades de optimización en la toma de decisiones. De esta manera, se busca aprovechar los datos obtenidos durante el proceso de producción de una empresa farmacéutica, enfocada en fabricar sueros fisiológicos y soluciones intravenosas.

Para este estudio se disponían de 2.724 datos, que contenían información sobre identificación del producto, líneas de producción, lotes de producción, tamaño del lote, tipo de defecto encontrado, cantidad de defectos presentados y la etapa en la que fueron detectados. Es así como los objetivos específicos con este estudio son: describir cuál línea es la que presenta mayor cantidad de defectos, observar si existe una asociación entre la línea de producción y el tipo de defecto encontrado, definir cuál de las etapas del proceso se encuentran la mayor cantidad de defectos e identificar aquellos tipos de defectos que son más probables a presentarse, cuyo objetivo general apunta a diseñar estrategias que ayuden a mejorar la detec- ción de anomalías dentro del proceso de producción.

1. Clasificar los datos por sus características, generando varios grupos dentro de los cuales son recibidos solo aquellos datos que poseen los aspectos requeridos, de lo contrario son excluidos y deben seguir intentado hasta ser admitidos en uno de ellos, esta técnica dentro de la minería de datos lleva por nombre clustering.

2.Describir una relación entre las variables que contienen los datos estudiados, de forma que se pueda asociar una línea de producción con un tipo de defecto, este tipo de análisis se conoce como reglas de asociación.

El procedimiento planteado es el siguiente

Preparar los datos.

Realizar proceso de limpieza y transformación. Se determinó que la variable Identificación y Lote no son relevantes para el análisis, por lo que son eliminadas.

Realizar gráficos boxplot de las variables numéricas Tamaño y Cantidad de defectos, para evidenciar mejor la distribución de los datos, permitiendo reconocer la existencia de valores atípicos, que posteriormente fueron eliminados (ver figura 1).

Identificar características de las variables categóricas, en este pasó, se logró definir que la línea 6 es la que mayor cantidad de defectos presenta. Por otra parte, los tipos de defectos que más se repiten son: partícula tapa y el mal termosellado, que pertenecen a la etapa de revisión.

Observar las características que conducen a la genera- ción de defectos, se realiza inicialmente un análisis por clustering, determinando 8 grupos (o clústeres) a crear, utilizando el método k-Means, cuyo propósito es asignar a cada punto (fila) uno de los k grupos basados en sus características y la distancia del punto con respecto al centro (ver tabla 1).

Para realizar este agrupamiento se utilizó el software Knime, plataforma de minería de datos que permite de- sarrollar modelos en un entorno visual (ver figura 2). Los clústeres generados se evalúan utilizando el índice Davies- Bouldin (DB) que indica lo compactos que están los clústeres, para este caso, el índice DB arroja un valor de 0.348, lo que significa que los clústeres creados presentan internamente una buena cohesión. De igual forma se recurre al índice Silhouette, que es utilizado para evaluar tanto la co- hesión como la separabilidad de los clústeres, en este caso este índice tiene un valor de 0.706, lo que indica una buena agrupación de los registros.

Los clústeres creados permiten conocer las característi- cas de los datos que están contenidos en ellos, como lo es el caso del clúster 0 el cual contiene observaciones de tamaño de 4641.7 unidades, que en promedio tienen 6.79 unidades defectuosas provenientes de la línea 3, que vie- nen presentado un defecto de tapa deforme que fue detec- tado en el periodo de revisión.

Para evaluar las reglas de asociación, se utiliza el algo- ritmo Apriori, el cual busca la reducción del número de candidatos para la asociación. Esta técnica se realiza utilizando el lenguaje de programación Python que permitió crear un modelo con 23 reglas relacionadas con las líneas 3, 5 y 6. Una de las reglas de asociación que resulto de este proceso afirma que cuando se fabrica en la línea 6 y se trabajó inicialmente con un tamaño de lote muy grande, se tiene una probabilidad del 79% de detectar un defecto por termo-sellado.

En conclusión, la minería de datos permite describir o explicar hechos a partir de un conjunto de datos. En este caso una empresa farmacéutica, donde las principales fallas se generan en la operación de la máquina, es importante que la empresa controle y ejecute mantenimientos preventivos constantemente. De igual forma, se recomienda realizar ajustes a la presión ejercida por la máquina para formar y unificar la tapa a la bolsa que contiene la solución, ya que a partir del clúster 0 se logró conocer que el defecto de tapa deforme era muy común dentro de la producción de la línea 3, por lo que es importante evaluar el estado actual de las máquinas de esta línea.

Tomado de: https://www.itm.edu.co/wp-content/uploads/la-tekhne/2019/PDF-La-Tekhne-No.-106-Diciembre-de-2019-3_compressed.pdf







No hay comentarios.:

Publicar un comentario