Optimización de hiperparámetros en algoritmos de aprendizaje no supervisado para la detección de anomalías en contrataciones públicas del Paraguay

Autores/as

DOI:

https://doi.org/10.62544/ucomscientia.v3i1.46

Palabras clave:

Detección de Anomalías, aprendizaje de máquina, inteligencia artificial, compras públicas

Resumen

Este estudio aborda la optimización de hiperparámetros en algoritmos de aprendizaje no supervisado aplicados a la detección de anomalías en contrataciones públicas en Paraguay. El principal objetivo es desarrollar una herramienta capaz de identificar irregularidades en los procesos de contratación, utilizando datos abiertos proporcionados por la Dirección Nacional de Contrataciones Públicas. La metodología sigue el estándar de la industria CRISP-DM e incluye la recopilación, transformación y preparación de los datos, seguida de la aplicación de los algoritmos Isolation Forest, Local Outlier Factor y One-Class SVM. La optimización de los hiperparámetros se lleva a cabo mediante técnicas de grid search y random search, además se aborda el desbalanceo de clases en los datos utilizando la técnica de oversampling SMOTE. Los resultados indican que, aunque los modelos con valores altos en la métrica de recall detectan la mayoría de las anomalías, presentan un elevado número de falsos positivos. En contraste, para obtener modelos con altos valores de precisión, se requiere de un balanceo del conjunto de datos, disminuyendo considerablemente los falsos positivos en sacrificio de no identificar todas las anomalías. En conclusión, es deseable trabajar en un correcto etiquetado y balanceo del conjunto de datos de entrenamiento para mejorar la precisión y la utilidad práctica de los modelos.

Citas

Campos, G. O., Zimek, A., Sander, J., Campello, R. J. G. B., Micenková, B., Schubert, E., Assent, I., & Houle, M. E. (2016). On the evaluation of unsupervised outlier detection: measures, datasets, and an empirical study. Data Mining and Knowledge Discovery, 30(4), 891-927. https://doi.org/10.1007/s10618-015-0444-8

Chapman, P., Clinton, J., Kerber, R., Khabaza, T., Reinartz, T., Shearer, C., & Wirth, R. (2000). CRISP-DM 1.0: Step-by-step data mining guide. CRISP-DM Consortium. https://www.crisp-dm.org/

Congreso de la Nación Paraguay. (2014). Ley Nº 5282 Libre acceso ciudadano a la información pública y transparencia gubernamental. https://www.bacn.gov.py/leyes-paraguayas/3013/ley-n-5282--libre-acceso-ciudadano-a-la-informacin-pblica-y-transparencia-gubernamental

Da Alesandro, R. (2019). Investigation of anomalies in a RTC system using Machine Learning(Master's thesis, Umeå University). Umeå University Publications. https://urn.kb.se/resolve?urn=urn:nbn:se:umu:diva-164768

Domingues, R., Filippone, M., Michiardi, P., & Zouaoui, J. (2017). A comparative evaluation of outlier detection algorithms: Experiments and analyses.Pattern Recognition, 74, 406-421. https://doi.org/10.1016/j.patcog.2017.09.037

Feurer, M., & Hutter, F. (2019). Hyperparameter optimization. En F. Hutter, L. Kotthoff, & J. Vanschoren (Eds.),Automated Machine Learning(pp. 3-33). Springer International Publishing. https://doi.org/10.1007/978-3-030-05318-5_1

Gómez Scifo, J. D. (2023). DNCP bate récord en gestión y control de procesos de licitación en los primeros 80 días de gobierno. Dirección Nacional de Contrataciones Públicas. https://www.contrataciones.gov.py/dncp/dncp-bate-record-en-gestion-y-control-de-procesos-de-licitacion-en-los-primeros-80-dias-de-gobierno/

Janssens, J. H. M. (2013). Outlier selection and one-class classification. Wöhrmann Print Service.

Kiran, M., Wang, C., Papadimitriou, G., Mandal, A., & Deelman, E. (2020). Detecting anomalous packets in network transfers: Investigations using PCA, autoencoder and isolation forest in TCP. Machine Learning, 109, 1127-1143.https://doi.org/10.1007/s10994-020-05870-y

Komer, B., Bergstra, J., & Eliasmith, C. (2019). Hyperopt-sklearn. En F. Hutter, L. Kotthoff, & J. Vanschoren (Eds.),Automated Machine Learning(pp. 97-111). Springer International Publishing. https://doi.org/10.1007/978-3-030-05318-5_5

López San Martín, M., Núñez Benitez, D. R., Paciello Coronel, J. M., & Pane Fernandez, J. I. (2024).Quantifying the risk of complaints in public procurement tenders in Paraguay using machine learning. 164-169. https://doi.org/10.54808/IMCIC2024.01.164

McKinney, J. (2023). test_fictional_example.py [Archivo de código fuente]. GitHub. https://github.com/open-contracting/sample-data/blob/main/tests/test_fictional_example.py

Mehta, S., Kothuri, P., & Garcia, D. L. (2018).Anomaly detection for network connection logs(arXiv:1812.01941). arXiv. https://doi.org/10.48550/arXiv.1812.01941

Niessen, M. E. K., Paciello, J. M., & Fernandez, J. I. P. (2020). Anomaly detection in public procurements using the open contracting data standard. 2020 Seventh International Conference on eDemocracy & eGovernment (ICEDEG), 127-134. https://doi.org/10.1109/ICEDEG48599.2020.9096674

Open Contracting Partnership. (s.f.). ¿Qué es el Estándar de Datos para las Contrataciones Abiertas (OCDS)?. Open Contracting Data Standard. https://standard.open-contracting.org/latest/es/primer/what/

Open Contracting Partnership. (2021). Calling for accountability: How Paraguay’s open emergency procurement can help restore public trust. Open Contracting. https://www.open-contracting.org/2021/05/03/calling-for-accountability-how-paraguays-open-emergency-procurement-can-help-restore-public-trust/

Transparency International. (2023). Corruption Perceptions Index 2023: Paraguay. Transparency International. https://www.transparency.org/en/cpi/2023/index/pry

Vierci Codas, M. B. (2018). Análisis exploratorio de datos públicos categóricos usando agrupación. https://gitlab.com/mbvierci/analisis-exploratorio-de-datos-publicos-categoricos-usando-agrupacion

Zenati, H., Romain, M., Foo, C. S., Lecouat, B., & Chandrasekhar, V. R. (2018).Adversarially learned anomaly detection. arXiv. https://doi.org/10.48550/arXiv.1812.02288

Zhao, Y., Nasrullah, Z., & Li, Z. (2019). PyOD: A Python toolbox for scalable outlier detection. Journal of Machine Learning Research,20(96),1-7. http://jmlr.org/papers/v20/19-011.html

Descargas

Publicado

2025-03-09

Cómo citar

Sanabria, M. F., Paciello Coronel, J. M., & Pane Fernández, J. I. (2025). Optimización de hiperparámetros en algoritmos de aprendizaje no supervisado para la detección de anomalías en contrataciones públicas del Paraguay. Revista Científica UCOM Scientia , 3(1), 115–140. https://doi.org/10.62544/ucomscientia.v3i1.46