000 02664naa a2200277 a 4500
003 AR-LpUFIB
005 20250311170511.0
008 230201s2018 xx o 000 0 eng d
024 8 _aDIF-M8328
_b8548
_zDIF007621
040 _aAR-LpUFIB
_bspa
_cAR-LpUFIB
100 1 _aBasgall, María José
245 1 0 _aSMOTE-BD :
_ban exact and scalable oversampling method for imbalanced classification in big data
300 _a1 archivo (861,3 kB)
500 _aFormato de archivo PDF. -- Este documento es producción intelectual de la Facultad de Informática - UNLP (Colección BIPA/Biblioteca)
520 _aEl volumen de datos en las aplicaciones de hoy en día ha significado un cambio en la forma de abordar los problemas de Machine Learning. De hecho, el escenario Big Data implica restricciones de escalabilidad que sólo se pueden lograr a través del diseño de modelos inteligentes y el uso de tecnologías distribuidas. En este contexto, las soluciones basadas en la plataforma Spark se han establecido como un estándar de facto. En esta contribución, nos centramos en un marco muy importante dentro de Big Data Analytics, a saber, la clasificación con conjuntos de datos desequilibrados. La principal característica de este problema es que una de las clases está sub-representada y, por lo tanto, generalmente es más complejo encontrar un modelo que la identifique correctamente. Por esta razón, es común aplicar técnicas de preprocesamiento como el sobremuestreo, para equilibrar la distribución de ejemplos en las clases. En este trabajo presentamos SMOTE-BD, un enfoque de preprocesamiento totalmente escalable para la clasificación no balanceada en Big Data. El mismo se basa en una de las soluciones de preprocesamiento más extendidas para la clasificación desequilibrada, a saber, el algoritmo SMOTE, el cual crea nuevas instancias sintéticas de acuerdo con la vecindad de cada ejemplo de la clase minoritaria. Nuestro novedoso desarrollo está hecho para ser independiente de la cantidad de particiones o procesos creados, para lograr un mayor grado de eficiencia. Los experimentos realizados en diferentes conjuntos de datos estándar y de Big Data muestran la calidad del diseño y la implementación propuestos.
534 _aConference Cloud Computing and Big Data (7ª : 2019 : La Plata, Argentina) 
650 4 _aBIG DATA
650 4 _aAPRENDIZAJE AUTOMÁTICO
653 _aclasificación no balanceada
700 1 _aHasperué, Waldo
700 1 _aNaiouf, Ricardo Marcelo
700 1 _aFernández, Alberto
700 1 _aHerrera, Francisco
856 4 0 _uhttp://sedici.unlp.edu.ar/handle/10915/69464
942 _cCP
999 _c57394
_d57394