Distribuciones de Clases No Balanceadas: Métricas, Análisis de Complejidad y Algoritmos de Aprendizaje

Author

Garcí­a Jiménez, Vicente

Director

Sánchez Garreta, José Salvador

Mollineda Cárdenas Ramón Alberto

Date of defense

2010-02-18

ISBN

9788469363454



Department/Institute

Universitat Jaume I. Departament de Llenguatges i Sistemes Informàtics

Abstract

El problema de las distribuciones no balanceadas de datos entre clases ha recibido una considerable atención en disciplinas como el Aprendizaje Automático, el Reconocimiento de Formas y la Minerìa de Datos. Un conjunto de dos clases se dice que es no balanceado si una de las clases (mayoritaria) está significativamente más representada que la otra (minoritaria). Este tipo de complejidad de los datos puede conducir, en métodos tradicionales de clasificación, a aprendizajes sesgados en perjuicio de la clase minoritaria que, usualmente, contiene los casos de mayor interés. Esta deficiencia es particularmente importante en aplicaciones reales donde el coste por clasificar erróneamente los ejemplos de la clase menos representada es muy elevado.<br/><br/>Actualmente, es posible identificar tres grandes lí¬neas de investigación sobre dicha problemática. En este sentido, la presente tesis doctoral aborda el problema del desbalance desde las perspectivas de evaluación del aprendizaje, solución y análisis de la complejidad de los datos.<br/><br/>En el caso de las métricas de efectividad, se propone una nueva forma de evaluar los clasificadores que solventa una posible desventaja de las métricas tradicionales, las cuales no consideran la magnitud ni el sentido de la diferencia entre las tasas de aciertos por clase. Diversos análisis sobre la nueva métrica, denominada IBA, empleando medidas de correlación de Pearson y cambios en la matriz de confusión, la confirman como una medida robusta y eficaz en entornos desbalanceados.<br/><br/>Dentro del campo de las soluciones para tratar el desbalance, se proponen nuevos esquemas para reducir/incrementar la talla de las clases mayoritaria/minoritaria, respectivamente. Asimismo, se presenta una solución algorí¬tmica para la regla del vecino más cercano con el objetivo de favorecer la clasificación de muestras de la clase minoritaria. Este análisis no sólo se centra en el beneficio que podrá representar cada una de las soluciones, sino también en cómo estas se ven afectadas por la naturaleza del clasificador, el sesgo de los datos y las métricas de efectividad.<br/><br/>Finalmente, la tercera línea de investigación abordada en esta tesis se centra en analizar los efectos sobre el aprendizaje que produce la presencia en los datos de complejidades como el desbalance y solapamiento. En particular, se estudian dos escenarios. En el primero, denominado homogéneo, las clases mayoritaria y minoritaria mantienen esta misma relación en la región de solapamiento. En el segundo, por el contrario, la clase minoritaria se convierte en la más representada en dicha región. Los resultados muestran que el desbalance local en la región de solapamiento puede ser más determinante que el desbalance global y que la talla de dicha región.

Keywords

métricas de efectividad; Edición de Wilson; clases no balanceadas; reconocimiento de formas; aprendizaje automático

Subjects

004 - Computer science and technology. Computing. Data processing; 51 - Mathematics; 517 - Analysis

Knowledge Area

Ciencia de la Computación e Inteligencia Artificial

Documents

garcia5.pdf

3.070Mb

 

Rights

ADVERTIMENT. L'accés als continguts d'aquesta tesi doctoral i la seva utilització ha de respectar els drets de la persona autora. Pot ser utilitzada per a consulta o estudi personal, així com en activitats o materials d'investigació i docència en els termes establerts a l'art. 32 del Text Refós de la Llei de Propietat Intel·lectual (RDL 1/1996). Per altres utilitzacions es requereix l'autorització prèvia i expressa de la persona autora. En qualsevol cas, en la utilització dels seus continguts caldrà indicar de forma clara el nom i cognoms de la persona autora i el títol de la tesi doctoral. No s'autoritza la seva reproducció o altres formes d'explotació efectuades amb finalitats de lucre ni la seva comunicació pública des d'un lloc aliè al servei TDX. Tampoc s'autoritza la presentació del seu contingut en una finestra o marc aliè a TDX (framing). Aquesta reserva de drets afecta tant als continguts de la tesi com als seus resums i índexs.

This item appears in the following Collection(s)