Séminaire Mohamed Bouguessa

Titre : Clustering des données de hautes dimensions Résumé : Le processus du clustering vise à construire des groupes (clusters) d’objets similaires à partir d’un ensemble hétérogène d’objets. Le clustering repose sur une mesure précise de la similarité des objets que nous voulons regrouper. La distance euclidienne, communément utilisée, considère que deux objets sont similaires si et seulement si les valeurs de tout leurs attributs sont proches les unes des autres. Autrement dit, la distance euclidienne (et beaucoup d’autres distances) traite toutes les dimensions de la même manière en leur accordant la même importance. Cependant, dans le cadre des données de hautes dimensions, certaines dimensions peuvent être discriminantes pour la formation d’un certain cluster, alors que ces mêmes dimensions peuvent s’avérer peu pertinentes pour la formation d’un autre cluster. En d’autres termes, les clusters peuvent exister dans différentes combinaisons des sous-espaces de dimensions et non dans tout l’ensemble des dimensions. Le problème est donc de déterminer les classes et les dimensions pertinentes pour chacune d’entre elle. Pour pallier à ce problème, nous proposons un algorithme de projected clustering qui utilise une formulation statistique, bien adaptée au contexte des données multidimensionnelles, qui prend en compte à la fois la masse de données, leur hétérogénéité et la performance algorithmique. Note: ce séminaire est conjoint avec les Séminaire avancé en informatique (INF980X)

Comments are closed.