La fouille de texte et la folksonomie appliquées au suivi de discussions d’intérêt public sur les réseaux sociaux: le cas de Twitter

Axe 1 – 6
Statut Thèse déposée pour la soutenance
Doctorant Sylvain Rocheleau (DIC)
Résumé Les dispositifs sociotechniques tels que les réseaux sociaux, les sites de microblogues (Twitter, Identi.ca), les plateformes de partage de contenus ou d’hébergement de contenus générés par les utilisateurs (Academia.edu, Youtube, DeviantArt, Flickr) génèrent un océan de données et de métadonnées. Plusieurs de ces plateformes s’en remettent partiellement aux utilisateurs lorsque vient le temps d’opérer une classification de leurs contenus. La méthode souvent privilégiée est celle qui permet l’ajout de mots-clés par les utilisateurs à leur propre contenu ou à celui des autres. À partir des folksonomies qui se créent par l’agrégation de mots-clés autour d’une thématique, on peut extraire un champ lexical présentant une cohésion sémantique parmi les mots-clés ayant une forte cooccurrence entre eux. Nous tenterons ensuite d’observer quels types de liens sémantiques peuvent être extraits de ces champs lexicaux dans le but d’identifier des mots-clés représentant des sous-thématiques d’une thématique principale. Dans le cas de Twitter, l’identification de sous-thématiques nous permettra de mettre en place un système de suivi de discussions autour d’une thématique principale afin d’observer et de capter son évolution dans le temps. Notre démarche comprendra trois étapes principales soit la création de folksonomies par l’agrégation de mots-clics, la création de champs lexicaux entre mots-clics affichant une forte cooccurrence entre eux et, finalement, l’attribution de relations sémantiques à ces derniers à partir de calculs statistiques.
Directeurs Gilbert Paquette, Eric George (CRISIS)