Statistique Textuelle

Statistique textuelle

Principe
La statistique textuelle se situe à la croisée de plusieurs disciplines : la statistique, la linguistique, l’analyse du discours, l’informatique, le traitement des enquêtes (Lebart, Salem,1994) et s’applique à des corpus de textes de nature variée : entretiens, réponses à des questions ouvertes, écrits historiques, littéraires, corpus de presse, titres d’articles, etc.

Une première famille de traitement s’intéresse à la description des textes (lexique, comparaison du vocabulaire, etc.) ; la seconde privilégie le contenu des textes afin d’en extraire le sens.

L’intérêt majeur de ces méthodes est de traiter les corpus tels qu’ils ont été écrits ou recueillis.

La taille des textes peut varier : de quelques mots à quelques phrases comme les réponses à une question ouverte dits courts, ou des entretiens, dits longs. Ils constituent un outil de recherche fréquemment utilisé en sciences humaines.

On peut mettre en relation les textes avec des métadonnées sur les textes (date, lieu de production, etc) ou des caractéristiques sociodémographiques sur les répondants (âge, sexe, niveau d’études, etc.).

Les méthodes de statistique textuelle permettent de synthétiser les informations de ces données dites non structurées en détectant des cooccurrences permettant d’identifier des thématiques au moyen d’analyses multidimensionnelles (analyses factorielles ou de classifications).

Exemple de résultat commenté : Premier plan factoriel issus d’une AFC sur un tableau Lexical agrégé associé au corpus EuroBroadMap (Spad)

(EuroBroadMap, 2009)

Une représentation abstraite de l’Europe de la part des étudiants chinois opposé à une vision économique partagée par les pays de l’Union Européenne (Brennetot et al. 2013).

« A cette vision abstraite s’oppose une approche plus économique de l’Europe, exprimée avant tout par les étudiants des pays membres de l’Union européenne (France, Belgique et Portugal). Ces derniers perçoivent l’Europe à travers l’« Union européenne », envisagée comme une entité économique dotée d’une monnaie unique, « l’Euro », tout en soulignant sa « diversité ». Les étudiants français considèrent davantage l’Europe comme un « continent », un « espace » support « d’échanges » de nature avant tout commerciale (trade), représentation nuancée par l’évocation de notions telles que « frontières », « difficultés » ou « inégalité ». Les étudiants interrogés en Belgique partagent avec les étudiants français l’idée d’appropriation territoriale (mainland). Leur vision, davantage centrée sur Bruxelles (Brussels) et le parlement européen (parliament), se limite le plus souvent à la partie « ouest » du continent européen. L’Europe est ainsi envisagée comme un ensemble géopolitique caractérisé par un certain nombre de fonctionnements institutionnels (euro, European commision, community) et de valeurs politiques (freedom, peace, democracy et solidarity). »

"Les recherches menant aux résultats présentés ici ont été financées par le 7ème programme cadre de recherche et développent de la commission européenne (FP7/2007-2013 ; grant agreement n° 225260 ; “Visions de l’Europe dans le monde”, EuroBraodMap)

Mots clés
Lexique / Spécificités / Tableau lexical / Lemmatisation / Cooccurrences / Données non structurées

Applications logicielles
Packages de R (tm, r.temis, quanteda, xplortext), IraMuTeQ, Alceste, Spad, Lexico