Type de publication:

Articles

Source:

Statistique et Société, Société française de statistique, Volume 9, Ticket 1-2, p.133-145 (2021)

ISBN:

2269-0271

Numéro d'appel:

halshs-03372892

URL:

https://halshs.archives-ouvertes.fr/halshs-03372892

Résumé:

In this contribution we propose to contribute to the evaluation of algorithms called “word embedding” to the sociological analysis of texts: on the one hand, by comparing the results of semantic analyses of these algorithms with the now well-known approaches of textual data analysis; on the other hand, by focusing on what constitutes one of the main obstacles to the sociological analysis of the web: the difficulty to sociologically characterize the authors of statements from the web. To do this, we analyze the statements coming from two platforms of “civic tech” – the governmental platform, the “Grand Débat National”, and its political and algorithmic response proposed by a collective of Yellow Vests, the “Vrai Débat”. A third corpus from the “Entendre la France” platform, with the same design as that of the “Grand Débat National” and documented in terms of socio-political properties, will allow us to characterize the speakers according to their discourse and to try to predict, using machine learning approaches, the “pseudo properties” assigned to the speakers of the “Grand Débat National”.Dans cet article, nous nous proposons de contribuer à l’évaluation de l’apport des algorithmes dits de « plongement de mots » à l’analyse sociologique des textes : d’une part, en confrontant les résultats des analyses sémantiques de ces algorithmes aux approches maintenant bien connues des analyses de données textuelles ou de textométrie ; d’autre part, en s’intéressant à ce qui constitue un des principaux obstacles à l’analyse sociologique du web : ladifficulté à caractériser sociologiquement les auteurs des énoncés issus du web. Pour cela, nous analysons les énoncés issus de plateformes de « civic tech » – plateforme gouvernementale, le « Grand Débat National », et sa riposte politique et algorithmique proposée par un collectif de Gilets jaunes, le « Vrai Débat ». Un troisième corpus issu de la plateforme « Entendre la France », au design identique à celui du Grand Débat National et par ailleurs documenté en termes de propriétés socio-politiques, nous permettra de caractériser les locuteurs en fonction de leurs discours et de tenter de prédire par des approches de machine learning des « pseudos propriétés » affectées aux locuteurs du Grand Débat National.

Notes:

Humanities and Social Sciences/Political scienceComputer Science [cs]/Neural and Evolutionary Computing [cs.NE]Journal articles

Equipe de recherche :