Publication Type:

Articles

Source:

Journal de la Société Française de Statistique, Société Française de Statistique et Société Mathématique de France, Volume 4, Issue 142, p.37-57 (2001)

Call Number:

halshs-00799938

URL:

https://halshs.archives-ouvertes.fr/halshs-00799938

Keywords:

causes de divorce

Abstract:

La normalisation consiste à réduire les majuscules des noms communs, à uniformiser les orthographes multiples des noms propres, des dates et des chiffres ou de certains mots communs, à déployer les abréviations, etc. La lemmatisation associe à ces graphies normalisées un lemme correspondant à l'entrée du dictionnaire et une catégorie grammaticale. Ces tâches sont confiées à un automate dont l'efficacité est testée sur les réponses à une question ouverte dans une enquête sur les causes de divorce. Par rapport aux formes graphiques brutes, les données lemmatisées réduisent le nombre de mots différents et permettent de retrouver les principaux thèmes. Elles mettent également à jour certaines déformations produites par la manière dont les enquêteurs retranscrivent les réponses.

Notes:

Humanities and Social Sciences/Political scienceStatistics [stat]/Methodology [stat.ME]Journal articles

filet
Tag biblio: 
Research team: