Type de publication:

Articles

Source:

Journal de la Société Française de Statistique, Société Française de Statistique et Société Mathématique de France, Volume 4, Ticket 142, p.37-57 (2001)

Numéro d'appel:

halshs-00799938

URL:

https://halshs.archives-ouvertes.fr/halshs-00799938

Mots-clés:

causes de divorce

Résumé:

La normalisation consiste à réduire les majuscules des noms communs, à uniformiser les orthographes multiples des noms propres, des dates et des chiffres ou de certains mots communs, à déployer les abréviations, etc. La lemmatisation associe à ces graphies normalisées un lemme correspondant à l'entrée du dictionnaire et une catégorie grammaticale. Ces tâches sont confiées à un automate dont l'efficacité est testée sur les réponses à une question ouverte dans une enquête sur les causes de divorce. Par rapport aux formes graphiques brutes, les données lemmatisées réduisent le nombre de mots différents et permettent de retrouver les principaux thèmes. Elles mettent également à jour certaines déformations produites par la manière dont les enquêteurs retranscrivent les réponses.

Notes:

Humanities and Social Sciences/Political scienceStatistics [stat]/Methodology [stat.ME]Journal articles

filet
Tag biblio : 
Equipe de recherche :