Type de publication:

Conference Proceedings

Source:

Journées internationales d'analyse statistique des données textuelles, Presses Universitaires de Lyon, Volume 2, Lyon, France, p.635-645 (2008)

Numéro d'appel:

halshs-00265358

URL:

https://halshs.archives-ouvertes.fr/halshs-00265358

Résumé:

Intertextual distance provides a simple and interesting solution to measure proximities and oppositions in large text corpora. Its properties make it a good tool for text classification, and especially for tree-analysis which is presented and discussed in this paper. In order to measure the quality of this classification, two indices are proposed. The method presented provides an accurate tool for literary studies and authorship attribution - as is demonstrated by its application to a blind test.La distance intertextuelle fournit une solution simple et intéressante pour mesurer les proximités et les oppositions dans un grand corpus de textes. Ses propriétés en font un bon outil pour la classification des textes, spécialement pour l'analyse arborée qui est présentée et discutée. Deux indices sont proposés pour mesurer la qualité de ces classifications. La méthode fournit un outil efficace pour les études littéraires et l'attribution à des auteurs connus de textes d'origine douteuse ou inconnue, ainsi qu'il est démontré grâce à une expérience en aveugle.

Notes:

Version préliminaire soumise au comité scientifique et retenue sans modificationHumanities and Social Sciences/Methods and statisticsStatistics [stat]/Methodology [stat.ME]Conference papers