Type de publication:

Report

Source:

Laboratoire PACTE, UMR 5194 (2017)

Numéro d'appel:

hal-01621060

URL:

https://hal.archives-ouvertes.fr/hal-01621060

Résumé:

The distribution of a word in a collection of texts (corpus) is the set of locations where this term appears. This dimension has been little studied and only for corpora constituted of excerpts of equal lengths. This note analyzes the phenomenon in the corpora of entire texts (the lengths of which are unequal) and proposes an index whose properties are described using several corpora of large dimensions. A simple procedure makes it possible to isolate the words most regularly used and those which are located at a point of the corpus. In relation with the frequencies, repartition index provides some additional informations about the vocabulary of a corpus.La répartition d’un mot dans une collection de textes (corpus) est l'ensemble des emplacements où ce vocable apparaît. Cette dimension a été peu étudiée et uniquement pour des corpus constitués d’échantillons de longueurs égales. Cette note analyse le phénomène dans les corpus de textes entiers (longueurs inégales) et propose un indice dont les propriétés sont décrites à l’aide de plusieurs corpus de grandes dimensions. Une procédure simple permet d’isoler les vocables les plus régulièrement utilisés et ceux qui sont localisés en un point du corpus. Cette dimension complète la fréquence et apporte une information supplémentaire sur le vocabulaire du corpus.

Notes:

Computer Science [cs]Humanities and Social SciencesHumanities and Social Sciences/LinguisticsComputer Science [cs]/Document and Text ProcessingReports

Equipe de recherche :