Des outils bibliométriques comme puissante incitation à la fraude et aux mauvaises pratiques

Fausses publications dans les bases bibliographiques payantes
par Cyril Labbé et Dominique Labbé  (26 mars 2014)

La presse scientifique s’est fait l’écho de la présence de faux articles scientifiques dans les bases bibliographiques payantes.

Ces faux ont été découverts par Cyril Labbé* (LIG-IMAG UJF) et Dominique Labbé** (PACTE).

Ci-dessous résumé avec liens vers les principales pièces du dossier.

En 2010, Cyril Labbé a créé un faux chercheur - Ike Antkare, d’une université imaginaire - et il a mis en ligne, sous ce nom, 100 fausses publications scientifiques. Ces "fakes" avaient été écrits par un robot (SCIgen) créé au milieu des années 2000 par des étudiants du MIT. Les articles rédigés par ce robot n’ont aucun sens, mais ils ont formellement l’apparence de vrais articles. Ceux signés par I. Antkare citaient uniquement les 99 autres articles du même auteur. Les logiciels de « bibliométrie » - comme Scholarometer ou Publish or perish - n’ont pas décelé la supercherie, ce qui a permis à I. Antkare de devenir l’un des scientifiques les plus cités au monde devant Einstein ou Turing, du moins jusqu’au moment où C. Labbé a dévoilé le pot aux roses.

Vie et mort de Ike Antkare :

http://membres-lig.imag.fr/labbe/Publi/IkeAntkareSub.pdf

Le générateur de texte SCIgen est présenté à

http://pdos.csail.mit.edu/scigen/

Le détecteur des textes "écrits" par SCIgen (réalisé par C. et D. Labbé) :

http://scigendetection.imag.fr/

Depuis lors, d’autres expériences ont montré que des manipulations plus ou moins discrètes peuvent améliorer le classement non seulement des chercheurs mais aussi des équipes et des journaux scientifiques.

En 2012, C. et D. Labbé** ont révélé que 85 fausses publications comparables à celles d’I. Antkare avaient été publiées dans des actes de conférences internationales sponsorisées par l’IEEE (Institute of Electrical and Electronic Engineers, la plus grande association professionnelle mondiale). Dans tous ces cas, la sélection par les pairs - sous la supervision d’un comité scientifique composé de chercheurs renommés – était censée garantir le sérieux de la publication référencée (et vendue fort cher).

Cette enquête a été publiée en 2013 par la revue Scientometrics :

http://hal.archives-ouvertes.fr/docs/00/71/35/55/PDF/0-FakeDetectionSci-Perso.pdf

Version française :

http://hal.archives-ouvertes.fr/docs/00/75/63/76/PDF/LabbeLabbeNeuchatel2012.pdf

La méthode de classification qui permet d'identifier ces faux a été présentée dans Images des mathématiques (revue de l'Institut de Mathématique du CNRS) :

http://images.math.cnrs.fr/La-classification-des-textes.html

Depuis lors, l’IEEE a retiré, de sa base bibliographique payante, plus d’une centaine de ces fausses publications mais sans les identifier ni publier les conclusions de ses enquêtes internes.

La revue Nature a mis en ligne la liste de ces faux retirés sans explication :

http://blogs.nature.com/news/2014/02/publisher-reacts-to-fake-paper-gate.html

Le 11 février 2014, C. Labbé a alerté la maison d’édition Springer (deuxième maison d’édition mondiale) sur la présence dans son catalogue de 16 fausses publications écrites par SCIgen.

La revue Nature a rendu cette affaire publique :

http://www.nature.com/news/publishers-withdraw-more-than-120-gibberish-papers-1.14763

Springer en a reconnu la véracité en minimisant la portée

http://www.springer.com/about+springer/media/statements?SGWID=0-1760813-6-1456249-0

 

Entre 2010 et 2013, Springer a publié ces 16 faux dans 5 journaux différents. Ces revues ont toutes un rédacteur en chef, un "editorial board" et un conseil scientifique composés d'universitaires de haut rang. Ces faux ont été présentés par de vrais universitaires, dans des conférences réelles, organisées par des universités réelles, avec des comités scientifiques, une sélection des papiers par "peer-review". Par exemple, les deux faux les plus récents (2013) ont été présentés dans la même conférence coorganisée par une université chinoise et une université américaine. D'après la présentation du numéro de la revue par l'editor (un universitaire américain), les papiers retenus à cette conférence auraient été revus par au moins trois reviewers avec un taux de sélection de 30% !

Jusqu’au 17 mars 2014, ces faux articles de quelques pages étaient en vente dans la base Springer au prix unitaire de 30 dollars. A cette date, ils ont été retirés et certains sont remplacés par une notice de "rétractation". Mais, ils figurent toujours dans le sommaire des revues correspondantes et la version papier de ces revues – avec les faux articles - serait toujours en vente chez Springer, Amazon, etc.

A cette date, trois conclusions peuvent être tirées.

Premièrement, personne ne souhaite déclencher une chasse aux sorcières contre les "auteurs" de ces faux, ni contre les universitaires imprudents qui se sont rendus involontairement leurs complices en ne lisant pas les papiers qu'ils ont cautionnés. Cependant, est-il acceptable que des grands éditeurs scientifiques vendent des faux et ne fournissent aucune explication quand ces pratiques sont rendues publiques ?

La présence de ces fausses publications dans les bases bibliographiques payantes – réputées à tort sérieuses – montre que ces bases ont les mêmes problèmes de qualité que celles dont l’accès est libre, qu’elles ne sont pas à l’abri des manipulations et des mauvaises pratiques. Or les universités et les laboratoires payent des prix exorbitants pour s’abonner à ces bases.

En l’état actuel des outils bibliométriques, leur utilisation pour évaluer, individuellement ou collectivement, les chercheurs est une puissante incitation à la fraude et aux mauvaises pratiques (comme le plagiat, les duplications, la multiplication des papiers sans intérêt et l’autocitation massive)… Dans ces conditions, est-il raisonnable de continuer à évaluer les chercheurs (et leurs laboratoires) avec leur h-index et autres indices bibliométriques ? Pour les évaluer, ne vaudrait-il pas mieux lire et analyser sérieusement leurs travaux ?

Enfin, nous nous permettons de faire observer que nos méthodes, nos algorithmes et nos logiciels ont prouvé leur efficacité. Ils sont publiés et en ligne. Tout le monde - y compris Springer ou l’IEEE - peuvent les utiliser gratuitement. A l’avenir, ces outils pourraient fournir une aide pour la détection des mauvaises pratiques (faux, duplications, plagiats…), ce qui devrait améliorer la qualité de l’information scientifique, du moins si les principaux éditeurs acceptaient de jouer le jeu.

Adresses
* Cyril Labbé : http://membres-lig.imag.fr/labbe/

** Dominique Labbé : http://www.pacte-grenoble.fr/blog/membres/labbe-dominique/