Parlons d'OCR !

21/11/2022

Dans mes missions de correction tombent souvent des manuscrits traités par OCR: optical character recognition (reconnaissance optique de caractères).

Exemple simple

Un éditeur désire rééditer un texte tombé dans le domaine public (son auteur étant mort depuis plus de 70 ans) — parce que chacun est alors libre d'exploiter ledit texte sans payer de droits d'auteur —, ou rachète les droits d'un texte à un autre éditeur, parce que ledit texte est encore soumis au droit d'auteur. (À noter que, pour un texte étranger, si l'auteur est mort depuis plus de 70 ans, on ne peut librement en exploiter la traduction si le traducteur est vivant ou mort depuis moins de 70 ans: la traduction est une œuvre à part entière! Il faut alors soit réaliser une nouvelle traduction, soit racheter les droits du texte traduit.) Toutefois, le texte à rééditer n'existe pas ou plus sous forme de fichier informatique: on n'a dans la main que le livre paru dans son édition d'origine.

L'éditeur fait alors appel, par exemple, à une société de numérisation, qui convertit l'objet livre en fichier informatique exploitable en « traitement de texte ». Le texte est ainsi scanné (image 1) et les images traduites grâce à un logiciel de reconnaissance optique de caractères. Et nous voici avec un fichier Word du livre à rééditer (image 2). Sauf que...

Sauf que la reconnaissance optique de caractères, pour être un outil formidable, n'en est pas infaillible pour autant : le logiciel fait ce qu'il peut, mais livre un résultat brut évidemment impossible à publier en l'état, avec son lot d'erreurs, de mauvaises interprétations, d'oublis d'accents, de lettres, de mots... Une tache sur le scan, une patte de mouche, un caractère mal lu, se traduisent ainsi par des espaces surnuméraires, des lettres imaginaires, des coquilles délicieuses, des virgules tombées du ciel... Il est fréquent de voir Ils devenir Us, les amis devenir des anus, les l devenir des 1.

Sans oublier les erreurs (d'orthographe lexicale ou grammaticale, de syntaxe, de typographie) et les anomalies (de sens, de structure narrative, de style) présentes dès l'édition d'origine, ayant échappé à la vigilance des correcteurs de l'époque.

À cela s'ajoute que, l'orthographe évoluant avec le temps, ainsi que les usages typographiques, il convient de faire un juste choix entre le respect du texte d'origine et une éventuelle modernisation.

Pour ce qui est de ma part (moi, l'humble correcteur), je procède généralement en suivant ces étapes:

- Je copie-colle dans un nouveau fichier Word, fragment par fragment, tous les éléments du fichier issu de l'OCR, afin de ne conserver que le texte sans importer le contingent des pollutions (images, sauts de section intempestifs, en-têtes indésirables), notamment des éléments de mise en page qu'aurait créés l'OCR et qui pourraient parasiter mon travail en occasionnant des bugs très longs à résoudre.

- Je dégrossis rapidement le texte une première fois : suppression de tous les parasites qui sautent aux yeux.

- En faisant du mot à mot, les deux fichiers en regard, je remets tout le texte OCR dans la même forme que le texte source, de façon à les rendre identiques, en préservant (oui) les fautes que pourrait contenir l'édition d'origine. Ainsi, je nettoie le fichier de toutes les fautes commises par l'OCR, mais pas de celles du manuscrit d'époque. Lorsque j'aperçois des fautes, non issues de l'OCR mais de l'édition d'origine, qu'il faudra sûrement corriger, ou des cas litigieux sur lesquels je devrai me pencher, je les surligne: ce n'est pas parce que je les vois au premier coup d'œil que je les reverrai à la lecture suivante! Mais ce n'est pas encore l'heure de les corriger.

- Une fois que j'ai à l'écran un texte conforme à la version d'origine, j'applique toutes les feuilles de style nécessaires (italique, retraits, centrages...). Je dispose alors d'un tapuscrit dont l'orthographe, la typographie et la mise en forme sont au plus près de la source (il reste fatalement, à ce stade, quelques erreurs issues de l'OCR, qui ont échappé à ma vigilance).

- Et c'est enfin que je peux relire tout le texte, de manière approfondie, comme si j'étais le premier à le corriger. Chaque fois que je tombe sur une erreur ou un cas qui éveille mon attention, je regarde ce qu'il en était dans l'édition d'origine. S'il s'agit d'une faute manifeste, je la corrige en mode apparent, pour que l'éditeur puisse voir toutes les modifications apportées au texte. S'il s'agit d'une graphie ancienne, aujourd'hui désuète voire très archaïque (grand'mère, entr'ouvrir, roide, sanglotter, Rachmaninoff, New-York), j'interroge l'éditeur pour connaître son choix, en lui communiquant mon avis personnel: est-ce qu'on laisse ou est-ce qu'on modernise? Je m'assure par ailleurs que la marche adoptée est uniforme (ne pas avoir dans le même livre: gaieté, gaîté et gaité). Enfin, j'applique la marche typographique de l'éditeur, en opérant les ajustements que cela implique, notamment lorsque les dialogues avec guillemets doivent être convertis en dialogues uniquement avec tirets (les incises narratives doivent alors faire l'objet de la plus grande vigilance!).

- Je livre le fichier à l'éditeur (image 3), qui le transmet à son maquettiste.

- Je relis la maquette (image 4) et signale toutes les erreurs qui m'avaient encore échappé, ainsi que les ajustements à faire (mots mal coupés, pagination manquante, début de chapitre en page impaire, titre mal positionné...).

© 2022 Le Clavier Malin. Tous droits réservés.
Optimisé par Webnode Cookies
Créez votre site web gratuitement !