Les programmes de reconnaissance de caractères (ROC en français, OCR en anglais) sont pour moi, depuis leurs débuts, des outils un peu magiques que j'ai toujours appréciés, au point de passer sur Mac depuis Atari, rien que parce que sur cette dernière plateforme, rien d'efficace n'existait à ce niveau.
Pensez: ces logiciels lisent véritablement le texte que vous leur soumettez via un scanner, un appareil de photo numérique, et hop, ils vous retapent tout ça à la vitesse de l'éclair dans votre programme préféré avec désormais bien peu de fautes.
J'aimerais juste être très clair: après avoir passé un texte quelconque à la moulinette d'un OCR, vous pouvez changer des mots, retravailler le texte, à la grande différence d'une photocopie.
J'ai écrit déjà de nombreux articles à propos ces programmes de reconnaissances à l'époque dans différents journaux, puis sur Cuk.ch.
Par exemple, OmniPage X, testé ici. Manque de bol, ce programme a été abandonné comme une vieille chaussette et scandaleusement par son éditeur.
OmniPage, vous devez oublier absolument.
Puis j'ai testé ReadIris Pro 9 , de la société belge IRIS qui était à l'époque une bonne alternative.
L'article que vous lisez en ce moment est une mise à jour de ce dernier, entièrement dédiée au tout nouveau ReadIris Pro 11, testé ici en version 11.05, parfaitement compatible avec mon scanner Epson, mais avec bien d'autres aussi, pour autant qu'ils soient eux-mêmes compatibles avec la norme TWAIN, ce qui est généralement le cas. Le programme supporte également les fichiers TIFF ou JPEG sortis d'appareils de photo.
Mieux même, comme nous allons le voir, il reprend vos documents PDF en respectant au mieux la mise en page. Ce n'est pas de la pub, c'est la réalité…
ReadIris est passé de la version 9 à la version 11 sans passer par la 10. Pour une fois, nous sommes même en avance, au moment où j'écris ces lignes, sur la version PC qui en est restée à la 10. Incroyable!
Les progrès sont-ils à la hauteur?
Et bien ma fois oui, et ReadIris, qui était déjà très bon, est désormais très proche de la perfection, comme nous allons le voir.
Une interface efficace
ReadIris 11 reprend l'interface, aérée, esthétique et véritablement simple à utiliser qui avait été inaugurée dans la version 9.
- la zone du contenu de votre document, ici après numérisation;
- la zone des pages numérisées et reconnues;
- la zone des réglages de base (langue, type d'apprentissage);
- la zone de choix du document si déjà existant ou d'acquisition via un scanner;
- le choix du mode tout auto ou non;
- la zone de préparation du document (choix de traçage des zones à reconnaître);
- la zone d'amélioration du document si besoin est (redressement, nettoyage);
Comme vous le voyez, si tout est réglable via des menus traditionnels, la plupart des fonctions sont paramétrables via des boutons parlants ou un clic de souris. La barre d'outils est entièrement paramétrable, comme le sont toutes les applications cocoa. Et visiblement, ReadIris en est une.
Ah, petit détail important pour certains: si l'alu brossé vous insupporte, vous pouvez demander au programme de ne plus l'afficher…
Tout commence par les réglages dans la zone 4 de la fenêtre. Il faudra choisir ce qui va être reconnu: un fichier (sous forme d'image ou PDF) ou, s'il faut numériser, le scanner qui va se charger de ce travail.
Seuls quelques scanners Epson sont installés sur mon disque…
Toujours dans cette zone de paramétrage, on choisit ce qui va advenir de notre reconnaissance:
Comme vous le constatez, les formats importants sont présents, nous reparlerons du PDF et du HTML plus bas.
ReadIris vous propose également d'ouvrir, pour chaque format, une application dans laquelle vous verrez le résultat de la reconnaissance:
Ici, le logiciel fait preuve d'intelligence. Pourquoi vouloir réinventer la roue et montrer le résultat dans un éditeur "maison", comme le fait par exemple OmniPage? Iris a plutôt choisi d'ouvrir automatiquement l'application dans laquelle vous travaillez, avec tous ses outils de correction, ménageant ainsi vos petites habitudes.
On peut choisir de travailler de manière automatique: une fois que l'on appuie sur la zone acquérir. et que l'on aura défini via l'interface du scanner, quoi numériser, ReadIris prend tout en mains, jusqu'à la sortie sur le programme désiré.
Personnellement, je ne le recommande pas.
Tous les outils pour bien préparer sa reconnaissance
Pour assurer une bonne reconnaissance, il vaut mieux que la numérisation soit au top, ou pour le moins la meilleure possible. Une résolution de 300 points par pouce est recommandée, 400 si le texte est très petit.
Il se peut que notre document n'ait pas été introduit bien droit dans le scanner, ou que des taches soient apparues. Le redressement et le nettoyage peuvent être automatiques (ce qu'ici je recommande) ou manuel, via les zones dédiées (7).
Les différents outils disponibles pour
préparer la reconnaissance…
enfin, une partie, la suite arrive!
Pour pallier ces problèmes, ReadIris 11 propose quelques options bien pratiques, comme un redressement de la page extrêmement efficace, une détection automatique de l'orientation qui l'est tout autant, et une suppression du bruit qui fait tout ce qu'elle peut, mais qui n'est pas capable de faire des miracles sur un document trop détérioré.

Avant, après redressement…
Et puis, vous pourrez laisser le programme choisir tout seul les zones à reconnaître. De manière automatique, ReadIris sait quand nous avons à faire à une zone de texte, une zone graphique ou un tableau.
L'analyse d'une page complexe est assez exceptionnelle, et le logiciel reconnaît souvent de manière très correcte le sens de lecture, ce qui est pourtant loin d'être évident.
L'original (L'Hebdo)
L'analyse faite par ReadIris
Reconnaissance et export dans Word. Magnifique non?
On continue avec un nouvel exemple, toujours tiré de l'Hebdo.
L'original…
La sortie finale dans Word. Il y a juste le dernier bloc de texte à glisser légèrement…
Néanmoins, je préfère parfois choisir de sélectionner les zones de manière manuelle. Il suffit pour ce faire de tirer des rectangles sur la zone scannée présentée à l'écran.
Chaque zone peut être affublée de l'attribut texte, tableau, graphique, voire même code-barres désormais ou zone de texte manuscrite. Il est possible de changer l'ordre des zones à reconnaître à tout moment (voir ci-dessus).
De plus, il est possible de créer des zones irrégulières en faisant simplement se chevaucher deux zones!
Pour faciliter notre travail, différents zooms sont possibles, et une loupe permet de se rendre compte de la qualité de la reconnaissance. C'est bien réalisé et agréable.
C'est aussi beau que dans Aperture!
Il est encore possible, en cas de document difficile, d'indiquer à ReadIris quel type de caractères composent notre page.
Si vous avez plusieurs documents de même type, composés de la même manière (par exemple un livre dont vous désirez supprimer les hauts et bas de page), vous pouvez sauver votre découpage de zones pour le réutiliser plusieurs fois.
Lorsque nos pages sont numérisées, elles sont stockées et atteignables dans une zone située entre les outils et la fenêtre du document. Un clic sur une vignette affiche la page correspondante.
Une option supplémentaire est disponible: reconnaissance à partir d'un appareil de photo. Le logiciel pourra corriger un manque de netteté dans certaines zones du document, si votre appareil n'était pas bien à niveau par rapport au document ou se satisfaire d'une résolution plus basse.
Ok, c'est faux, l'Epson n'est pas une caméra numérique, c'est juste pour montrer…
Les langues, et elles sont nombreuses!
ReadIris 11 reconnaît toutes les langues européennes (y compris d'Europe Centrale et Baltique, ainsi que le grec et les langues cyrilliques), ainsi que les langues américaines. Vous en voulez plus? Des options existent: les langues asiatiques (chinois simplifié, chinois traditionnel, japonais et coréen) ainsi que l'hébreu.
En ce qui nous concerne, le français est parfaitement reconnu avec ses accents et cédilles si particuliers. Il n'y a vraiment aucun problème.
Plus même, ReadIris peut reconnaître du texte en plusieurs langues. Au cas où vous feriez une reconnaissance de texte contenant par exemple du français et de l'anglais, il vaudrait mieux choisir la langue française comme langue de reconnaissance, justement pour que les accents ne posent pas de problème particulier au logiciel. Les mots anglais seront reconnus sans problème. ReadIris passe d'une langue à l'autre automatiquement.
Le panneau des langues: 120 sont disponibles hors option, plus une, la police numérique si vous savez ne devoir reprendre que des chiffres dans un tableau, afin d'éviter les erreurs.
Un apprentissage interactif si jamais…
Imaginez que vous ayez un document important, comportant de très nombreuses pages à reconnaître. Imaginons toujours que le "l" (lettre L en minuscule) soit toujours reconnu comme un "1" (un). Et que le "e" soit reconnu comme un "c". Dans tout le document…
L'horreur!
Et bien, avec ReadIris, aucun problème puisque vous pouvez demander un apprentissage interactif des caractères.
Vous pourrez sauver cet apprentissage dans un dictionnaire spécifique que vous rappellerez chaque fois que vous avez un document de même type à reconnaître.
Et les résultats?
Les résultats? Ils sont très bon, vraiment. Prenons quelques exemples:
Reconnaissance d'une circulaire sortie d'une imprimante laser: incroyable! Moins de trois secondes après avoir lancé la reconnaissance (hors temps de numérisation), tout est repris de manière pratiquement parfaite, y compris les styles et l'alignement des paragraphes. Il n'y a aucune erreur la plupart du temps. Parfois, une espace en trop ou en pas assez.
Reconnaissance de la même page passée dans un fax, pour voir ce que le logiciel est capable de faire avec de mauvais documents: et bien il fait pratiquement aussi bien! Il y a un" i" qui est deux fois pris pour un "t". Un petit passage par Antidote, ProLexis, ou même le correcteur intégré à Word nous indique immédiatement ces erreurs. Ici, ReadIris change trop souvent de polices, mais là également, il s'agit de sélectionner le texte et de lui donner une police pour que tout soit résolu.
Reconnaissance d'un texte sorti d'un quotidien (24H) donc sur papier journal de piètre qualité.
À gauche, la page originale, à droite, la même, reconnue dans Word (sans garder la mise en page)
ReadIris a oublié une espace, et fait quelques changements de taille de caractères intempestifs. Il a eu un peu de peine à reconnaître les "20 000 lieues", remplaçant "20 000" par "20 () () ()". Un S a été remplacé par un $. Le chevron du départ (à gauche de Hollywood) n'est pas reconnu non plus, ce qui est tout de même normal.
Et il faut voir que le journal était bien plus grand que mon scanner, que le texte de départ était penché, et c'est ReadIris qui a tout redressé avec ces petits doigts!
Une page d'un hebdomadaire, l'Hebdo, sur papier glacé.
Les deux exemples tirés de l'Hebdo, montrés plus haut, donnent des résultats étonnants. Comme pratiquement tout ce qui est imprimé sur ce type de revues d'ailleurs.
Dans certains cas, j'ai délibérément choisi de laisser tomber certaines zones. Il peut en effet arriver que ReadIris prenne en effet la découpe de la page pour des zones graphiques, autant ne pas le perturber avec ça.
Il m'a suffi de cliquer dans l'ordre sur les zones que je voulais reconnaître (en utilisant ce que ReadIris avait fait comme découpage).
Là encore, le résultat est excellent. Quelques mots mal séparés, vite repérés grâce à nos outils de correction, aucune faute d'orthographe.
Enfin, si le texte est écrit sur des encadrés colorés, la reconnaissance est tout aussi bonne.
Les tableaux
J'ai testé ReadIris sur toutes sortes de tableaux. Là encore, pour autant qu'on lui ait spécifié qu'il s'agissait d'une zone de tableau, les résultats sont très bons. Mieux même, puisque c'est même le cas très souvent sans rien dire au logiciel, depuis cette version 11.
Les cellules sont divisées en deux en largeur, et il y a
une espace à rajouter dans le titre.
Sinon, c'est assez grandiose vous ne trouvez pas?
Les tableaux les plus compliqués sont repris de manière presque parfaite. Les cellules fusionnées dans l'original sont rendues de même manière en sortie. Par contre, il faut parfois lier certaines cellules entre elles. En effet, ReadIris prend de temps en temps chaque retour de ligne pour une nouvelle cellule. Pour le reste, c'est tout bon.
La reconnaissance de fichiers PDF
Reconnaître des fichiers imprimés, c'est bien, mais à notre époque, pouvoir reprendre de la même manière un fichier PDF, c'est mieux!
Et c'est ce que sait très bien faire ReadIris Pro 11.
J'ai par exemple donné au programme le manuel du parfait petit citoyen devant remplir sa déclaration d'impôts.
Voyez plutôt!
Mais bon, la reconnaissance d'un PDF pour obtenir un PDF n'étant pas très utile (quoique, voir plus bas), voyons ce que cela donne au niveau résultat RTF dans Word.
Je constate que si la page 2 par exemple est excellente au premier abord, il va être difficile de l'éditer puisque les blocs créés ne correspondent pas forcément au texte de départ (tableau en particulier).
J'ai donc simplement préféré tracer mes zones, en indiquant à ReadIris où étaient les tableaux. Ce travail est effectué en quelques secondes!
C'est nettement mieux n'est-ce pas? Même si j'aurais
préféré que ReadIris ne crée
pas une cellule surnuméraire dans certains cas.
Il est dommage que dans certains cas, certaines illustrations qui devraient être comprises comme telles par le programme soient vues en fait comme du texte. Il vaudra ici également mieux tracer ses zones à la main, en cas de document un peu complexe.
Dans tous les cas, sur un MacBook Pro, alors que le programme n'est pas encore optimisé à l'heure où j'écris ces lignes pour Macintel, comptez 10 secondes par page A4 pour le chargement et l'analyse, puis 4 secondes pour la reconnaissance.
Reconnaissance de documents manuscrits?
Lors du traçage des zones, une petite option est venue me titiller:

Regardez la deuxième ligne…
Le programme serait-il capable de reconnaître mon écriture délicieuse?
Je fais très vite un petit essai en écriture liée (style instituteur, un peu bébé) et le résultat est proche du néant.
Je vois ensuite dans l'aide que l'écriture manuscrite liée n'est pas reconnue par le logiciel, mais qu'il faut séparer les lettres. Seuls les chiffres et les lettres majuscules (sans accent) sont supportées, et ce grâce à la technologie embarquée ICR qui signifie “Intelligent Character Recognition”.
Voyons ce que ça donne…
Oui bon, bôf… ReadIris propose une grille de base pour être
sûr d'écrire
droit et avec un espacement régulier.
Le programme reconnaît par contre certaines polices de type "script". Pas toutes dirons-nous, voyez plutôt cet exemple en Lucinda Handwriting:

D'autres polices passent mieux, mais bon, ce n'est tout de même pas la tasse de thé de ReadIris, ces polices spéciales.
Généralités
La reconnaissance, comme vous venez de le voir, est très bonne, hors polices spéciales. Il faut noter que l'italique est bien luégalement alors que cette déclinaison d'une police a été longtemps une source d'énormes problèmes pour les OCR.
Parfois, il vaudra mieux demander de ne pas reconstituer le document original au niveau de la mise en page. En effet, ReadIris s'en sort bien, mais c'est dans Word que les problèmes se posent. La plupart du temps, la reconnaissance des styles est largement suffisante et facilite l'édition après coup, en évitant les blocs de texte pas toujours faciles à gérer.
L'export
Comme je l'ai écrit plus haut, une reconnaissance peut donner un document texte, RTF, mais aussi PDF et HTML.
En effet, ReadIris sait lire les formats PDF, mais également en créer, avec signets s'il vous plaît. Pour ce faire, il se base à la fois sur les images et sur les titres des paragraphes, à ce que j'ai pu constater.
J'ai même pu prendre un manuel au format PDF qui ne disposait pas de signets, le faire reconnaître par ReadIris, et lui demander de ressortir le même fichier mais avec les signets cette fois. Rigolo… Même si parfois les signets sont un peu aléatoires il me semble.
Au niveau HTML, nous obtenons des fichiers parfaitement lisibles par Safari (ici, une page du catalogue de l'Université Populaire de Lausanne) même s'il m'est arrivé parfois d'avoir une page blanche comme résultat, je ne sais pas pourquoi. On redemande l'export et tout rentre dans l'ordre.
Une page d'un recueil d'activités parfaitement reconnue, mise en page comprise. Juste un "il" qui devient un "II"
En conclusion
Vous avez compris que ReadIris Pro 11 est un excellent logiciel de reconnaissance de caractères. Le meilleur je pense à l'heure actuelle, ce qui au passage n'est pas trop difficile, vu que la concurrence est pratiquement inexistante. Tant pis, celui-là va très bien.
De plus, ReadIris est souvent mis à jour (preuve en est, la version 11.05 disponible relativement peu de temps après la sortie de la 11.0).
Si ce programme n'est pas encore Universal Binary au moment où j'écris ces lignes, il est à noter qu'il tourne à merveille sous Rosetta, et que vous pouvez par conséquent parfaitement l'utiliser sur Macintel, qu'on se le dise!
Vous l'avez compris, mon choix est fait. S'il faut vous en conseiller un, c'est ReadIris 11, c'est clair, même si le prix de 499 $ peut faire réfléchir celui qui n'a pas forcément besoin de ce logiciel, et d'ailleurs même celui qui en ferait un grand usage.
Cela dit, il vous évitera peut-être des dizaines d'heures de saisie, et ça voyez-vous, ça a un prix aussi et la chose devrait être assez vite rentabilisée.









