Profitez des offres Memoirevive.ch!
OmniPage Pro X, la reconnaissance de caractères de précision diabolique sur MacOS X, enfin!
OmniPage Professional X, encore meilleur

Depuis toujours, Omnipage, de la société Scansoft (à l'époque, le logiciel appartenait à Caere), est l'un des meilleurs programmes d’OCR sur le marché. Pour rester à la pointe de la reconnaissance optique de caractères, il ne faut pas s’endormir sur ses lauriers. La preuve, TextBridge Pro, du même éditeur(!) a même fini par être meilleur que la référence, sur certains documents.

Laissé à l'abandon semblait-il, nous retrouvons OmniPage en version Pro X, valable pour l'OS du même nom, mais aussi pour MacOS 9. Regrettons que l'éditeur, s'il joue sur l'appellation 10 pour profiter de montrer que le programme est conçu pour le nouveau système, n'en ait pas profité pour unifier les numéros de version avec OmniPage pour Windows, qui en est déjà à la onzième mouture. On a un peu l'impression d'être en retard, alors qu'en fait il n'en est rien.

Un peu d'histoire

Aaah, OmniPage! C'est grâce à ce logiciel que je me suis acheté un Mac. Le jour où je l'ai vu fonctionner (ce devait être en 1991, en version 3), j'ai été tellement étonné que j'en suis devenu vert de jalousie. J'ai cherché sur mon excellente machine de l'époque (un Atari) un logiciel équivalent. Plusieurs compagnies étaient sur les rangs, mais à des années-lumière d'OmniPage. On ne pouvait travailler qu'avec une police par document qu'il fallait apprendre au logiciel, ce dernier s'emmêlait dans les lignes, bref, c'était l'horreur. Mais ça marchait! Et pendant ce temps, OmniPage qui était multi-polices, et ne faisait que 2 à 5% d'erreurs, juste pour me narguer!

Pourquoi une telle différence entre les programmes de l'époque? Tout simplement parce que pendant que la concurrence cherchait à connaître le plus de formes de lettres par rapport à une base de données interne par défaut toujours bien trop lacunaire, Caere est parti sur la notion de vecteurs. Un C a toujours le même "élan" que la police soit en Helvetica ou en Courier. Ajoutez à cela toutes les nouvelles technologies un peu obscures énumérées dans le manuel, un travail acharné de programmeurs géniaux, et vous avez un programme capable de relire une page de journal bien dense et de la recopier dans le traitement de texte de votre choix en moins de 10 secondes (sur un G4 quand même, et sous MacOS 9!). Vous pourrez ainsi éditer le texte obtenu. Un exemple parmi tant d'autres de l'utilité de ce processus: les enseignants pourront simplifier un texte un peu trop compliqué pour leurs jeunes élèves.

C'est tout simplement ça l'OCR (Optical Character Recognition), la ROC en français, pour Reconnaissance Optique de Caractères.

Et s'il fallait donner un synonyme l'OCR, nous dirions immédiatement "OmniPage", même si, comme je l'ai écrit plus haut, TextBridge n'est pas mal non plus.

Une installation sans problème et du semi-natif pour certains scanners

Attention! Depuis Jaguar, l'installation doit se faire après avoir démarré une session en root! Sans quoi vous n'avez pas l'autorisation de pratiquer… Notez que sous Panther, le problème reste le même. Honte à ScanSoft de n'avoir toujours pas mis à jour son programme…

J'ai personnellement installé OmniPage Pro X depuis le système du même nom, à l'aide de l'installeur téléchargé sur le site de ScanSoft. Ce dernier pèse 70 Mb, mais permet une installation en français et en anglais. Le programme peut être lancé aussi bien depuis MacOS 9 que Mac OS X. Jusqu'à début septembre 2002, la numérisation passait de toute façon par TWAIN sous Classic, puisque cet utilitaire n'existait pas encore pour le nouveau système. Cela ne posait pas trop de problème, mis à part le temps perdu lors de la première numérisation. Epson nous promettait des drivers pour MacOS X en janvier 2002, mais les premières versions n'étaient pas reconnues par ce système.

Depuis septembre 2002 donc, bien des choses ont changé. En effet, la version TWAIN 5.75 beta est maintenant reconnue par OmniPage en natif, ce qui évite de démarrer classic. Epson et OmniPage fonctionnent donc parfaitement et entièrement sous MacOS X. Ce n'est pas encore le cas de bien d'autres scanners.

Si justement votre scanner n'est pas reconnu (il semble selon certains utilisateurs que les scanners SCSI soient abandonnés, pour le moins sous MacOS X,ce que je n'ai pas pu le vérifer), si même vous n'arrivez pas à lancer la numérisation avec OmniPage via Classic, vous pouvez toujours charger des fichiers sauvegardés sur le disque au format TIFF mais également, et c'est nouveau, au format PDF.

Une interface encore plus confortable

L’interface générale a peu changé dans cette version par rapport à la version 8, mais pour ceux qui ne connaissent pas le logiciel, faisons un petit tour du propriétaire, sous MacOS X, pour apprécier l'utilisation bien faite d'Aqua:

image

Une vue générale d'OmniPage.

  • à gauche, une palette permet de visionner les pages scannées en attente d’être reconnues. Changer leur ordre de reconnaissance se fait par simple glisser-déposer.
  • au centre, la fenêtre dédiée au découpage de zones
  • à droite, le texte reconnu.

Il est toujours possible de lancer le processus complet de reconnaissance en cliquant sur un seul bouton intitulé "1-2-3" de la barre de commandes.

image

Des petits menus déroulant sous chaque étape de la palette permetten d'effectuer la pluspart des réglages.Un assistant peut même vous aider. Si vous choisissez l'option "tout automatique" le programme va d'abord numériser le document, le découper en zones, puis reconnaître le texte pour le taper dans le traitement de texte incorporé.

Les emplacements des zones et leur ordre de reconnaissance sont bien mieux respectés que dans les versions précédentes (la version 8 n'étant déjà pas mauvaise dans le domaine). En effet, OmniPage semble encore plus "intelligent" dans la reconnaissance de l’enchaînement d’un texte, même s’il se trompe encore parfois. L'ordre de reconnaissance de notre page de l'Hebdo (hebdommadaire romand) a été parfaitement respecté.

Dans le cas de pages encore plus complexes, nous préférons néanmoins séparer cette reconnaissance automatique en trois étapes: numérisation, découpage manuel des zones à reconnaître, puis reconnaissance. Pour être honnête, précisons que parfois, le lecteur humain se trompe aussi dans le chemin d’un article un peu compliqué. C'est son intelligence qui permet de tenir compte du contexte pour corriger son erreur. L’ordinateur n’en est pas encore là, raison pour laquelle le découpage manuel des zones est encore parfois nécessaire.

Et là, OmniPage nous offre depuis la version 8 des outils qui semblent après coup tellement indispensables que l'on se demande encore comment on a pu s'en passer avant: les zones à reconnaître ne sont plus forcément des rectangles, mais peuvent suivre les frontières d’un objet habillé. Elles peuvent être redimensionnées ou encore fusionnées. Une gomme est apparue, qui permet d’effacer les scories non désirées, depuis toujours cause d’erreurs de reconnaissance. Il suffisait d'y penser!

image

Palettes: les palettes flottantes sont simples et puissantes.
Notez les outils "gomme" et "délimitation de zones non régulières"

Un bloc peut maintenant être inversé, de manière à reconnaître du texte blanc sur fond coloré. Pour gérer tous ces outils, deux palettes flottantes dédiées à la gestion de zones sont apparues et permettent de définir de manière rapide et confortable ce qui sera ou ne sera pas reconnu. Du très beau travail, surtout en vue du résultat final: les résultats sont meilleurs puisque la reconnaissance n’est pas parasitée. Notons également la possibilité de reconnaître avec tous les scanners un texte sur fond coloré.

Une fonction de redressement automatique de l’image efficace est également intégrée, et si la feuille est posée à l'envers sur le scanner, OmniPage s'en rend compte et retourne tout seul le résultat numérisé.

Une rapidité impressionnante sous MacOS 9, un peu moins sous X

La vitesse de reconnaissance pure (hors numérisation) dépend du système utilisé. Sous MacOS 9, notre logiciel a eu besoin, sur un G4 867, de 6 secondes pour reconnaître notre page de test. Sous MacOS X (v.10.1.2), le même travail a pris 22 secondes, ce qui est tout de même presque 4 fois plus lent. Même si cela n'est pas trop grave, nous nous trouvons certainement une nouvelle fois confronté au multitache préemptif, qui refuse de donner toute la puissance à un programme, même si rien d'autre ne tourne.

La version 8 d'Omnipage avait mis le même temps sous MacOS 9 pour reconnaître une page équivalente (6 secondes donc), mais avec un G3 à 250Mhz. Peu de progrès ont donc été réalisés depuis, mais peut-on vraiment faire mieux?

Une qualité de reconnaissance… parfaite sur de bons documents, de bonne qualité sur ceux qui le sont moins

Pour la première fois depuis que nous testons OmniPage, la reconnaissance de notre page contentna 3'947 caractères n'a donné lieu à… aucune erreur! Oui, vous avez bien lu, OmniPage n'a fait aucune faute. Tout au plus a-t-il rajouté un nombre un peu bizarre en tête d'article, et a séparé 3 mots qui n'auraient pas dû l'être. Extraordinaire je vous dis. Quels progrès par rapport aux versions précédentes! L'italique, déjà nettement mieux reconnue dans la version 8 ne pose plus du tout de problème, pas plus que les guillemets qui restaient jusqu'alors un petit point faible.

Parfois, les fautes sont inévitables, et il est à noter que même si le dictionnaire n'a pas trouvé à chaque fois les corrections adéquates, les erreurs nous ont été signalées, ce qui est le principal. Nous pouvons ajouter que si nous avions dû retaper cet article, nous aurions également fait des erreurs, et peut-être plus que 4. Et cela nous aurait certainement pris plus de 6 secondes!

Les fax en mode supérieur donnent un résultat sans aucune faute sur une lettre A4. 3 fautes sont apparues en mode normal, ce qui est tout bonnement remarquable, surtout lorsqu'on compare aux résultats de la version 8 qui étaient dans ce cas catastrophiques.

Le texte sortant d’une imprimante laser ou jet d'encre est impeccable, comme celui d’un roman ou d’un ouvrage de référence. Dans ce cas, il sera possible d’apprendre au logiciel des caractères qui seraient mal reconnus. C'était déjà le cas dans la version 8.

Les tableaux sont reproduits fidèlement, et restent faciles à éditer. J'ai même utilisé un tableau sur fond coloré, sortant d'une imprimante à jet d'encre. Il a fallu reprendre quelques mots, mais le temps gagné est considérable.

Fort en communication

OmniPage X permet d'exporter dans de très nombreux formats parmi lesquels on retrouve le PDF, Office 98, 2001 et v.X

image

Les formats d'exportation. Pas mal non?

Quel que soit votre choix, il est possible d'obtenir du texte au kilomètre, ou de demander au programme de reconnaître les différentes polices et leurs déclinaisons (gras, italique) dans le document original et de les reproduire dans le texte retapé. On peut maintenant créer également ses propres réglages de sortie sous forme de feuilles de style, ce qui permettra d’obtenir un résultat homogène. Enfin, l’option True Page permettra à l’utilisateur de se retrouver au final avec la même mise en page que le document original. Un texte ainsi sauvegardé au format Office v.X se verra mis en page dans ce programme, à l'aide de différents blocs de texte. Cela marche fort bien, mais je préfère une sortie standard et refaire moi-même ma mise en page.

image

L'article de base (voir première figure) remis en page dans Word, automatiquement.

En conclusion

OmniPage 8 restait tributaire de la qualité du document à traiter alors qu'OmniPage Pro X l'est beaucoup moins. La reconnaissance est maintenant très proche de la perfection dans la plupart des cas, la touche même si le texte à reconnaître est bon.

Ecrivons-le tout net: OmniPage X est grandiose, plus que jamais.

Et surtout, il rend service mieux qu'aucun autre.

Sûr que si vous aviez copié le texte qu'il doit reconnaître, vous auriez fait plus de fautes que lui, et vous auriez mis… bien plus longtemps, même sous MacOS X…

13 commentaires
1)
jverelst
, le 05.09.2002 à 00:00

c’est vrai qu’il marche bien …
à propos toujours pas de pilotes X pour un canon 660 U ? c’est de l’arnaque … y a pas un an que j’ai le mien !

2)
ptkj1875
, le 06.09.2002 à 00:00

Bonjour.
J’ai téléchargé le fameux driver. Où le place-t-on ? Merci de me renseigner.

3)
cuk
, le 06.09.2002 à 00:00

ptkj1875, on double clique dessus et il s’installe tout seul!

4)
ptkj1875
, le 07.09.2002 à 00:00

Non, cela refuse de s’installer quand je clique sur le EPSON TWAIN5.pkg
Pourriez-vous m’aider ?

5)
giampaolo
, le 07.09.2002 à 00:00

chez moi l’installation est faite, le scanner est vu mais à chaque fois que je clique sur un bouton dans Omnipage, il me dit qu’il ne trouve pas le document zzz (comme s’il croyait que je voulais scanner un fichier .tif). Pourtant le bouton 1 indique que je veux scanner en noir/blanc avec le scanner.

et je dois à chaque redémarrage du logiciel lui indiquer que le texte est en français, A4 etc
Ach l’informatik!

6)
giampaolo
, le 07.09.2002 à 00:00

Etonnant. lorsque j’utilise Omnipage X en root… tout marche mais pas en tant qu’utilisateur identifié. un problème d’autorisation certes mais j’ai tout essayé et rien ne change.
je ne peux d’ailleurs pas installer Omnipage en tant qu’utilisateur, je dois être en root.
Y a-t-il une explication connue?
merci

7)
ptkj1875
, le 08.09.2002 à 00:00

Comment installez-vous le driver ? J’ai sur mon bureau le EPSON TWAIN5.pkg mais quand je clique dessus rien ne se passe… Qui peut m’aider ??

8)
dom22
, le 17.09.2002 à 00:00

J’utilise depuis peu Jaguar et l’installation d’omnipage pro X n’arrive pas jusqu’au bout. J’obtiens toujours une erreur "acces refusé" sur le disque.
De quoi s’agit il? Y a t il une astuce ?
Merci

9)
Laurentis
, le 09.12.2002 à 17:57

Petite question toute bête …

Est-il possible de scanner un tableau papier avec des données et avec Omnipage de l’enregistrer pour une utilisation dans Excel ?

Merci

10)
François Cuneo
, le 09.12.2002 à 20:53

Normalement oui, mais je ne garantis pas le résultat!

11)
THIERRY
, le 18.02.2003 à 16:17

J’essaie d’installer OMNIPAGE X sur jaguar et un message "Accès disque refusé" me bloque. Quelqu’un a une solution ??? Merci

12)
smoot
, le 13.01.2004 à 21:33

Pour installer sur jaguar, passer par une session "root" et ça fonctionne.

13)
François Cuneo
, le 13.01.2004 à 21:54

Merci Smoot, mais c'est indiqué dans le test, et en rouge gras même!:-)