Définition de l’OCR

Qu’est ce que : Définition de l’OCR

L’OCR ou Reconnaissance Optique de Caractères, traduit en anglais, est une technologie qui vise à émuler l’œil humain, cette technologie tente de réaliser une reconnaissance pixel par pixel des caractères et du type de police (typographie) avec lequel un document est réalisé. Nous parlons d’un scanner ordinaire et d’un logiciel assez puissant. Par logiciel puissant, nous entendons une base de données large et étendue permettant de reconnaître les différentes lettres et les polices correspondantes.Outre le logiciel, le scanner est important. Un scanner très sensible lira mieux les pixels du document, car cette sensibilité signifie que le logiciel risque moins de faire des erreurs. Il est assez difficile pour le logiciel de ne pas faire d’erreurs. Vous placez n’importe quel document dans le scanner et il en ressort au format Word ou au format que le logiciel vous permet de choisir. Après cela, le document doit être corrigé. Une fois corrigés, nous pouvons les mettre au format pdf pour les partager ou les archiver. L’une des grandes utilisations de l’OCR est la numérisation de livres. Par exemple, la collection de la bibliothèque nationale. Ainsi que les fameux e.books qui peuvent être lus partout sur les tablettes et e-readers ipad et android.

Un exemple de la façon dont un livre est numérisé.
La technologie OCR a une limite. Il ne convient pas aux textes anciens ou aux textes qui ont subi une détérioration physique pour une raison quelconque. Cette détérioration est très courante lorsqu’il s’agit de documents historiques qui peuvent avoir plus de mille ans. Ces types de documents, qui ont été endommagés au fil des ans, sont tout à fait méconnaissables pour la technologie OCR en question. Ces documents sont souvent archivés avec des scans haute résolution au format photographique afin que le public puisse admirer tous les détails d’un document sans qu’il ne se détériore.
La résolution de l’OCR indique la quantité de détails détectés par le système lui-même. Pour un texte clair et net, il est normal d’utiliser 300 ppp (points par pouce). Ce paramètre est défini à partir du scanner. Un pouce étant égal à 25 400 millimètres, 300 pixels pour une si petite surface sont suffisants. Dans le cas des journaux et autres publications similaires, où les caractères sont petits et le papier est toujours un peu abîmé, la résolution optimale est de 600 ppp. Si nous scannons à cette dernière résolution, il est préférable d’avoir un bon scanner, car il est très difficile pour un scanner ordinaire de terminer l’action à cette résolution.
L’évolution de l’OCR nécessite une amélioration de ce système. Cette amélioration est déjà en cours dans un projet appelé IMPACT. Ce projet vise à partager des informations entre plusieurs institutions publiques et quelques entreprises afin de développer un logiciel OCR qui réponde à toutes les exigences de la numérisation de masse.