L'OCR avec xsane

Une solution de reconnaissance optique de caractères avec xsane.

Je cherchais à faire de la reconnaissance optique de caractères, je suis tombé sur cette page de la documentation d’Ubuntu. Cette solution m’a donné satisfaction, je la partage avec vous.

Prérequis

  • tesseract avec les modules de langue dont on a besoin, pour le français ce sera le paquet tesseract-langpack-fra
  • xsane
  • imagemagick

Installation et configuration

Télécharger le script xsane2tess et lui ajouter les droits d’exécution :

wget http://firdaustux.tuxfamily.org/download/xsane2tess
chmod +x xsane2tess

Copier ce script dan /usr/bin

su -c "cp xsane2tess /usr/bin"

Lancer xsane.

Ouvrir le menu: Préférences → Configuration → Onglet « OCR », dans la zone de texte « Commande OCR » supprimer ce qui existe et remplacer par:

xsane2tess -l fra

ici l’option -l fra indique qu’on veut utiliser le français comme langue.

xsane2tss.jpg

Utilisation

Lancer xsane et effectuer les réglages de numérisation, voici les miens :

  • Numérisation en niveaus de gris
  • Type de ficher de sotie : TIFF
  • Résolution : 300 dpi

Lancer xsane, démarrer l’aperçu du document et sélectionner la zone à numériser, Une fois que la numérisation est effectuée il ne reste plus qu’à lancer le reconnaissance de caractères.

Ajouter un commentaire

Le code HTML est affiché comme du texte et les adresses web sont automatiquement transformées.

La discussion continue ailleurs

URL de rétrolien : http://firdaustux.tuxfamily.org/index.php?trackback/18

Fil des commentaires de ce billet