Gocr

Bonjour,
pourquoi gocr reglint.pbm ne me donne-t-il rien de lisible alors que j’ai scanné en 1200 ?

Salut,

Parce que d’habitude ce sont les pnm ses préférés :slightly_smiling:

[quote=“ggoodluck47”]Salut,

Parce que d’habitude ce sont les pnm ses préférés :slightly_smiling:[/quote]
(PBM, PGM et PPM) = PNM si j’ai bien compris wikipedia
et PBM me semble plus approprié puisque c’est du noir et blanc.

voilà le travail :[code]_______3 0 0? / _m t ___ __ _t t _ __ _l _ /

0 _0 _? _’ _^ _ _ n _ _? _ _ _ n^ _ , -

, ,

. a

" " _; .a
, \

, 00 n-

  '        -      - ,, _-   3 , c '  '' _  0 ,  3                   _       
                        b                      3                         .  .    

_ a

_ ', ‘’?
,

_ ’ .

,n, " , - ’ ‘
’ '" 0 3_ - '
. ’ ’ _ 3 _

_ 3 _ X
_c 0 , "
_ ,
_ ^’ ’

     d  '   d     ^ '

, _ ‘’ ,
’ - , , , , ,
"’
_0 , , ? ,
, ,

, n; ’ ; ,
; _
’ ;
> _ x, , , ,
, , , ‘’
^ ’ ^ _ ,
_ . , , , ,
’ , ’ _ '
. . 3 ,
, , ’ _. - n, '[/code]

GNU Ocrad - Optical Character Recognition program. Reads [size=200]pnm file/size, or standard input, and sends text to
standard output.

http://pwet.fr/man/linux/commandes/gocr

[code]DESCRIPTION

gocr is an optical character recognition program that can be used from the command line. It takes input in PNM, PGM, PBM, PPM, or PCX format, and writes recognized text to stdout. If the pnm file is a single dash, PNM data is read from stdin. If gzip, bzip2 and netpbm-progs are installed and your system supports popen(3) also pnm.gz, pnm.bz2, png, jpg, jpeg, tiff, gif, bmp, ps (only single pages) and eps are supported as input files (not as input stream), where pnm can be replaced by one of ppm, pgm and pbm. [/code]

Mais je ne comprends pas ce que “single dash” veut dire …
mon entrée serait stdin qui contiendrait autre chose ?

Salut,

gocr est donc beaucoup plus tolérant que mon ocrad :blush: mais là je n’en sait pas plus !

Tesseract semble l’ OCR recommandé sous Linux. http://linuxfr.org/2006/10/07/21437.html
Il me semble qu’il préfère les fichiers tiff, (je me souviens seulement que c’est ce que j’utilisai pour scanner )
il préfère aussi que soit améliorée la présentation, par un passage préalable à la moulinette “unpaper”.
Tout cela est gérable sous gnome avec “gscan2pdf” qui présente son texte résultat dans une fenêtre qu’il suffit de copier coller pour les corrections finales.

Mon expérience est très limitée dans ce domaine (entre autres !) ; il me semble que selon les fontes et la qualité du document scanné, les résultats soient très différents !
( Par exemple, les passages en italique sont parfois très mal reconnus )
Il faut aussi éviter les mises en pages autres que très classiques, sur une seule colonne ( découper chaque partie pour une reconnaissance séparée), si on ne veut pas un texte mixé battu comme un jeu de cartes !.

( au moins 600 ou 1200 ppp selon mon souvenir )

Ci dessous mes notes personnelles:

[quote]
RECONNAISSANCE OPTIQUE DE CARACTÈRES

tesseract

Le meilleur des OCR Libre ( HP libéré )
Fichier caractères français
Ligne de commande et (x)sane

USAGE:
( 300 dpi semble correcte en N&B )
Convertir les images en *.tif avec convert image.jpg image.tif ( pas tiff )
tesseract fichier.tif fichier.txt -l fra

gscan2pdf permet aussi de réaliser de la ROC (reconnaissance optique de caractères) en utilisant au choix les moteurs de ROC tesseract ou GOCR

Il permet de lancer d’abord unpaper qui nettoie le fichier scanné, redresse, ajuste les contrastes etc… avant de lancer l’ OCR
tesseract semble ne pas bien reconnaître les caractères italiques ? Sinon il est réputé bien meilleur que GOCR.[/quote]

PS: je crois me souvenir que la version que j’utilisai ( Lenny ) acceptait aussi bien le suffixe .tif que .tiff


En résumé:
aptitude install tesseract-ocr tesseract-ocr-fra gscan2pdf unpaper (utilisé sous woody)

Je peux utiliser aussi bien les fichiers .pbm que .pnm
Je les importe dans ocrfeeder.
Meilleure reconnaissance du .pnm cependant.
Scan => .pbm données en brut (jamais essayé en ascii)

Salut,
sinon y’a free-ocr.com/
Marche pas mal.