Sites et programmes gratuits pour extraire du texte d'un document numérisé et convertir des images, en fichiers Word modifiables
OCR est Optical Character Recognition en anglais une technologie qui vous permet de convertir des images et des PDF contenant du texte et de l'écriture en documents modifiables avec des programmes de texte normaux tels que Microsoft Word. Sans entrer dans les détails techniques, Ce type de logiciel est nécessaire lorsque nous utilisons le scanner , car souvent des images seront générées au lieu d'un document prêt à l'emploi ;Grâce à l'OCR nous pouvons reconnaître les textes écrits sur une image JPEG ou dans d'autres formats graphiques et ainsi obtenir un texte lisible, pour le sauvegardé ultérieurement au format de document numérique (PDF ou Word).
Dans cet article, nous voyons quels sont les meilleurs programmes et sites Web pour convertir un document PDF numérique a un fichier modifiable (avec Microsoft Word ou des programmes similaires).
Programmes et sites pour l'OCR
Tous les programmes et sites que nous allons vous montrer présenter la conversion OCR gratuitement: nous n'aurons donc rien à payer , il suffit de choisir l'outil qui correspond à nos besoins
Programmes de conversion OCR
PDF23 Creator
Le premier programme que nous vous recommandons pour convertir des fichiers PDF en texte modifiable est PDF23 Creator, téléchargeable sur le site officiel .
Avec cette puissante suite PDF, nous pouvons convertir des documents texte en PDF modifiables en quelques étapes simples. Pour utiliser ce programme, nous ouvrons l'application PDF24, appuyer sur le menu Reconnaître le texte , Ajouter un fichier en haut et enfin sur Démarrer en haut pour démarrer la reconnaissance des caractères numérisés. A la fin de la conversion, cliquez sur Enregistrer le fichier en haut pour enregistrer les nouveaux fichiers PDF avec le texte numérisé.
Microsoft OneNote
Un autre programme valide que nous pouvons utiliser sur notre PC pour convertir les feuilles en PDF via OCR est le programme Microsoft OneNote , disponible en téléchargement gratuit sur le Microsoft Store .
Pour extraire le texte des images, nous ajoutons d'abord l'image à l'une des notes du programme, en cliquant sur Insérer en haut sur le menu Images . Après avoir ajouté l'image à la page de notes, cliquez dessus avec le bouton droit de la souris et utilisez l' élément Copier le texte de l'image pour démarrer l'OCR inclus dans le programme; oui l'image contient plus de pages à importer, nous pouvons également utiliser copier le texte de toutes les pages sélectionnées pour l'impression , de manière à obtenir tout le texte en OCR.
Cognitive OpenOCR (Cuneiform)
Oui nous recherchons un programme gratuit et open source pour l'utilisation de l'OCR, nous vous recommandons d'essayer Cognitive OpenOCR (Cuneiform) , disponible sur le site officiel .
Cognitive OpenOCR (Cuneiform) est un programme open source qui vous permet de faire une reconnaissance optique de caractères (OCR), puis de transformer des images en documents texte qui peuvent être édités avec Word ou d'autres programmes. Cunéiforme prend en charge 23 langues et dispose d'algorithmes spéciaux pour reconnaître le texte des imprimantes, des télécopies . Il reconnaît automatiquement les blocs de texte, tableaux et images sans difficulté et préserve parfaitement la mise en page.
Pour l'utilisation, cliquez simplement sur l'assistant de reconnaissance et suivez les étapes du guides pour importer une image et convertir rapidement en fichier texte numérique.
lire aussi: comment fusionner des PDF sans logiciel?
Sites Web de conversion OCR
Google Docs :
Oui nous souhaitons utiliser un site pour convertir des fichiers PDF en texte modifiable, nous pouvons nous fier à Google Docs , la suite bureautique gratuite proposée par Google et accessible sur le site officiel .
Pour profiter de cette option, allons d'abord sur Google Drive , appuyez sur l'engrenage en haut à droite, téléchargez le menu Paramètres et, dans la fenêtre qui apparaîtra, activez le Convertir les fichiers téléchargés au format de l ' éditeur Google Docs .
Il ne vous reste plus qu'à télécharger n'importe quel document PDF ou image sur Google Docs pour pouvoir le modifier avec les outils proposés par le site, avec la conversion OCR qui se fera automatiquement.
onlineocr.net:
Un autre service Web valable pour la conversion de feuilles avec OCR est onlineocr.net , accessible depuis le site officiel .
Pour utiliser ce service, chargez les fichiers image en cliquant sur sélectionner le fichier , sélectionnez la langue du texte, choisissez le format du fichier image final (Word ou Excel) et enfin appuyez sur le bouton Convertir , pour télécharger les documents texte éditables construit à partir de l'OCR des images téléchargées.
Convertio:
Un autre service Web que nous vous recommandons d'utiliser pour convertir des fichiers PDF en textes modifiables est Convertio , accessible depuis le site officiel .
En utilisant ce service, nous aurons la possibilité de convertir 10 pages gratuitement, tout ce que nous avons à faire est d'appuyer sur le bouton Choisir un fichier (mais nous pouvons également accéder aux fichiers image depuis le cloud), d'attendre la reconnaissance de texte et enfin de démarrer le téléchargement du document, qu'il peut être enregistré dans Word, PDF ou d'autres formats de texte connu.
Autres sites et programmes pour l'OCR
Bien que les sites et programmes vus ci-dessus soient capables de convertir des fichiers PDF en textes modifiables , nous pouvons toujours trouver de nouveaux outils, outils et sites OCR sur Internet. Yes nous recherchons des alternatives valides, jetons un œil aux informations ci-dessous:
SimpleOCR est un programme simple et basique capable de restituer le texte écrit sur papier et numéroté sur un éditeur informatique, avec reconnaissance optique de caractères. Avec SimpleOCR, il est possible de convertir n'importe quel document papier en texte électronique modifiable à utiliser également avec Word.
Easy Screen OCR est un programme gratuit pour Windows 10 et Windows 7 qui vous permet d'extraire et de capturer du texte à partir de n'importe quelle image ou capture d'écran. L'outil Easy Screen OCR (Optical Character Recognition) est capable de capturer et de convertir des captures d'écran en texte. Il peut extraire du texte d'une image, d'une vidéo, d'un site Web, de documents. Propulsé par Google OCR, qui garantit une haute précision de reconnaissance, ce programme gratuit prend en charge plus de 100 langues.
Boxoft Free OCR Converter est un autre excellent programme gratuit qui vous permet d'extraire du texte de toutes sortes d'images (y compris celles de feuilles numérisées), dans plusieurs langues, notamment l'anglais, le français, l'allemand, l'italien, le néerlandais, l'espagnol, le portugais et plus encore. En plus des images, il peut également numériser des documents et les convertir en texte modifiable.
NewOCR propose actuellement uniquement d'extraire du texte à partir de fichiers d'images et de photos, mais il prend en charge certaines autres fonctionnalités que de nombreux sites OCR en ligne n'offrent pas, telles que la définition de plusieurs langues de reconnaissance, ce qui est également utile pour obtenir une traduction correcte du texte. vous pouvez également la faire pivoter les images dynamiquement.
OCR.space est certainement l'une des options les plus robustes que nous ayons trouvées, l'un des meilleurs outils OCR qui prend également en charge le format de fichier WEBP en plus des PNG, JPG et PDF. De plus, vous n'avez pas besoin de télécharger un fichier, vous pouvez utiliser l'URL d'une image en ligne. Les autres fonctionnalités sont la rotation automatique, la numérisation , la reconnaissance de table et le redimensionnement automatique. Le texte extrait peut également être enregistré dans un PDF ou sous forme de fichier JSON.
Fine Reader Online est un site Web permettant de convertir une image en fichier texte ou un fichier PDF en Word, toujours modifiable. Pour utiliser le site, vous devez vous inscrire, la conversion de fichiers dans n'importe quelle langue, est reconnue.
OCR TO Word est un programme simple et puissant capable de convertir le texte d'un PDF ou d'un document numéroté avec un scanner. Le texte extrait peut ensuite être modifié dans Word.
Capture2Text est un programme qui peut copier du texte à partir d'images avec facilité et une interface très simple à utiliser
lire aussi: Comment convertir un fichier PDF en fichier EPUB?
Conclusions
Les performances de ces programmes dépendent beaucoup de la qualité de l'image que l'on souhaite reconnaître et de la sensibilité du scanner utilisé: on passe de textes reproduits de manière identique à des cas où même pas un mot n'est reconnu. Tous les programmes et sites Web fonctionnent très bien, la puissance de l'OCR dépend beaucoup de la qualité de l'image fournie à ces outils avancés.
COMMENTS