Fonctionnalité #18327: OCR sur PDF Image - Backlog RM - Maarch forge - Centre de support

Fonctionnalité #18327

OCR sur PDF Image

Ajouté par Cyril VAZQUEZ il y a presque 3 ans. Mis à jour il y a environ 2 ans.

Statut:

Rejeté

Priorité:

3-Mineur

Assigné à:

Cyril VAZQUEZ

Version cible:

Backlogs Produits - Inscription Backlog

Début:

20/09/2021

Echéance:

Tags RM:

Description

En tant que SA, je veux extraire le texte des documents au format PDF issus de la numérisation afin de les indexer

Détail
La fonction actuellement implémentée permet de brancher des outils d'extraction en fonction du format de ressource, identifiée par la PUID.

L'extraction pour les PDF utilise Apache Tika et fonctionne bien pour les PDF issus de documents bureautique ou formats balisés.

Problème:
Pour les PDF issus de la numérisation sans étape d'OCR: le PDF image seule ne contient pas de texte.
Il n'y a aucun moyen de différencier a priori les PDF+texte et les PDF image seule.

Proposition:
- extraire le texte avec TIKA
- si le texte est vide, extraire par OCR

Processus:
- extraire les images du PDF avec un premier outil (PDFLib)
- passer l'OCR sur les images
- générer un nouveau PDF+texte

Attention à la version du PDF qui nécessitera sans doute des logiciels payants.
Attention à la génération d'un nouveau PDF à partir d'images dont on n'a pas la position initiale !