Projet

Général

Profil

Fonctionnalité #18327

OCR sur PDF Image

Ajouté par Cyril VAZQUEZ il y a plus de 2 ans. Mis à jour il y a environ 2 ans.

Statut:
Rejeté
Priorité:
3-Mineur
Assigné à:
Version cible:
Backlogs Produits - Inscription Backlog
Début:
20/09/2021
Echéance:
Tags RM:

Description

En tant que SA, je veux extraire le texte des documents au format PDF issus de la numérisation afin de les indexer

Détail
La fonction actuellement implémentée permet de brancher des outils d'extraction en fonction du format de ressource, identifiée par la PUID.

L'extraction pour les PDF utilise Apache Tika et fonctionne bien pour les PDF issus de documents bureautique ou formats balisés.

Problème:
Pour les PDF issus de la numérisation sans étape d'OCR: le PDF image seule ne contient pas de texte.
Il n'y a aucun moyen de différencier a priori les PDF+texte et les PDF image seule.

Proposition:
- extraire le texte avec TIKA
- si le texte est vide, extraire par OCR

Processus:
- extraire les images du PDF avec un premier outil (PDFLib)
- passer l'OCR sur les images
- générer un nouveau PDF+texte

Attention à la version du PDF qui nécessitera sans doute des logiciels payants.
Attention à la génération d'un nouveau PDF à partir d'images dont on n'a pas la position initiale !

Historique

#1 Mis à jour par Emmanuel DILLARD il y a plus de 2 ans

  • Statut changé de A qualifier à R&D - A étudier

#2 Mis à jour par Emmanuel DILLARD il y a plus de 2 ans

  • Version cible mis à 281

#3 Mis à jour par Cyril VAZQUEZ il y a plus de 2 ans

  • Priorité changé de 1-Majeur à 3-Mineur

#4 Mis à jour par Cyril VAZQUEZ il y a plus de 2 ans

  • Statut changé de R&D - A étudier à Rejeté

#5 Mis à jour par Cyril VAZQUEZ il y a environ 2 ans

  • Version cible changé de 281 à Inscription Backlog

Formats disponibles : Atom PDF