Project

General

Profile

Fonctionnalité #16693

[fulltext] Extraction fulltext

Added by Cyril VAZQUEZ 7 months ago. Updated 29 days ago.

Status:
A livrer
Priority:
2-Sérieux
Assignee:
-
Target version:
Start date:
03/22/2021
Due date:
10/05/2021
Tags RM:
2.8.0

Description

En tant que SA, je veux extraire le texte des documents numériques afin de les indexer sur leur contenu.

Détail
Il existe déjà une propriété archive.fulltextIndexation
L'option de niveau de service fulltextIndexation (extraction text intégral), lorsqu'activée, place simplement un indicateur à "vrai" sur cette propriété pour indiquer au système qu'une demande a été faite.

Il faut utiliser cette demande pour traiter par lot les archives marquées et extraire le texte de toutes les ressource originales contenues (pas les copies).

Il faut une configuration, comme pour la conversion
- les formats disponibles pour extraction (puid ou mimetype)
- un outil d'extraction pour une liste formats qui respecte une interface

Il faut intégrer un ou plusieurs outils d'extraction, en commençant par Apache Tika dont le plugin existe déjà (dependency\fileSystem\plugins\tika.php)

History

#1 Updated by Jérôme BOUCHER 6 months ago

  • Status changed from A traiter to A tester

À tester sur feat/16693_fulltext_extraction
Bien penser à modifier le fichier de configuration et à correctement configurer le chemin des executables tika. Le full test de ce ticket nécessite le téchargement d'apache tika (https://tika.apache.org/download.html) ainsi que de tesseract (https://github.com/tesseract-ocr/tesseract)

Implémentation de l'éextraciton plein texte ainsi que de son indexation
Possibilité de recher en plein texte via le parsage de fichiers texte ou d'image via les logiciels apache Tika ou Tesseract OCR (voir fichiers de configurations)

La route de test pour executer l'extraction plein texte est : maarchrm/recordsManagement/archives/extractfulltext
Il est nécessaire pour que le plein texte fonctionne que la détection de format soit activée et deja réalisée sur les ressources des archives

#2 Updated by Mathieu PIONNIER 6 months ago

  • Status changed from A tester to A livrer

#3 Updated by Emmanuel DILLARD 4 months ago

  • Project changed from Maarch RM - Product Backlog to Backlog RM
  • Target version changed from Product Backlog to Inscription Backlog
  • Fonction deleted (Métadonnées)

#4 Updated by Cyril VAZQUEZ 3 months ago

  • Assignee set to Cyril VAZQUEZ
  • Target version changed from Inscription Backlog to 2.8

#5 Updated by Cyril VAZQUEZ 3 months ago

Gestion des flux non nominaux

Cas possibles
- pas de PUID renseigné sur l'archive
- pas de service d'extraction configuré pour le format (PUID) de l'archive
- erreur lors de l'extraction (service d'extraction retourne un code erreur)

Statuts possibles pour la propriété fulltextIndexation
- requested
- indexed
- skipped (2 premiers cas)
- error (tous autres cas)

Gestion des lots

Ajouter des paramètres dans le lancement pour
- nombre maxi à prendre en compte OU
- durée limite de traitement

Retour du traitement par lot

Retour
- read : nombre entré (lu, pris en compte)
- indexed : extrait/indexé
- skipped : passé
- error

Évolutions

Prévoir autre feature pour gérer le statut d'indexation et reprise sur erreur ou skipped
Prévoir fonctionnement serveur des outils d'extraction

#6 Updated by Emmanuel DILLARD 3 months ago

  • Status changed from A livrer to En cours (S)
  • Assignee deleted (Cyril VAZQUEZ)

#7 Updated by Emmanuel DILLARD 3 months ago

  • Due date set to 08/17/2021

#8 Updated by Jérôme BOUCHER 2 months ago

  • Status changed from En cours (S) to A tester

Fix retrocompatibilité php8
Fix prise en compte des paramètres d'offset et de limit dans la fonction index de sdo
Feat : Ajout des paramètres limite de temps et maxResults dans les paramètres de la fonction d'extraction
Fix : Suppression de l'indexation fulltext des logs

À tester sur branche fix/16693_fulltext_extraction

#9 Updated by Emmanuel DILLARD 2 months ago

  • Assignee set to Alexandre GOLDSTEIN

#12 Updated by Emmanuel DILLARD 2 months ago

  • Due date changed from 08/17/2021 to 09/07/2021

#13 Updated by Emmanuel DILLARD about 1 month ago

  • Status changed from A tester to En cours
  • Assignee deleted (Alexandre GOLDSTEIN)

#14 Updated by Emmanuel DILLARD about 1 month ago

  • Status changed from En cours to En cours (S)

#15 Updated by Arnaud PAUGET about 1 month ago

  • Status changed from En cours (S) to A livrer
  • Tags RM 2.8.0 added

A livrer + Documentation a réaliser, notamment sur la configuration et les paramètres pouvant être renseignés dans le planification.

Réflexion à poursuivre sur l'extraction du texte issu d'image de PDF scannés.

#16 Updated by Emmanuel DILLARD about 1 month ago

  • Status changed from A livrer to En cours (S)

#17 Updated by Emmanuel DILLARD about 1 month ago

  • Due date changed from 09/07/2021 to 10/05/2021

#18 Updated by Alexandre GOLDSTEIN 29 days ago

  • Status changed from En cours (S) to A livrer

documentation push sur 2.8

Also available in: Atom PDF