Fonctionnalité #16693: [fulltext] Extraction fulltext - Backlog RM - MAARCH - Support éditeur

Actions

Copier le lien

Fonctionnalité #16693

fermé

[fulltext] Extraction fulltext

Ajouté par Cyril VAZQUEZ il y a environ 4 ans. Mis à jour il y a plus de 3 ans.

Statut:

Clôturé

Priorité:

2-Sérieux

Assigné à:

Version cible:

2.8

Début:

22/03/2021

Echéance:

05/10/2021

Tags RM:

2.8.0

Description

En tant que SA, je veux extraire le texte des documents numériques afin de les indexer sur leur contenu.

Détail
Il existe déjà une propriété archive.fulltextIndexation
L'option de niveau de service fulltextIndexation (extraction text intégral), lorsqu'activée, place simplement un indicateur à "vrai" sur cette propriété pour indiquer au système qu'une demande a été faite.

Il faut utiliser cette demande pour traiter par lot les archives marquées et extraire le texte de toutes les ressource originales contenues (pas les copies).

Il faut une configuration, comme pour la conversion

les formats disponibles pour extraction (puid ou mimetype)
un outil d'extraction pour une liste formats qui respecte une interface

Il faut intégrer un ou plusieurs outils d'extraction, en commençant par Apache Tika dont le plugin existe déjà (dependency\fileSystem\plugins\tika.php)

Actions

Copier le lien

Mis à jour par Jérôme BOUCHER il y a presque 4 ans

Statut changé de A traiter à R&D - En test

À tester sur feat/16693_fulltext_extraction
Bien penser à modifier le fichier de configuration et à correctement configurer le chemin des executables tika. Le full test de ce ticket nécessite le téchargement d'apache tika (https://tika.apache.org/download.html) ainsi que de tesseract (https://github.com/tesseract-ocr/tesseract)

Implémentation de l'éextraciton plein texte ainsi que de son indexation
Possibilité de recher en plein texte via le parsage de fichiers texte ou d'image via les logiciels apache Tika ou Tesseract OCR (voir fichiers de configurations)

La route de test pour executer l'extraction plein texte est : maarchrm/recordsManagement/archives/extractfulltext
Il est nécessaire pour que le plein texte fonctionne que la détection de format soit activée et deja réalisée sur les ressources des archives

Actions

Copier le lien

Mis à jour par Mathieu PIONNIER il y a presque 4 ans

Statut changé de R&D - En test à A livrer

Actions

Copier le lien

Mis à jour par Emmanuel DILLARD il y a presque 4 ans

Projet changé de 252 à Backlog RM
Version cible changé de Product Backlog à Inscription Backlog
Fonction ~~Métadonnées~~ supprimé

Actions

Copier le lien

Mis à jour par Cyril VAZQUEZ il y a presque 4 ans

Assigné à mis à Cyril VAZQUEZ
Version cible changé de Inscription Backlog à 2.8

Actions

Copier le lien

Mis à jour par Cyril VAZQUEZ il y a presque 4 ans

Gestion des flux non nominaux¶

Cas possibles

pas de PUID renseigné sur l'archive
pas de service d'extraction configuré pour le format (PUID) de l'archive
erreur lors de l'extraction (service d'extraction retourne un code erreur)

Statuts possibles pour la propriété fulltextIndexation

requested
indexed
skipped (2 premiers cas)
error (tous autres cas)

Gestion des lots¶

Ajouter des paramètres dans le lancement pour

nombre maxi à prendre en compte OU
durée limite de traitement

Retour du traitement par lot¶

Retour

read : nombre entré (lu, pris en compte)
indexed : extrait/indexé
skipped : passé
error

Évolutions¶

Prévoir autre feature pour gérer le statut d'indexation et reprise sur erreur ou skipped
Prévoir fonctionnement serveur des outils d'extraction

Actions

Copier le lien

Mis à jour par Emmanuel DILLARD il y a plus de 3 ans

Statut changé de A livrer à R&D - En cours
Assigné à ~~Cyril VAZQUEZ~~ supprimé

Actions

Copier le lien

Mis à jour par Emmanuel DILLARD il y a plus de 3 ans

Echéance mis à 17/08/2021

Actions

Copier le lien

Mis à jour par Jérôme BOUCHER il y a plus de 3 ans

Statut changé de R&D - En cours à R&D - En test

Fix retrocompatibilité php8
Fix prise en compte des paramètres d'offset et de limit dans la fonction index de sdo
Feat : Ajout des paramètres limite de temps et maxResults dans les paramètres de la fonction d'extraction
Fix : Suppression de l'indexation fulltext des logs

À tester sur branche fix/16693_fulltext_extraction

Actions

Copier le lien