Projet

Général

Profil

Actions

Anomalie #19713

fermé

[FullText Tika] Blocage du process si impossible d'extraire le fulltext d'un document

Ajouté par Arnaud PAUGET il y a presque 3 ans. Mis à jour il y a plus de 2 ans.

Statut:
Clôturé
Priorité:
1-Majeur
Assigné à:
-
Version cible:
Début:
03/02/2022
Echéance:
Tags RM:
2.8.2

Description

Exemple Ardian :
Une des ressources est un fichier pdf qui est protégé par mot de passe. Étant donné qu'il est impossible de passer ce mot de passe à tika car inconnu, Tika renvoi une erreur comme quoi le fullText n'a pas pu être extrait.
Le problème c'est que cette erreur lève une exception ligne 96 du fichier /dependency/fileSystem/plugins/Tika.php et arrête donc le process d'extraction du full text pour les ressources suivantes et ne met pas à jour le statut de cette ressource.
Lors de la prochaine exécution de l'extraction, cette ressource sera en premier dans la liste des ressources dont le fullText est à extraire et générera toujours une erreur et donc un blocage de la tâche indéfiniment.

Mesure corrective :
Ne plus lever une exception en cas d'impossibilité d'extraction de texte d'une ressource et changer le statut de la ressource pour ne plus la sélectionner lors de la prochaine mise en lot des ressources à extraire.

Actions

Formats disponibles : Atom PDF