Projet

Général

Profil

Actions

Fonctionnalité #16693

fermé

[fulltext] Extraction fulltext

Ajouté par Cyril VAZQUEZ il y a plus de 3 ans. Mis à jour il y a presque 3 ans.

Statut:
Clôturé
Priorité:
2-Sérieux
Assigné à:
-
Version cible:
Début:
22/03/2021
Echéance:
05/10/2021
Tags RM:
2.8.0

Description

En tant que SA, je veux extraire le texte des documents numériques afin de les indexer sur leur contenu.

Détail
Il existe déjà une propriété archive.fulltextIndexation
L'option de niveau de service fulltextIndexation (extraction text intégral), lorsqu'activée, place simplement un indicateur à "vrai" sur cette propriété pour indiquer au système qu'une demande a été faite.

Il faut utiliser cette demande pour traiter par lot les archives marquées et extraire le texte de toutes les ressource originales contenues (pas les copies).

Il faut une configuration, comme pour la conversion

  • les formats disponibles pour extraction (puid ou mimetype)
  • un outil d'extraction pour une liste formats qui respecte une interface

Il faut intégrer un ou plusieurs outils d'extraction, en commençant par Apache Tika dont le plugin existe déjà (dependency\fileSystem\plugins\tika.php)

Actions

Formats disponibles : Atom PDF