Fonctionnalité #16693: [fulltext] Extraction fulltext - Backlog RM - MAARCH - Support éditeur

Actions

Copier le lien

Fonctionnalité #16693

fermé

[fulltext] Extraction fulltext

Ajouté par Cyril VAZQUEZ il y a environ 4 ans. Mis à jour il y a plus de 3 ans.

Statut:

Clôturé

Priorité:

2-Sérieux

Assigné à:

Version cible:

2.8

Début:

22/03/2021

Echéance:

05/10/2021

Tags RM:

2.8.0

Description

En tant que SA, je veux extraire le texte des documents numériques afin de les indexer sur leur contenu.

Détail
Il existe déjà une propriété archive.fulltextIndexation
L'option de niveau de service fulltextIndexation (extraction text intégral), lorsqu'activée, place simplement un indicateur à "vrai" sur cette propriété pour indiquer au système qu'une demande a été faite.

Il faut utiliser cette demande pour traiter par lot les archives marquées et extraire le texte de toutes les ressource originales contenues (pas les copies).

Il faut une configuration, comme pour la conversion

les formats disponibles pour extraction (puid ou mimetype)
un outil d'extraction pour une liste formats qui respecte une interface

Il faut intégrer un ou plusieurs outils d'extraction, en commençant par Apache Tika dont le plugin existe déjà (dependency\fileSystem\plugins\tika.php)

Actions

Copier le lien

Formats disponibles : Atom PDF

Projet

Général

Profil

Backlog RM

Rapports personnalisés

Fonctionnalité #16693

[fulltext] Extraction fulltext

Mis à jour par Jérôme BOUCHER il y a presque 4 ans

Mis à jour par Mathieu PIONNIER il y a presque 4 ans

Mis à jour par Emmanuel DILLARD il y a presque 4 ans

Mis à jour par Cyril VAZQUEZ il y a presque 4 ans

Mis à jour par Cyril VAZQUEZ il y a presque 4 ans

Gestion des flux non nominaux¶

Gestion des lots¶

Retour du traitement par lot¶

Évolutions¶

Mis à jour par Emmanuel DILLARD il y a plus de 3 ans

Mis à jour par Emmanuel DILLARD il y a plus de 3 ans

Mis à jour par Jérôme BOUCHER il y a plus de 3 ans

Mis à jour par Emmanuel DILLARD il y a plus de 3 ans

Mis à jour par Emmanuel DILLARD il y a plus de 3 ans

Mis à jour par Emmanuel DILLARD il y a plus de 3 ans

Mis à jour par Emmanuel DILLARD il y a plus de 3 ans

Mis à jour par Arnaud PAUGET il y a plus de 3 ans

Mis à jour par Emmanuel DILLARD il y a plus de 3 ans

Mis à jour par Emmanuel DILLARD il y a plus de 3 ans

Mis à jour par Alexandre GOLDSTEIN il y a plus de 3 ans

Mis à jour par Cyril VAZQUEZ il y a plus de 3 ans