Comment extraire de manière cohérente les métadonnées de documents complexes

quantités d’informations importantes. Cependant, ces informations sont, dans de nombreux cas, profondément cachées dans le contenu des documents et sont donc difficiles à utiliser pour des tâches en aval. Dans cet article, j’expliquerai comment extraire de manière cohérente les métadonnées de vos documents, en tenant compte des approches d’extraction des métadonnées et des défis auxquels vous serez confronté en cours de route.

L’article est un aperçu de niveau supérieur de l’extraction de métadonnées sur des documents, mettant en évidence les différentes considérations que vous devez prendre en compte lors de l’extraction de métadonnées.

Cette infographie met en évidence le contenu principal de cet article. Je vais d’abord expliquer pourquoi nous devons extraire les métadonnées du document et comment cela est utile pour les tâches en aval. En continuant, je discuterai des approches pour extraire les métadonnées, avec Regex, OCR + LLM et vision LLM. Enfin, j’aborderai également les différents défis liés à l’extraction de métadonnées, tels que les expressions régulières, le texte manuscrit et le traitement de documents longs. Image de ChatGPT.

Pourquoi extraire les métadonnées du document

Tout d’abord, il est important de clarifier pourquoi nous devons extraire les métadonnées des documents. Après tout, si l’information est déjà présente dans les documents, ne pouvons-nous pas simplement la trouver en utilisant RAG ou d’autres approches similaires ?

Dans de nombreux cas, RAG serait capable de trouver des points de données spécifiques, mais la pré-extraction des métadonnées simplifie de nombreuses tâches en aval. À l’aide de métadonnées, vous pouvez, par exemple, filtrer vos documents en fonction de points de données, tels que :

Type de document
Adresses
Dates

De plus, si vous disposez d’un système RAG, il bénéficiera, dans de nombreux cas, de métadonnées supplémentaires fournies. En effet, vous présentez plus clairement les informations supplémentaires (les métadonnées) au LLM. Par exemple, supposons que vous posiez une question relative aux dates. Dans ce cas, il est plus facile de simplement fournir les dates de document pré-extraites au modèle, au lieu de laisser le modèle extraire les dates pendant le temps d’inférence. Cela permet d’économiser à la fois des coûts et de la latence, et est susceptible d’améliorer la qualité de vos réponses RAG.

Comment extraire des métadonnées

Je mets en avant trois approches principales pour extraire des métadonnées, allant de la plus simple à la plus complexe :

Expression régulière
OCR + LLM
LLM en vision

Cette image met en évidence les trois principales approches d’extraction de métadonnées. L’approche la plus simple consiste à utiliser Regex, même si cela ne fonctionne pas dans de nombreuses situations. Une approche plus puissante est OCR + LLM, qui fonctionne bien dans la plupart des cas, mais ne fonctionne pas dans les situations où vous dépendez d’informations visuelles. Si les informations visuelles sont importantes, vous pouvez utiliser les LLM de vision, l’approche la plus puissante. Image de ChatGPT.

Expression régulière

Regex est l’approche la plus simple et la plus cohérente pour extraire des métadonnées. Regex fonctionne bien si vous connaissez au préalable le format exact des données. Par exemple, si vous traitez des contrats de location et que vous savez que la date est écrite sous la forme jj.mm.aaaa, toujours juste après les mots « Date : », alors l’expression régulière est la voie à suivre.

Malheureusement, la plupart des traitements de documents sont plus complexes que cela. Vous devrez faire face à des documents incohérents, avec des défis tels que :

Les dates sont inscrites à différents endroits dans le document
Il manque certains caractères au texte en raison d’un OCR médiocre
Les dates sont écrites dans différents formats (par exemple, mm.jj.aaaa, 22 octobre, 22 décembre, etc.)

Pour cette raison, nous devons généralement passer à des approches plus complexes, comme OCR + LLM, que je décrirai dans la section suivante.

OCR + LLM

Une approche puissante pour extraire des métadonnées consiste à utiliser OCR + LLM. Ce processus commence par l’application de l’OCR à un document pour extraire le contenu du texte. Vous prenez ensuite le texte édité par OCR et demandez à un LLM d’extraire la date du document. Cela fonctionne généralement incroyablement bien, car les LLM sont doués pour comprendre le contexte (quelles dates sont pertinentes et quelles dates ne sont pas pertinentes) et peuvent comprendre les dates écrites dans toutes sortes de formats différents. Dans de nombreux cas, les LLM seront également capables de comprendre les normes de date européennes (jj.mm.aaaa) et américaines (jj.mm.aaaa).

Toutefois, dans certains scénarios, les métadonnées que vous souhaitez extraire nécessitent des informations visuelles. Dans ces scénarios, vous devez appliquer la technique la plus avancée : les LLM de vision.

LLM en vision

L’utilisation de LLM de vision constitue l’approche la plus complexe, avec à la fois la latence et le coût les plus élevés. Dans la plupart des scénarios, l’exécution de LLM de vision sera beaucoup plus coûteuse que l’exécution de LLM purement textuels.

Lorsque vous exécutez des LLM de vision, vous devez généralement vous assurer que les images ont une haute résolution, afin que le LLM de vision puisse lire le texte des documents. Cela nécessite alors beaucoup de jetons visuels, ce qui rend le traitement coûteux. Cependant, les LLM de vision avec des images haute résolution seront généralement capables d’extraire des informations complexes, ce que OCR + LLM ne peut pas, par exemple, les informations fournies dans l’image ci-dessous.

Cette image met en évidence une tâche pour laquelle vous devez utiliser des LLM de vision. Si vous effectuez une OCR sur cette image, vous pourrez extraire les mots « Document 1, Document 2, Document 3 », mais l’OCR manquera complètement la case à cocher remplie. En effet, l’OCR est entraîné à extraire des caractères, et non des chiffres, comme la case à cocher contenant un cercle. Tenter d’utiliser OCR + LLM échouera donc dans ce scénario. Cependant, si vous utilisez plutôt un LLM de vision sur ce problème, il pourra facilement extraire quel document est coché. Image de l’auteur.

Les Vision LLM fonctionnent également bien dans les scénarios avec du texte manuscrit, où l’OCR peut avoir des difficultés.

Défis lors de l’extraction des métadonnées

Comme je l’ai souligné plus tôt, les documents sont complexes et se présentent sous différents formats. Il y a donc de nombreux défis auxquels vous devez faire face lors de l’extraction de métadonnées de documents. Je soulignerai trois des principaux défis :

Quand utiliser la vision vs OCR + LLM
Gérer un texte manuscrit
Gérer des documents longs

Quand utiliser les LLM de vision vs OCR + LLM

De préférence, nous utiliserions des LLM de vision pour toutes les extractions de métadonnées. Cependant, cela n’est généralement pas possible en raison du coût d’exécution des LLM de vision. Nous devons donc décider quand utiliser les LLM de vision ou quand utiliser les OCR + LLM.

Une chose que vous pouvez faire est de décider si le point de métadonnées que vous souhaitez extraire nécessite ou non des informations visuelles. S’il s’agit d’une date, OCR + LLM fonctionnera plutôt bien dans presque tous les scénarios. Cependant, si vous savez que vous avez affaire à des cases à cocher comme dans l’exemple de tâche que j’ai mentionné ci-dessus, vous devez appliquer des LLM de vision.

Gérer un texte manuscrit

L’un des problèmes liés à l’approche mentionnée ci-dessus est que certains documents peuvent contenir du texte manuscrit, que l’OCR traditionnel n’est pas particulièrement efficace pour extraire. Si votre OCR est médiocre, les métadonnées d’extraction LLM fonctionneront également mal. Ainsi, si vous savez que vous avez affaire à du texte manuscrit, je vous recommande d’appliquer les LLM de vision, car ils sont bien meilleurs pour gérer l’écriture manuscrite, sur la base de ma propre expérience. Il est important de savoir que de nombreux documents contiennent à la fois du texte numérique et de l’écriture manuscrite.

Gérer des documents longs

Dans de nombreux cas, vous devrez également traiter des documents extrêmement longs. Si tel est le cas, vous devez prendre en compte la distance dans laquelle un point de métadonnées peut être présent dans le document.

La raison pour laquelle cela est pris en compte est que vous souhaitez minimiser les coûts, et si vous devez traiter des documents extrêmement longs, vous devez disposer de beaucoup de jetons d’entrée pour vos LLM, ce qui est coûteux. Dans la plupart des cas, l’information importante (la date, par exemple) sera présente au début du document, auquel cas vous n’aurez pas besoin de beaucoup de jetons d’entrée. Dans d’autres situations, cependant, l’information pertinente peut être présente à la page 94, auquel cas vous avez besoin de beaucoup de jetons d’entrée.

Le problème, bien sûr, c’est qu’on ne sait pas à l’avance sur quelle page les métadonnées sont présentes. Ainsi, vous devez essentiellement prendre une décision, comme regarder uniquement les 100 premières pages d’un document donné, et supposer que les métadonnées sont disponibles dans les 100 premières pages, pour presque tous les documents. Vous manquerez un point de données dans les rares occasions où les données se trouvent à la page 101 et au-delà, mais vous économiserez largement sur les coûts.

Conclusion

Dans cet article, j’ai expliqué comment vous pouvez extraire de manière cohérente les métadonnées de vos documents. Ces métadonnées sont souvent critiques lors de l’exécution de tâches en aval telles que le filtrage de vos documents en fonction de points de données. De plus, j’ai discuté de trois approches principales de l’extraction de métadonnées avec Regex, OCR + LLM et vision LLM, et j’ai abordé certains défis auxquels vous serez confronté lors de l’extraction de métadonnées. Je pense que l’extraction de métadonnées reste une tâche qui ne nécessite pas beaucoup d’efforts, mais qui peut apporter beaucoup de valeur dans les tâches en aval. Je pense donc que l’extraction de métadonnées restera importante dans les années à venir, même si je pense que nous verrons de plus en plus d’extraction de métadonnées passer à l’utilisation pure des LLM de vision, au lieu de l’OCR + LLM.

👉 Retrouvez-moi sur les réseaux sociaux :

🧑‍💻 Entrer en contact

📩 Abonnez-vous à ma newsletter

🔗 LinkedIn

🐦 X/Twitter

✍️ Moyen

Vous pouvez également lire certains de mes autres articles :

Blog

Comment extraire de manière cohérente les métadonnées de documents complexes

Pourquoi extraire les métadonnées du document