
Comment extraire de manière cohérente les métadonnées de documents complexes
quantités d’informations importantes. Cependant, ces informations sont, dans de nombreux cas, profondément cachées dans le contenu des documents et sont donc difficiles à utiliser pour des tâches en aval. Dans cet article, j’expliquerai comment extraire de manière cohérente les métadonnées de vos documents, en tenant compte des approches d’extraction des métadonnées et des défis auxquels vous serez confronté en cours de route.
L’article est un aperçu de niveau supérieur de l’extraction de métadonnées sur des documents, mettant en évidence les différentes considérations que vous devez prendre en compte lors de l’extraction de métadonnées.

Pourquoi extraire les métadonnées du document
Tout d’abord, il est important de clarifier pourquoi nous devons extraire les métadonnées des documents. Après tout, si l’information est déjà présente dans les documents, ne pouvons-nous pas simplement la trouver en utilisant RAG ou d’autres approches similaires ?
Dans de nombreux cas, RAG serait capable de trouver des points de données spécifiques, mais la pré-extraction des métadonnées simplifie de nombreuses tâches en aval. À l’aide de métadonnées, vous pouvez, par exemple, filtrer vos documents en fonction de points de données, tels que :
- Type de document
- Adresses
- Dates
De plus, si vous disposez d’un système RAG, il bénéficiera, dans de nombreux cas, de métadonnées supplémentaires fournies. En effet, vous présentez plus clairement les informations supplémentaires (les métadonnées) au LLM. Par exemple, supposons que vous posiez une question relative aux dates. Dans ce cas, il est plus facile de simplement fournir les dates de document pré-extraites au modèle, au lieu de laisser le modèle extraire les dates pendant le temps d’inférence. Cela permet d’économiser à la fois des coûts et de la latence, et est susceptible d’améliorer la qualité de vos réponses RAG.
Comment extraire des métadonnées
Je mets en avant trois approches principales pour extraire des métadonnées, allant de la plus simple à la plus complexe :
- Expression régulière
- OCR + LLM
- LLM en vision

Expression régulière
Regex est l’approche la plus simple et la plus cohérente pour extraire des métadonnées. Regex fonctionne bien si vous connaissez au préalable le format exact des données. Par exemple, si vous traitez des contrats de location et que vous savez que la date est écrite sous la forme jj.mm.aaaa, toujours juste après les mots « Date : », alors l’expression régulière est la voie à suivre.
Malheureusement, la plupart des traitements de documents sont plus complexes que cela. Vous devrez faire face à des documents incohérents, avec des défis tels que :
- Les dates sont inscrites à différents endroits dans le document
- Il manque certains caractères au texte en raison d’un OCR médiocre
- Les dates sont écrites dans différents formats (par exemple, mm.jj.aaaa, 22 octobre, 22 décembre, etc.)
Pour cette raison, nous devons généralement passer à des approches plus complexes, comme OCR + LLM, que je décrirai dans la section suivante.
OCR + LLM
Une approche puissante pour extraire des métadonnées consiste à utiliser OCR + LLM. Ce processus commence par l’application de l’OCR à un document pour extraire le contenu du texte. Vous prenez ensuite le texte édité par OCR et demandez à un LLM d’extraire la date du document. Cela fonctionne généralement incroyablement bien, car les LLM sont doués pour comprendre le contexte (quelles dates sont pertinentes et quelles dates ne sont pas pertinentes) et peuvent comprendre les dates écrites dans toutes sortes de formats différents. Dans de nombreux cas, les LLM seront également capables de comprendre les normes de date européennes (jj.mm.aaaa) et américaines (jj.mm.aaaa).

Toutefois, dans certains scénarios, les métadonnées que vous souhaitez extraire nécessitent des informations visuelles. Dans ces scénarios, vous devez appliquer la technique la plus avancée : les LLM de vision.
LLM en vision
L’utilisation de LLM de vision constitue l’approche la plus complexe, avec à la fois la latence et le coût les plus élevés. Dans la plupart des scénarios, l’exécution de LLM de vision sera beaucoup plus coûteuse que l’exécution de LLM purement textuels.
Lorsque vous exécutez des LLM de vision, vous devez généralement vous assurer que les images ont une haute résolution, afin que le LLM de vision puisse lire le texte des documents. Cela nécessite alors beaucoup de jetons visuels, ce qui rend le traitement coûteux. Cependant, les LLM de vision avec des images haute résolution seront généralement capables d’extraire des informations complexes, ce que OCR + LLM ne peut pas, par exemple, les informations fournies dans l’image ci-dessous.

Les Vision LLM fonctionnent également bien dans les scénarios avec du texte manuscrit, où l’OCR peut avoir des difficultés.
Défis lors de l’extraction des métadonnées
Comme je l’ai souligné plus tôt, les documents sont complexes et se présentent sous différents formats. Il y a donc de nombreux défis auxquels vous devez faire face lors de l’extraction de métadonnées de documents. Je soulignerai trois des principaux défis :
- Quand utiliser la vision vs OCR + LLM
- Gérer un texte manuscrit
- Gérer des documents longs
Quand utiliser les LLM de vision vs OCR + LLM
De préférence, nous utiliserions des LLM de vision pour toutes les extractions de métadonnées. Cependant, cela n’est généralement pas possible en raison du coût d’exécution des LLM de vision. Nous devons donc décider quand utiliser les LLM de vision ou quand utiliser les OCR + LLM.
Une chose que vous pouvez faire est de décider si le point de métadonnées que vous souhaitez extraire nécessite ou non des informations visuelles. S’il s’agit d’une date, OCR + LLM fonctionnera plutôt bien dans presque tous les scénarios. Cependant, si vous savez que vous avez affaire à des cases à cocher comme dans l’exemple de tâche que j’ai mentionné ci-dessus, vous devez appliquer des LLM de vision.
Gérer un texte manuscrit
L’un des problèmes liés à l’approche mentionnée ci-dessus est que certains documents peuvent contenir du texte manuscrit, que l’OCR traditionnel n’est pas particulièrement efficace pour extraire. Si votre OCR est médiocre, les métadonnées d’extraction LLM fonctionneront également mal. Ainsi, si vous savez que vous avez affaire à du texte manuscrit, je vous recommande d’appliquer les LLM de vision, car ils sont bien meilleurs pour gérer l’écriture manuscrite, sur la base de ma propre expérience. Il est important de savoir que de nombreux documents contiennent à la fois du texte numérique et de l’écriture manuscrite.
Gérer des documents longs
Dans de nombreux cas, vous devrez également traiter des documents extrêmement longs. Si tel est le cas, vous devez prendre en compte la distance dans laquelle un point de métadonnées peut être présent dans le document.
La raison pour laquelle cela est pris en compte est que vous souhaitez minimiser les coûts, et si vous devez traiter des documents extrêmement longs, vous devez disposer de beaucoup de jetons d’entrée pour vos LLM, ce qui est coûteux. Dans la plupart des cas, l’information importante (la date, par exemple) sera présente au début du document, auquel cas vous n’aurez pas besoin de beaucoup de jetons d’entrée. Dans d’autres situations, cependant, l’information pertinente peut être présente à la page 94, auquel cas vous avez besoin de beaucoup de jetons d’entrée.
Le problème, bien sûr, c’est qu’on ne sait pas à l’avance sur quelle page les métadonnées sont présentes. Ainsi, vous devez essentiellement prendre une décision, comme regarder uniquement les 100 premières pages d’un document donné, et supposer que les métadonnées sont disponibles dans les 100 premières pages, pour presque tous les documents. Vous manquerez un point de données dans les rares occasions où les données se trouvent à la page 101 et au-delà, mais vous économiserez largement sur les coûts.
Conclusion
Dans cet article, j’ai expliqué comment vous pouvez extraire de manière cohérente les métadonnées de vos documents. Ces métadonnées sont souvent critiques lors de l’exécution de tâches en aval telles que le filtrage de vos documents en fonction de points de données. De plus, j’ai discuté de trois approches principales de l’extraction de métadonnées avec Regex, OCR + LLM et vision LLM, et j’ai abordé certains défis auxquels vous serez confronté lors de l’extraction de métadonnées. Je pense que l’extraction de métadonnées reste une tâche qui ne nécessite pas beaucoup d’efforts, mais qui peut apporter beaucoup de valeur dans les tâches en aval. Je pense donc que l’extraction de métadonnées restera importante dans les années à venir, même si je pense que nous verrons de plus en plus d’extraction de métadonnées passer à l’utilisation pure des LLM de vision, au lieu de l’OCR + LLM.
👉 Retrouvez-moi sur les réseaux sociaux :
📩 Abonnez-vous à ma newsletter
✍️ Moyen
Vous pouvez également lire certains de mes autres articles :



