
Comment appliquer des modèles de langage de vision à des documents longs
sont des modèles puissants qui prennent des images en entrée, au lieu du texte comme les LLM traditionnels. Cela ouvre de nombreuses possibilités, étant donné que nous pouvons traiter directement le contenu d’un document, au lieu d’utiliser l’OCR pour extraire le texte, puis introduire ce texte dans un LLM.
Dans cet article, j’expliquerai comment appliquer des modèles de langage de vision (VLM) pour des tâches de compréhension de documents contextuels longs. Cela signifie appliquer les VLM soit à des documents très longs de plus de 100 pages, soit à des documents très denses contenant beaucoup d’informations, tels que des dessins. Je discuterai de ce qu’il faut prendre en compte lors de l’application des VLM et du type de tâches que vous pouvez effectuer avec eux.

Pourquoi avons-nous besoin de VLM ?
J’ai beaucoup discuté des VLM dans mes articles précédents et expliqué pourquoi ils sont si importants pour comprendre le contenu de certains documents. La principale raison pour laquelle les VLM sont nécessaires est que de nombreuses informations contenues dans les documents nécessitent une entrée visuelle pour être comprises.
L’alternative aux VLM consiste à utiliser l’OCR, puis à utiliser un LLM. Le problème ici est que vous extrayez uniquement le texte du document, et n’incluez pas les informations visuelles, telles que :
- Où un texte différent est positionné par rapport à un autre texte
- Informations non textuelles (essentiellement tout ce qui n’est pas une lettre, comme des symboles ou des dessins)
- Où le texte est positionné par rapport à d’autres informations
Ces informations sont souvent essentielles pour vraiment comprendre le document, et il est donc souvent préférable d’utiliser directement les VLM, où vous alimentez directement l’image, et pouvez donc également interpréter les informations visuelles.
Pour les documents longs, l’utilisation de VLM constitue un défi, étant donné que vous avez besoin de beaucoup de jetons pour représenter les informations visuelles. Traiter des centaines de pages constitue donc un défi de taille. Cependant, grâce aux nombreux progrès récents de la technologie VLM, les modèles se sont améliorés et compressent les informations visuelles dans des longueurs de contexte raisonnables, ce qui rend possible et utilisable l’application de VLM à des documents longs pour des tâches de compréhension de documents.

OCR utilisant des VLM
Une bonne option pour traiter des documents longs tout en incluant les informations visuelles consiste à utiliser des VLM pour effectuer l’OCR. L’OCR traditionnelle comme Tesseract, extrait uniquement le texte directement des documents avec le cadre de délimitation du texte. Cependant, les VLM sont également formés pour effectuer l’OCR et peuvent effectuer des extractions de texte plus avancées, telles que :
- Extraire la démarque
- Expliquer des informations purement visuelles (c’est-à-dire s’il y a un dessin, expliquer le dessin avec du texte)
- Ajouter des informations manquantes (c’est-à-dire s’il y a une case indiquant Date et un champ vide après, vous pouvez dire à l’OCR d’extraire Date
)
Récemment, Deepseek a publié un puissant modèle OCR basé sur VLM, qui a récemment suscité beaucoup d’attention et de popularité, rendant les VLM pour OCR plus populaires.
Réduction
Markdown est très puissant, car vous extrayez du texte formaté. Cela permet au modèle de :
- Fournir des en-têtes et des sous-en-têtes
- Représenter les tableaux avec précision
- Mettre du texte en gras
Cela permet au modèle d’extraire un texte plus représentatif et de décrire avec plus de précision le contenu textuel des documents. Si vous appliquez maintenant des LLM à ce texte, les LLM fonctionneront bien mieux que si vous les appliquiez ensuite à un texte simple extrait avec l’OCR traditionnelle.
Les LLM fonctionnent mieux sur du texte formaté comme Markdown, que sur du texte pur extrait à l’aide de l’OCR traditionnelle.
Expliquer les informations visuelles
Une autre chose pour laquelle vous pouvez utiliser VLM OCR est d’expliquer des informations visuelles. Par exemple, si vous avez un dessin sans texte, l’OCR traditionnelle n’extraira aucune information, car elle est uniquement formée pour extraire les caractères du texte. Cependant, vous pouvez utiliser des VLM pour expliquer le contenu visuel de l’image.
Imaginez que vous ayez le document suivant :
This is the introduction text of the document
<image showing the Eiffel tower>
This is the conclusion of the document
Si vous appliquiez l’OCR traditionnel comme Tesseract, vous obtiendriez le résultat suivant :
This is the introduction text of the document
This is the conclusion of the document
C’est clairement un problème, puisque vous n’incluez pas d’informations sur l’image montrant la tour Eiffel. Au lieu de cela, vous devez utiliser des VLM, qui produiraient quelque chose comme :
This is the introduction text of the document
<image>
This image depicts the Eiffel tower during the day
</image>
This is the conclusion of the document
Si vous utilisiez un LLM sur le premier texte, il ne saurait bien sûr pas que le document contient une image de la tour Eiffel. Cependant, si vous utilisiez un LLM sur le deuxième texte extrait avec un VLM, le LLM serait naturellement plus à même de répondre aux questions sur le document.
Ajouter les informations manquantes
Vous pouvez également inviter les VLM à afficher le contenu s’il manque des informations. Pour comprendre ce concept, regardez l’image ci-dessous :

Si vous appliquiez l’OCR traditionnelle à cette image, vous obtiendriez :
Address Road 1
Date
Company Google
Cependant, il serait plus représentatif si vous utilisiez des VLM, qui, si vous y êtes invité, pourraient générer :
Address Road 1
Date <empty>
Company Google
C’est plus informatif, car nous informons tout modèle en aval que le champ de date est vide. Si nous ne fournissons pas cette information, il est impossible de savoir tardivement si la date est simplement manquante, si l’OCR n’a pas pu l’extraire ou pour toute autre raison.
Cependant, l’OCR utilisant les VLM souffre encore de certains des problèmes avec lesquels l’OCR traditionnelle est confrontée, car elle ne traite pas directement les informations visuelles. Vous avez probablement entendu le dicton selon lequel une image vaut mille motsce qui est souvent vrai pour le traitement des informations visuelles dans les documents. Oui, vous pouvez fournir une description textuelle d’un dessin avec un VLM comme OCR, mais ce texte ne sera jamais aussi descriptif que le dessin lui-même. Ainsi, je soutiens que dans de nombreux cas, il est préférable de traiter directement les documents à l’aide de VLM, comme je l’aborderai dans les sections suivantes.
Modèles open source et modèles fermés
Il existe de nombreux VLM disponibles. Je suis le Classement HuggingFace VLM prêter attention à tout nouveau modèle très performant. Selon ce classement, vous devriez opter pour Gemini 2.5 Pro ou GPT-5 si vous souhaitez utiliser des modèles fermés via une API. D’après mon expérience, ce sont d’excellentes options, qui fonctionnent bien pour la compréhension de documents longs et la gestion de documents complexes.
Cependant, vous souhaiterez peut-être également utiliser des modèles open source, pour des raisons de confidentialité, de coût ou pour avoir plus de contrôle sur votre propre application. Dans ce cas, SenseNova-V6-5-Pro est en tête du classement. Je n’ai pas essayé ce modèle personnellement, mais j’ai beaucoup utilisé Qwen 3 VL, avec lequel j’ai une bonne expérience. Qwen a également publié un livre de recettes spécifique pour la compréhension de documents longs.
VLM sur des documents longs
Dans cette section, je parlerai de l’application des VLM à des documents longs et des considérations à prendre en compte lors de cette opération.
Considérations sur la puissance de traitement
Si vous exécutez un modèle open source, l’une de vos principales considérations est la taille du modèle que vous pouvez exécuter et le temps que cela prend. Vous dépendez de l’accès à un GPU plus grand, au moins un A100 dans la plupart des cas. Heureusement, cela est largement disponible et relativement bon marché (coût généralement entre 1,5 et 2 USD par heure chez de nombreux fournisseurs de cloud actuellement). Cependant, vous devez également considérer la latence que vous pouvez accepter. L’exécution de VLM nécessite beaucoup de traitement et vous devez prendre en compte les facteurs suivants :
- Combien de temps est-il acceptable de consacrer au traitement d’une demande
- De quelle résolution d’image avez-vous besoin ?
- Combien de pages devez-vous traiter
Si vous avez un chat en direct par exemple, vous avez besoin d’un processus rapide, mais si vous effectuez simplement un traitement en arrière-plan, vous pouvez prévoir des temps de traitement plus longs.
La résolution de l’image est également un facteur important. Si vous devez pouvoir lire le texte d’un document, vous avez besoin d’images haute résolution, généralement supérieures à 2048 × 2048, même si cela dépend naturellement du document. Les dessins détaillés, par exemple contenant du petit texte, nécessiteront une résolution encore plus élevée. Augmenter la résolution, augmente considérablement le temps de traitement et constitue une considération importante. Vous devez viser la résolution la plus basse possible qui vous permet néanmoins d’effectuer toutes les tâches que vous souhaitez effectuer. De plus, le nombre de pages est une considération similaire. L’ajout de pages supplémentaires est souvent nécessaire pour avoir accès à toutes les informations d’un document. Cependant, souvent, les informations les plus importantes sont contenues au début du document, de sorte que vous pourriez vous contenter de traiter uniquement les 10 premières pages par exemple.
Traitement dépendant de la réponse
Une chose que vous pouvez essayer de réduire la puissance de traitement requise est de commencer par un traitement simple et de passer à un traitement plus lourd uniquement si vous n’obtenez pas les réponses souhaitées.
Par exemple, vous pourriez commencer par regarder uniquement les 10 premières pages et voir si vous êtes capable de résoudre correctement la tâche à accomplir, comme extraire une information d’un document. Ce n’est que si nous ne parvenons pas à extraire l’information que nous commençons à consulter davantage de pages. Vous pouvez appliquer le même concept à la résolution de vos images, en commençant par des images de résolution inférieure et en passant à une résolution plus élevée si nécessaire.
Cette possibilité de traitement hiérarchique réduit la puissance de traitement requise, puisque la plupart des tâches peuvent être résolues uniquement en regardant les 10 premières pages ou en utilisant des images de résolution inférieure. Ensuite, seulement si nécessaire, nous traitons davantage d’images ou des images de plus haute résolution.
Coût
Le coût est une considération importante lors de l’utilisation de VLM. J’ai traité beaucoup de documents et je constate généralement une augmentation d’environ 10 fois du nombre de jetons lors de l’utilisation d’images (VLM) au lieu de texte (LLM). Étant donné que les jetons d’entrée sont souvent à l’origine des coûts dans les tâches liées aux documents longs, l’utilisation de VLM augmente généralement considérablement les coûts. Notez que pour l’OCR, le point concernant plus de jetons d’entrée que de jetons de sortie ne s’applique pas, car l’OCR produit naturellement beaucoup de jetons de sortie lors de la sortie de tout le texte des images.
Ainsi, lorsque vous utilisez des VLM, il est extrêmement important de maximiser votre utilisation des jetons mis en cache, un sujet que j’ai abordé dans mon récent article sur l’optimisation des LLM en termes de coût et de latence.
Conclusion
Dans cet article, j’ai expliqué comment appliquer des modèles de langage de vision (VLM) à des documents longs, pour gérer des tâches complexes de compréhension de documents. J’ai expliqué pourquoi les VLM sont si importants et les approches d’utilisation des VLM sur des documents longs. Vous pouvez par exemple utiliser des VLM pour une OCR plus complexe, ou appliquer directement des VLM à des documents longs, tout en prenant des précautions concernant la puissance de traitement, le coût et la latence requis. Je pense que les VLM deviennent de plus en plus importants, comme le souligne la récente version de Deepseek OCR. Je pense donc que les VLM pour la compréhension des documents sont un sujet dans lequel vous devriez vous impliquer et que vous devriez apprendre à utiliser les VLM pour les applications de traitement de documents.
👉 Retrouvez-moi sur les réseaux sociaux :
📩 Abonnez-vous à ma newsletter
✍️ Moyen
Vous pouvez également lire mes autres articles :



