Référence de prise en charge linguistique OCR et conseils pour différents systèmes d'écriture

OCR 多语言支持参考及不同文字系统的识别技巧

La précision de l'OCR varie considérablement selon les langues et les systèmes d'écriture — de mauvais réglages rendent les résultats inutilisables.

Comprendre quels modèles linguistiques sélectionner et comment optimiser les réglages pour chaque système d'écriture maximise la précision de la reconnaissance.

01 Aperçu des langues prises en charge

Tesseract.js hérite des puissantes capacités multilingues du moteur OCR Tesseract, prenant en charge la reconnaissance de texte dans plus de 100 langues. Voici les langues les plus couramment utilisées et leurs caractéristiques.

Chaque langue dispose d'un fichier de modèle entraîné correspondant qui est automatiquement téléchargé lors de la première utilisation (généralement quelques Mo). Une fois téléchargés, les modèles sont mis en cache par le navigateur et n'ont pas besoin d'être retéléchargés.

  • English (eng) — Alphabet latin, taux de reconnaissance le plus élevé
  • Chinese Simplified (chi_sim) — Caractères chinois simplifiés pour les documents continentaux
  • Chinese Traditional (chi_tra) — Caractères chinois traditionnels pour les documents HK/TW
  • Japanese (jpn) — Caractères Hiragana, Katakana et Kanji
  • Korean (kor) — Écriture syllabique Hangul
  • French (fra) — Alphabet latin avec caractères accentués
  • Spanish (spa) — Alphabet latin avec caractères spéciaux ñ, ¿, ¡
  • German (deu) — Alphabet latin avec trémas ä, ö, ü, ß
  • Russian (rus) — Alphabet cyrillique
  • Arabic (ara) — Système d'écriture de droite à gauche

02 Conseils pour la reconnaissance des caractères CJK

Les caractères CJK posent un défi bien plus grand aux moteurs OCR que les alphabets latins en raison de leurs jeux de caractères massifs et de leurs traits complexes. Obtenir de bons résultats nécessite une attention particulière à plusieurs facteurs clés.

Premièrement, la résolution de l'image est cruciale. Comme les traits CJK sont denses, les images basse résolution provoquent facilement la fusion ou le flou des traits. Assurez-vous que la hauteur du texte dans l'image est d'au moins 30 pixels.

Deuxièmement, il est essentiel de bien distinguer le chinois simplifié du chinois traditionnel. Utiliser le mauvais modèle non seulement réduit la précision, mais peut produire de nombreux caractères incorrects. Pour les documents japonais contenant beaucoup de Kanji, envisagez de charger à la fois les modèles japonais et chinois.

Enfin, les mises en page verticales (courantes dans la typographie traditionnelle chinoise et japonaise) peuvent donner des résultats moins précis que le texte horizontal. Lorsque c'est possible, faites pivoter les images en orientation horizontale avant le traitement.

Pour l'OCR en chinois, utilisez des images d'au moins 300 DPI. Si vous faites une capture d'écran, zoomez à 200 % avant la capture.

03 Traitement des documents multilingues

En pratique, de nombreux documents utilisent plusieurs langues. Les documents techniques mélangent souvent chinois et anglais, les articles académiques peuvent inclure des symboles latins ou grecs, et les documents commerciaux peuvent couvrir plusieurs langues.

Tesseract.js permet de charger plusieurs modèles linguistiques simultanément pour traiter les documents multilingues. Sélectionnez simplement toutes les langues pertinentes dans le sélecteur de langue. Par exemple, pour un document chinois-anglais, sélectionnez à la fois « English » et « Chinese Simplified ».

Sachez que plus vous chargez de modèles linguistiques, plus le traitement est lent et la consommation mémoire élevée. Sélectionnez uniquement les langues réellement présentes dans le document et évitez de charger des modèles inutiles. En général, 2 à 3 langues constituent l'équilibre idéal.

04 Techniques d'optimisation de la précision

Quelle que soit la langue utilisée, les conseils d'optimisation suivants vous aideront à améliorer significativement la précision de la reconnaissance OCR.

La qualité de l'image est le facteur principal affectant la reconnaissance. Assurez-vous que les images sont nettes, que les bords du texte sont nets et qu'il y a un contraste suffisant entre le fond et le texte. Si la qualité de l'image originale est médiocre, prétraitez-la d'abord avec un outil d'édition d'images.

L'orientation et l'alignement du texte sont également importants. Assurez-vous que le texte dans l'image est horizontal sans inclinaison visible. Même un léger angle d'inclinaison (2-3 degrés) peut affecter significativement la précision. La plupart des éditeurs d'images offrent des fonctions de rotation et de correction.

  • Utilisez des images à 300 DPI ou plus
  • Assurez un contraste élevé entre le texte et le fond (texte sombre sur fond clair est idéal)
  • Recadrez les marges inutiles et les zones sans texte
  • Corrigez les images inclinées pour garder le texte horizontal
  • Évitez les JPEG fortement compressés (les artefacts de compression interfèrent avec la reconnaissance)
  • Pour les images floues, essayez de les nettoyer avant la reconnaissance

FAQ

Combien de langues Tesseract.js prend-il en charge ?

Tesseract.js prend en charge plus de 100 langues, y compris toutes les langues mondiales majeures et de nombreuses langues régionales. Les plus couramment utilisées comprennent l'anglais, le chinois simplifié/traditionnel, le japonais, le coréen, le français, l'espagnol, l'allemand, le russe et l'arabe.

Comment améliorer la faible précision de l'OCR en chinois ?

Étapes clés pour améliorer la précision de l'OCR en chinois : utilisez des images haute résolution (au moins 300 DPI), assurez-vous d'avoir sélectionné le bon modèle chinois (simplifié ou traditionnel), recadrez pour ne garder que la zone de texte, et vérifiez que le texte n'est ni flou ni incliné. Pour le texte mixte chinois-anglais, sélectionnez les deux modèles.

L'OCR peut-il reconnaître plusieurs langues à la fois ?

Oui. Tesseract.js prend en charge le chargement simultané de plusieurs modèles linguistiques. Sélectionnez toutes les langues nécessaires dans le sélecteur. Cependant, il est préférable de ne pas dépasser 2 à 3 langues, sinon la vitesse de traitement diminuera et la précision pourra baisser.

L'OCR peut-il gérer les langues écrites de droite à gauche comme l'arabe et l'hébreu ?

Tesseract.js prend en charge les langues RTL (de droite à gauche) comme l'arabe et l'hébreu. Cependant, en raison de la nature cursive et des spécificités directionnelles de ces écritures, la précision peut ne pas égaler les résultats des alphabets latins. Assurez une clarté d'image suffisante pour les meilleurs résultats.

Quelle est la taille des fichiers de modèles linguistiques ? Occupent-ils beaucoup d'espace ?

La plupart des fichiers de modèles linguistiques font entre 1 et 15 Mo. Le modèle anglais fait environ 4 Mo, tandis que les modèles chinois font environ 10-15 Mo. Ces fichiers sont mis en cache par le navigateur et ne seront pas retéléchargés. Si vous devez libérer de l'espace, vider le cache du navigateur supprimera les modèles téléchargés.

🌍

Try the Tool Now

Comprendre quels modèles linguistiques sélectionner et comment optimiser les réglages pour chaque système d'écriture maximise la précision de la reconnaissance.

TOOLS.SURIED.COM