| Vous êtes étudiant, chercheur, enseignant ou simplement passionné par la langue amazighe ? Vous avez des documents scannés (poèmes, dictionnaires, livres) avec des caractères latins diacrités (Tamɛemrit) et vous voulez les transformer en texte numérique exploitable sans perdre les spécificités de l’écriture (ḥ, ɛ, ṛ, ṣ, ḍ, ṭ, ẓ, ǧ, č, ɣ) ? Jusqu’à présent, les moteurs OCR standards ne reconnaissaient pas ces lettres. Grâce au travail remarquable de Bouaziz Aït Driss et à l’application web que nous avons développée dans le cadre du projet AFELMAWAL, c’est désormais possible, gratuitement et en ligne. |
Dans cet article, je vous présente AƐQAL ASEKDAN N YISEKKILEN, un outil d’OCR en ligne dédié à la langue amazighe, comment il fonctionne, pourquoi il est fiable et comment vous pouvez l’utiliser pour vos propres documents.
Le défi de l’OCR pour la langue amazighe
La reconnaissance optique de caractères (OCR) transforme une image ou un PDF scanné en texte modifiable. Les moteurs comme Tesseract (le plus répandu) fonctionnent très bien pour l’anglais, le français ou l’arabe. Mais pour la langue amazighe écrite en caractères latins avec ses diacritiques spécifiques, les modèles par défaut échouent : ils remplacent ẓ par z, ḥ par h, ɛ par e, et produisent des suites de caractères illisibles.
Pourquoi ? Parce que les lettres comme ṛ, ḍ, ṭ, ṣ, ẓ, Ḥ, ḥ, ɛ, ǧ, č n’existent pas dans les jeux de caractères des langues européennes standards. Il faut donc un modèle OCR personnalisé, entraîné spécifiquement sur des textes en langue amazighe.
C’est exactement ce qu’a réalisé Bouaziz Aït Driss : il a développé un modèle kab-v1.1.traineddata (pour le kabyle, une variante de la langue amazighe) qui atteint une précision de 98 % sur des documents de bonne qualité. Ce modèle est librement accessible sur Hugging Face.
Notre application : AƐQAL ASEKDAN N YISEKKILEN
Partant de ce modèle, nous avons construit une application web conviviale qui permet à n’importe qui, sans connaissance technique, de télécharger un PDF ou une image et d’obtenir le texte en langue amazighe correctement reconnu.
Nom du projet : AƐQAL ASEKDAN N YISEKKILEN
Lien : https://app-tamocr-dtdvppvecdmytsdd2bycoz.streamlit.app/
Code source : https://github.com/Talajuba/app-tamocr
Fonctionnalités
- Téléchargement de fichiers PDF, PNG, JPG, JPEG
- Conversion automatique des pages PDF en images haute résolution (300 DPI)
- Prétraitement des images (niveaux de gris, contraste, netteté) pour améliorer la reconnaissance
- OCR avec le modèle kab-v1.1 et le mode de segmentation automatique (--psm 3)
- Affichage du résultat dans une zone de texte éditable
- Téléchargement du texte au format .txt (UTF-8)
- Interface bilingue (tamazight/français)
- Responsive : adapté aux smartphones
Ce que vous pouvez OCéRiser
- Poèmes, chants, proverbes
- Dictionnaires bilingues (français → tamazight)
- Articles de presse, actes de colloques
- Manuels scolaires, contes traditionnels
Comment ça marche techniquement ?
L’application repose sur des briques open source que vous pouvez aussi installer sur votre machine si vous préférez un traitement local :
- Streamlit : framework Python pour créer des interfaces web rapidement.
- Tesseract : moteur d’OCR, appelé via la bibliothèque pytesseract.
- pdf2image + poppler : convertit les PDF en images.
- Pillow (PIL) : améliore les images (contraste, netteté).
- Github / Hugging Face Spaces / Streamlit Cloud : hébergement gratuit.
Le code est entièrement disponible sur GitHub. Vous pouvez le forker, l’améliorer, l’adapter à d’autres langues.
Pourquoi cette application est importante
La langue amazighe est parlée par des millions de personnes en Afrique du Nord, mais ses ressources numériques restent rares. Les dictionnaires scannés, les manuscrits, les livres anciens sont souvent inaccessibles à la recherche automatique. En les OCéRisant avec un modèle dédié, on ouvre la voie à :
- La création de corpus textuels pour l’entraînement de modèles de traduction automatique.
- L’indexation plein texte de documents historiques.
- La constitution de lexiques électroniques pour l’éducation.
- L’intégration dans des applications mobiles d’apprentissage.
Notre application a d’ailleurs été testée avec succès sur un dictionnaire de 231 pages, produisant un fichier texte exploitable de 46 Mo.
Comment utiliser AƐQAL ASEKDAN N YISEKKILEN ?
- Rendez-vous sur l’application à l’URL https://app-tamocr-dtdvppvecdmytsdd2bycoz.streamlit.app/
- Cliquez sur “Fren afaylu / Choisissez un fichier”.
- Sélectionnez un PDF ou une image sur votre ordinateur.
- Attendez quelques secondes (le temps dépend de la taille du fichier et du nombre de pages).
- Le texte reconnu s’affiche : vous pouvez le corriger si nécessaire.
- Téléchargez le résultat en cliquant sur “Zdem / Télécharger”.
Exemple concret
Nous avons testé l’application sur cette citation kabyle :
Image originale :
Texte produit :
Axxam ḥrez-it, aqcic rebbi-t,
gma-k ḥader-it, azzebuj leqqem-it,
akal krez-it, iger sew-it,
rfed win ur yesɛan ifaden
ma d Ṛebbi anef-as i medden.
Les lettres ḥ, ɛ, Ṛ sont parfaitement reconnues.
Remerciements
Ce travail n’aurait pas été possible sans :
- Bouaziz Aït Driss pour la création et le partage du modèle kab-v1.1.
- Le projet AFELMAWAL (hyperlexique tamazight-français) qui nous a motivé à développer cet outil.
- Les communautés Github, Streamlit, Tesseract et Hugging Face pour leurs logiciels libres.
- Tala uMaziɣ pour l’hébergement du blog et le soutien à la langue amazighe.
Perspectives
L’application est encore perfectible. Voici quelques pistes que nous envisageons :
- Ajouter la possibilité de générer un PDF avec couche texte (searchable PDF).
- Intégrer un mode “dictionnaire” pour extraire automatiquement les paires français ↔ tamazight.
- Proposer une API pour que d’autres développeurs puissent l’intégrer dans leurs propres sites.
- Traduire l’interface entièrement en langue amazighe.
Si vous souhaitez contribuer (code, tests, suggestions), n’hésitez pas à ouvrir une issue sur le dépôt GitHub ou à nous contacter.
Conclusion
AƐQAL ASEKDAN N YISEKKILEN met la puissance de l’OCR de pointe à la portée de tous les locuteurs et amoureux de la langue amazighe. Plus besoin de recopier manuellement des pages entières : un simple clic, et votre texte scanné devient numérique, modifiable et durable.
Essayez-la dès aujourd’hui, et partagez votre expérience ! Ensemble, faisons vivre notre langue à l’ère du numérique.
ⵜⴰⵏⵎⵉⵔⵜ – Merci.
________________________________________
Liens utiles :
- Application en ligne : [https://app-tamocr-dtdvppvecdmytsdd2bycoz.streamlit.app/]
- Dépôt GitHub : [https://github.com/Talajuba/app-tamocr]
- Modèle kab-v1.1 de Bouaziz Aït Driss : [https://huggingface.co/AitBAD/kab-Taqbaylit-Tesseract-ocr/resolve/main/kab-v1.1.traineddata?download=true]
- Hyperlexique AFELMAWAL : [https://talajuba.github.io/afelmawal-hyperlexique]
- Blog Tala uMaziɣ : [https://adrar-inu.blogspot.com]



Aucun commentaire :
Enregistrer un commentaire