BackBackMenuClosePlusPlusSearchUluleUluleUluleChatFacebookInstagramLinkedInTwitterYouTubefacebooktwitter

Grammalecte

Correcteur grammatical open source

À propos du projet

Grammalecte est un correcteur grammatical open source pour Firefox, Thunderbird et LibreOffice. Il existe aussi comme logiciel autonome sous forme d’interface en ligne de commande et de serveur. Ces logiciels sont disponibles sur cette page (sous licence libre GPL-3).

Le but de cette campagne se résume en quelques points :

Améliorer la correction grammaticale,
— Faire évoluer son interface et son intégration à Firefox,
— Créer une extension pour Google Chrome,
— Concevoir des outils annexes.

Tout sera publié sous licence libre.

Si la première campagne de financement avait pour but d’apporter la correction grammaticale en dehors de LibreOffice, celle-ci se focalise essentiellement sur l’amélioration du correcteur grammatical lui-même. Cette fois, la priorité sera tout simplement la grammaire…

Mais avant de détailler l’objet de cette campagne, une présentation des fonctionnalités déjà existantes. Quoique le plus simple, c’est encore d’essayer l’outil que vous pouvez télécharger librement sur cette page.

 

La première fonction d’un correcteur grammatical, c’est évidemment de détecter et de signaler les erreurs. Grammalecte peut détecter, entre autres choses, les problèmes de typographie, les doublons, les espaces superflus ou manquants, les erreurs d’accord de nombre et de genre, les conjugaisons erronées, les faux amis employés à mauvais escient, les confusions, les pléonasmes.

Mais comme rien ne vaut une démonstration, voici des captures d’écran (sur LibreOffice) :

Grammalecte est aussi doté d’un moteur de suggestion (les captures d’écran sont sous Firefox).

* * *

Grammalecte dispose également d’un conjugueur intégré. Plus besoin d’aller sur Internet ou chercher dans son dictionnaire comment se conjuguent les verbes (capture d’écran sur Firefox).

* * *

Pour finir, le correcteur possède un outil de correction automatisé qui vous évite d’avoir à modifier une à une les milliers d’erreurs typographiques qui abondent dans les textes (capture d’écran sur LibreOffice).

C’est simple. Le formateur est préréglé pour la très grande majorité des cas. Il suffit de cliquer sur Appliquer.

 

A quoi va servir le financement ?

Lors du prochain cycle de développement, priorité à la grammaire. Le but de cette partie de la campagne est très simple : améliorer la détection des erreurs, fournir de meilleures suggestions, réduire le nombre de faux positifs, etc.

Bref, travailler sur le moteur grammatical pour fournir la meilleure correction possible, y compris dans des cas plus complexes que ce que le correcteur peut gérer à présent.

Une partie non négligeable de cette tâche concernera aussi la détection des confusions syntaxiques dues à l’homonymie de nombreux mots du français, comme ce/se, son/sont, soit/soi/soie/sois, a/à, etc.

Ceux qui s’intéressent au fonctionnement du correcteur grammatical peuvent lire ce billet sur LinuxFR.

 

Il peut paraître étonnant de vouloir réécrire une extension qui existe déjà, mais c’est une nécessité technique indépendante de ma volonté. À l’origine, l’extension pour Firefox a suivi les recommandations pour un développement censé durer les années à venir. Mais fin 2016, Mozilla a décidé de changer son fusil d’épaule concernant les interfaces de programmation qui permettent aux développeurs d’étendre les fonctionnalités de Firefox… En novembre 2017, toutes les extensions conçues selon les anciennes méthodes cesseront de fonctionner. Il faut donc réécrire toute l’interface utilisateur de l’extension. Le cœur de l’extension, le correcteur grammatical, n’est pas à modifier. Il ne s’agit “que” de ce qu’il y a entre le correcteur et Firefox.

 

Marre de voir des tas de mots soulignés en rouge parce qu’ils ne sont pas dans le dictionnaire? Un nouvelle fonctionnalité vous permettra d’ajouter tout ce dont vous avez besoin, de telle sorte que le correcteur grammatical saura reconnaître les mots en question.

 

Il s’agit simplement de transcrire le correcteur grammatical pour le navigateur de Google : Chrome.

 

Améliorer le “lexicographe”

Le lexicographe est un outil qui donne des informations sur les mots. Actuellement il n’en donne que sur la nature grammaticale (nom masculin, verbe, adjectif, préposition…). Il est prévu d’ajouter d’autres informations :
— catégorie(s) sémantique(s) (médecine, informatique, physique, éducation, religion, agriculture, musique…),
— indice de fréquence,
— origine étymologique (latin, grec, anglais, arabe, russe…),
— et autres données utiles (régionalisme, néologisme, argot, abréviation, sigle…).

Un assistant pour proposer directement des mots dans une base de données lexicale commune

Jusqu’à présent les améliorations du dictionnaire se faisaient via un site web. Celui-ci a rempli son rôle pour constituer de manière collaborative un dictionnaire plus complet que ce que nous avions il y a des années. Mais il est temps de simplifier grandement la procédure de sorte que les non-experts puissent proposer directement des ajouts et des modifications directement depuis Writer et Firefox, via un assistant qui simplifiera toute la procédure.

Compteur de mots, détecteur de répétitions

Il s’agit d’un outil énumérant tous les mots d’un texte et comptant le nombre de fois qu’ils ont été utilisés. Le calcul des occurrences se fera sur le lemme (par exemple, “aimerait” sera compté comme une occurrence de “aimer”, “départs” comme une occurrence de “départ”, etc.). C’est un outil utile pour les écrivains soucieux de varier le vocabulaire qu’ils emploient.

Note : Pas de port prévu des outils annexes pour Thunderbird.

 

Prédire le temps de développement en informatique est souvent un exercice délicat.

Cette fois, je prévois simplement d’y passer un an, voire un an et demi. Comme d’habitude, des versions seront publiées régulièrement, à mesure que les travaux avancent, probablement tous les deux ou trois mois.

L’argent servira tout simplement à développer le logiciel. Environ 8 % de la somme iront à Ulule et aux intermédiaires financiers. Il y a environ 24 % de cotisations sociales.

 

En temps ordinaire, l’intégration des mots dans le dictionnaire suit une politique assez stricte qui exclut nombre de mots dont l’intérêt est discutable. En remerciement, les contributeurs à ce projet bénéficieront du droit d’ajouter des mots qui sont normalement exclus du dictionnaire.

Autrement dit, il sera possible d’ajouter au dictionnaire des patronymes, des prénoms, des noms de société, des sigles et acronymes, des toponymes (villages, villes, rivières ou autres éléments géographiques), des noms de produits ou des néologismes qui sont normalement refusés.

De nombreux mots appartenant aux catégories mentionnées sont bien sûr acceptables dans le dictionnaire s’ils remplissent les conditions requises. Si les mots que vous voudriez voir dans le dictionnaire sont conformes à la politique du dictionnaire, il vous suffit de les proposer sur Dicollecte. S’ils ne remplissent pas ces conditions, il vous faudra financer Grammalecte pour obtenir le privilège de les ajouter.

Prérequis pour les mots ordinairement acceptés

  • Prénoms : Plus de 100 000 occurrences sur Google sont requises (parfois moins si le prénom est celui d’un dieu ou d’un héros d’un mythe de l’Antiquité).
  • Patronymes : Ne sont acceptées que les personnes décédées depuis au moins 20 ans. Mais toutes les catégories de patronymes ne sont pas acceptables. On intègre les personnages historiques célèbres, les mathématiciens ayant donné leur nom à un théorème, les philosophes, les écrivains, les peintres, les musiciens, les physiciens renommés. Au moins 100 000 occurrences sur Google sont requises. Les célébrités du cinéma, de la télé, du show-business, du sport, les politiciens, les chefs spirituels, les “peoples” en général sont refusés.
  • Sigles et acronymes doivent être présents à la fois dans le Robert et le Larousse.
  • Toponymes : Sont acceptées les cités de plus de 10 000 habitants en France, Belgique, Canada, Suisse et Luxembourg. Pour les autres pays, nous ne prenons que les villes avec plus de 200 000 habitants. Nous acceptons aussi les cités en ruine ou mythiques dont la renommée a traversé les siècles (Troie, Pompéi, Angkor, Mohenjo-daro, Teotihuacán, etc.). Pour les fleuves, les montagnes et les régions, il faut au moins 100 000 occurrences sur Google. (Note : un gentilé ne peut être accepté que si le lieu géographique est lui-même accepté.)
  • Les compagnies, les entreprises, les organisations, les sociétés doivent exister depuis au moins 20 ans, elles doivent être présentes au CAC40 ou avoir 500 000 occurrences sur Google.
  • Produits : Tous proscrits, sauf s’ils sont passés dans l’usage courant et sont, ce faisant, devenus des noms communs. La majuscule n’est alors pas requise, le pluriel est régulier. Exemples : alcootest, bureautique, caméscope, chèque-restaurant, coton-tige, digicode, déchetterie, dictaphone, hygiaphone, mobylette, nylon, texto, velcro, viagra, etc.
  • Noms communs : les noms communs sont habituellement acceptés. Toutefois, s’ils sont rares (moins de 2000 occurrences sur Google), ils sont susceptibles d’être refusés. Nous refusons aussi parfois les bizarreries, les barbarismes et les variantes graphiques plus rares que les orthographes communes.

Le calcul des occurrences avec Google se fait uniquement sur le web francophone avec cette requête:
http://www.google.fr/search?q="LE_MOT_RECHERCHÉ"&lr=lang_fr&safe=off&filter=0

Les contributeurs pourront proposer des mots outrepassant ces règles.

Toutefois, si un mot est susceptible de semer la confusion dans le correcteur grammatical ou orthographique, je me réserve le droit de le classer dans une section “sécurisée” du dictionnaire, voire de le refuser, ou encore de l’exclure des suggestions du correcteur (c’est-à-dire que le mot sera accepté et considéré comme valide, mais ne fera pas partie des graphies suggérées si on se trompe quand on l’écrit).

Par ailleurs, seuls les caractères alphabétiques latins (avec ou sans signes diacritiques) et numériques, ainsi que le point et le tiret, sont acceptés. Les mots de plus de 40 caractères sont susceptibles d’être refusés.

Pour être parfaitement limpide, ces contreparties vous permettent d’ajouter, par exemple, votre nom de famille, le nom de votre village, des prénoms rares, vos personnages favoris (Tyrion Lannister, Cthulhu, Skywalker, Atréides, Corwin, Obélix, Batman, etc.), vos artistes (Houellebecq, Nothomb, Bacall, Sinatra, Cotillard, Moby, etc.) ou groupes préférés (Metallica, Therion, Beatles, Doors, etc.), les sigles que vous jugez utiles, les produits (Freebox, iPad, Photoshop, Ubuntu, Debian, Word, Krita, Rubik's Cube, etc.), les noms de compagnie, de société, etc.

Pour joindre la liste des mots que vous voulez ajouter au dictionnaire, il suffira de m’en fournir la liste via un formulaire idoine qui vous sera communiqué à la fin de la campagne. Ceux qui prendront la peine de fournir une liste étiquetée pourront proposer deux fois plus de mots pour le même montant. C’est simple : mini-guide pour étiqueter votre liste.

 

Chaque point de développement vous permet de déterminer les priorités de développement du correcteur grammatical. Choisissez quelles erreurs grammaticales ou quels types d’erreurs le correcteur devrait rechercher en priorité, sur quel type de problème grammatical il faudrait accentuer l’analyse.

Il existe plusieurs catégories d’erreurs :
— les erreurs typographiques (les espaces, les guillemets, les traits d’union, les apostrophes…),
— les erreurs de reconnaissance optique (OCR) (pour ceux qui corrigent des textes numérisés),
— les erreurs d’accords entre noms et adjectifs,
— les erreurs de conjugaison,
— les erreurs de syntaxes (confusion entre se et ce, ça, çà et sa, la et , peu et peut, les confusions entre les participes passés et les infinitifs, etc.),
— les erreurs de style (comme les pléonasmes)…

Cela dit, plutôt que de répartir vos points sur des catégories aussi vagues et larges, je vous recommande de les attribuer sur des erreurs ou types d’erreurs plus spécifiques. Par exemple, si vous trouvez que Grammalecte n’en fait pas assez pour détecter les confusions entre “peu” et “peut”, choisissez de mettre un point sur cette question.

Vous pouvez demander que le correcteur sache gérer certains cas particuliers qui vous importent.

Vous pouvez aussi attribuer ces points de développement pour la réduction de faux positifs si vous trouvez qu’ils sont trop nombreux dans certains cas.

Malheureusement, les difficultés inhérentes à la correction grammaticale font qu’il est difficile de garantir le résultat de vos demandes, et je ne vous propose pas cette contrepartie sans une certaine inquiétude, car, à n’en pas douter, certaines demandes seront simples à satisfaire, mais d’autres seront d’une difficulté quasi insurmontable, voire irréalisables… C’est pourquoi je ne peux que vous promettre mes meilleurs efforts, les résultats seront à la hauteur de ce qui est possible.

À propos du porteur de projet

Depuis 2007, je travaille à l’amélioration du dictionnaire orthographique qui est utilisé dans la plupart des logiciels libres existants (LibreOffice, OpenOffice, Firefox, Thunderbird, Chrome, Opera, Linux, etc.). Pour ce faire, j’ai écrit un site web collaboratif où chacun peut proposer d’ajouter les mots manquants ou de modifier l’existant. Depuis le début, environ 30 000 mots ont été ajoutés (nous avons à présent plus de 82 000 mots dans la base), et surtout nous sommes passés d’un dictionnaire anarchique, incohérent et lacunaire sans aucun étiquetage à un dictionnaire normalisé étiqueté grammaticalement à 100 %, sans compter d’autres étiquettes potentiellement utiles.
Tout ce travail préliminaire m’a permis en 2010 d’entamer l’écriture du correcteur grammatical, d’abord par curiosité. Puis, comme le logiciel rencontrait un succès d’estime, j’ai régulièrement publié des versions (environ une quarantaine à ce jour). C’est extrêmement chronophage, car il faut régler une infinité de détails. En vérité, les détails constituent l’une des tâches majeures de la conception d’un correcteur grammatical.

Grammalecte pour LibreOffice/OpenOffice est téléchargé entre 50 et 100 fois par jour et utilisé dans l’administration.

La première campagne de financement a permis de désimbriquer le correcteur de LibreOffice et d’en faire une version autonome, ainsi que créer une version en JavaScript pour Firefox et Thunderbird.

FAQ

Poser une question Signaler ce projet