Lors du prochain cycle de développement, priorité à la grammaire. Le but de cette partie de la campagne est très simple : améliorer la détection des erreurs, fournir de meilleures suggestions, réduire le nombre de faux positifs, etc.

Bref, travailler sur le moteur grammatical pour fournir la meilleure correction possible, y compris dans des cas plus complexes que ce que le correcteur peut gérer à présent.

Une partie non négligeable de cette tâche concernera aussi la détection des confusions syntaxiques dues à l’homonymie de nombreux mots du français, comme ce/se, son/sont, soit/soi/soie/sois, a/à, etc.

Ceux qui s’intéressent au fonctionnement du correcteur grammatical peuvent lire ce billet sur LinuxFR.

Il peut paraître étonnant de vouloir réécrire une extension qui existe déjà, mais c’est une nécessité technique indépendante de ma volonté. À l’origine, l’extension pour Firefox a suivi les recommandations pour un développement censé durer les années à venir. Mais fin 2016, Mozilla a décidé de changer son fusil d’épaule concernant les interfaces de programmation qui permettent aux développeurs d’étendre les fonctionnalités de Firefox… En novembre 2017, toutes les extensions conçues selon les anciennes méthodes cesseront de fonctionner. Il faut donc réécrire toute l’interface utilisateur de l’extension. Le cœur de l’extension, le correcteur grammatical, n’est pas à modifier. Il ne s’agit “que” de ce qu’il y a entre le correcteur et Firefox.

Marre de voir des tas de mots soulignés en rouge parce qu’ils ne sont pas dans le dictionnaire? Un nouvelle fonctionnalité vous permettra d’ajouter tout ce dont vous avez besoin, de telle sorte que le correcteur grammatical saura reconnaître les mots en question.

Il s’agit simplement de transcrire le correcteur grammatical pour le navigateur de Google : Chrome.

Améliorer le “lexicographe”

Le lexicographe est un outil qui donne des informations sur les mots. Actuellement il n’en donne que sur la nature grammaticale (nom masculin, verbe, adjectif, préposition…). Il est prévu d’ajouter d’autres informations :
— catégorie(s) sémantique(s) (médecine, informatique, physique, éducation, religion, agriculture, musique…),
— indice de fréquence,
— origine étymologique (latin, grec, anglais, arabe, russe…),
— et autres données utiles (régionalisme, néologisme, argot, abréviation, sigle…).

Un assistant pour proposer directement des mots dans une base de données lexicale commune

Jusqu’à présent les améliorations du dictionnaire se faisaient via un site web. Celui-ci a rempli son rôle pour constituer de manière collaborative un dictionnaire plus complet que ce que nous avions il y a des années. Mais il est temps de simplifier grandement la procédure de sorte que les non-experts puissent proposer directement des ajouts et des modifications directement depuis Writer et Firefox, via un assistant qui simplifiera toute la procédure.

Compteur de mots, détecteur de répétitions

Il s’agit d’un outil énumérant tous les mots d’un texte et comptant le nombre de fois qu’ils ont été utilisés. Le calcul des occurrences se fera sur le lemme (par exemple, “aimerait” sera compté comme une occurrence de “aimer”, “départs” comme une occurrence de “départ”, etc.). C’est un outil utile pour les écrivains soucieux de varier le vocabulaire qu’ils emploient.

Note : Pas de port prévu des outils annexes pour Thunderbird.

Prédire le temps de développement en informatique est souvent un exercice délicat.

Cette fois, je prévois simplement d’y passer un an, voire un an et demi. Comme d’habitude, des versions seront publiées régulièrement, à mesure que les travaux avancent, probablement tous les deux ou trois mois.

L’argent servira tout simplement à développer le logiciel. Environ 8 % de la somme iront à Ulule et aux intermédiaires financiers. Il y a environ 24 % de cotisations sociales.

En temps ordinaire, l’intégration des mots dans le dictionnaire suit une politique assez stricte qui exclut nombre de mots dont l’intérêt est discutable. En remerciement, les contributeurs à ce projet bénéficieront du droit d’ajouter des mots qui sont normalement exclus du dictionnaire.

Autrement dit, il sera possible d’ajouter au dictionnaire des patronymes, des prénoms, des noms de société, des sigles et acronymes, des toponymes (villages, villes, rivières ou autres éléments géographiques), des noms de produits ou des néologismes qui sont normalement refusés.

De nombreux mots appartenant aux catégories mentionnées sont bien sûr acceptables dans le dictionnaire s’ils remplissent les conditions requises. Si les mots que vous voudriez voir dans le dictionnaire sont conformes à la politique du dictionnaire, il vous suffit de les proposer sur Dicollecte. S’ils ne remplissent pas ces conditions, il vous faudra financer Grammalecte pour obtenir le privilège de les ajouter.

Prérequis pour les mots ordinairement acceptés

Prénoms : Plus de 100 000 occurrences sur Google sont requises (parfois moins si le prénom est celui d’un dieu ou d’un héros d’un mythe de l’Antiquité).
Patronymes : Ne sont acceptées que les personnes décédées depuis au moins 20 ans. Mais toutes les catégories de patronymes ne sont pas acceptables. On intègre les personnages historiques célèbres, les mathématiciens ayant donné leur nom à un théorème, les philosophes, les écrivains, les peintres, les musiciens, les physiciens renommés. Au moins 100 000 occurrences sur Google sont requises. Les célébrités du cinéma, de la télé, du show-business, du sport, les politiciens, les chefs spirituels, les “peoples” en général sont refusés.
Sigles et acronymes doivent être présents à la fois dans le Robert et le Larousse.
Toponymes : Sont acceptées les cités de plus de 10 000 habitants en France, Belgique, Canada, Suisse et Luxembourg. Pour les autres pays, nous ne prenons que les villes avec plus de 200 000 habitants. Nous acceptons aussi les cités en ruine ou mythiques dont la renommée a traversé les siècles (Troie, Pompéi, Angkor, Mohenjo-daro, Teotihuacán, etc.). Pour les fleuves, les montagnes et les régions, il faut au moins 100 000 occurrences sur Google. (Note : un gentilé ne peut être accepté que si le lieu géographique est lui-même accepté.)
Les compagnies, les entreprises, les organisations, les sociétés doivent exister depuis au moins 20 ans, elles doivent être présentes au CAC40 ou avoir 500 000 occurrences sur Google.
Produits : Tous proscrits, sauf s’ils sont passés dans l’usage courant et sont, ce faisant, devenus des noms communs. La majuscule n’est alors pas requise, le pluriel est régulier. Exemples : alcootest, bureautique, caméscope, chèque-restaurant, coton-tige, digicode, déchetterie, dictaphone, hygiaphone, mobylette, nylon, texto, velcro, viagra, etc.
Noms communs : les noms communs sont habituellement acceptés. Toutefois, s’ils sont rares (moins de 2000 occurrences sur Google), ils sont susceptibles d’être refusés. Nous refusons aussi parfois les bizarreries, les barbarismes et les variantes graphiques plus rares que les orthographes communes.

Le calcul des occurrences avec Google se fait uniquement sur le web francophone avec cette requête:
http://www.google.fr/search?q="LE_MOT_RECHERCHÉ"&lr=lang_fr&safe=off&filter=0

Les contributeurs pourront proposer des mots outrepassant ces règles.

Toutefois, si un mot est susceptible de semer la confusion dans le correcteur grammatical ou orthographique, je me réserve le droit de le classer dans une section “sécurisée” du dictionnaire, voire de le refuser, ou encore de l’exclure des suggestions du correcteur (c’est-à-dire que le mot sera accepté et considéré comme valide, mais ne fera pas partie des graphies suggérées si on se trompe quand on l’écrit).

Par ailleurs, seuls les caractères alphabétiques latins (avec ou sans signes diacritiques) et numériques, ainsi que le point et le tiret, sont acceptés. Les mots de plus de 40 caractères sont susceptibles d’être refusés.

Pour être parfaitement limpide, ces contreparties vous permettent d’ajouter, par exemple, votre nom de famille, le nom de votre village, des prénoms rares, vos personnages favoris (Tyrion Lannister, Cthulhu, Skywalker, Atréides, Corwin, Obélix, Batman, etc.), vos artistes (Houellebecq, Nothomb, Bacall, Sinatra, Cotillard, Moby, etc.) ou groupes préférés (Metallica, Therion, Beatles, Doors, etc.), les sigles que vous jugez utiles, les produits (Freebox, iPad, Photoshop, Ubuntu, Debian, Word, Krita, Rubik's Cube, etc.), les noms de compagnie, de société, etc.

Pour joindre la liste des mots que vous voulez ajouter au dictionnaire, il suffira de m’en fournir la liste via un formulaire idoine qui vous sera communiqué à la fin de la campagne. Ceux qui prendront la peine de fournir une liste étiquetée pourront proposer deux fois plus de mots pour le même montant. C’est simple : mini-guide pour étiqueter votre liste.

Chaque point de développement vous permet de déterminer les priorités de développement du correcteur grammatical. Choisissez quelles erreurs grammaticales ou quels types d’erreurs le correcteur devrait rechercher en priorité, sur quel type de problème grammatical il faudrait accentuer l’analyse.

Il existe plusieurs catégories d’erreurs :
— les erreurs typographiques (les espaces, les guillemets, les traits d’union, les apostrophes…),
— les erreurs de reconnaissance optique (OCR) (pour ceux qui corrigent des textes numérisés),
— les erreurs d’accords entre noms et adjectifs,
— les erreurs de conjugaison,
— les erreurs de syntaxes (confusion entre se et ce, ça, çà et sa, la et là, peu et peut, les confusions entre les participes passés et les infinitifs, etc.),
— les erreurs de style (comme les pléonasmes)…

Cela dit, plutôt que de répartir vos points sur des catégories aussi vagues et larges, je vous recommande de les attribuer sur des erreurs ou types d’erreurs plus spécifiques. Par exemple, si vous trouvez que Grammalecte n’en fait pas assez pour détecter les confusions entre “peu” et “peut”, choisissez de mettre un point sur cette question.

Vous pouvez demander que le correcteur sache gérer certains cas particuliers qui vous importent.

Vous pouvez aussi attribuer ces points de développement pour la réduction de faux positifs si vous trouvez qu’ils sont trop nombreux dans certains cas.

Malheureusement, les difficultés inhérentes à la correction grammaticale font qu’il est difficile de garantir le résultat de vos demandes, et je ne vous propose pas cette contrepartie sans une certaine inquiétude, car, à n’en pas douter, certaines demandes seront simples à satisfaire, mais d’autres seront d’une difficulté quasi insurmontable, voire irréalisables… C’est pourquoi je ne peux que vous promettre mes meilleurs efforts, les résultats seront à la hauteur de ce qui est possible.