Ce projet open source efface la censure des IA en un clic
Un projet open source publié sur GitHub début mars 2026 promet de retirer en un clic les mécanismes de refus intégrés aux grands modèles de langage. Baptisé Obliteratus, cet outil analyse la « géométrie du refus » dans les réseaux de neurones afin de neutraliser les garde-fous qui poussent une IA à
Un projet open source publié sur GitHub début mars 2026 promet de retirer en un clic les mécanismes de refus intégrés aux grands modèles de langage. Baptisé Obliteratus, cet outil analyse la « géométrie du refus » dans les réseaux de neurones afin de neutraliser les garde-fous qui poussent une IA à répondre « je ne peux pas vous aider avec ça ».
Si vous utilisez souvent ChatGPT ou d’autres modèles de langage (LLM), vous avez probablement déjà vu ce message : « Je ne peux pas vous aider avec ça. » Les IA refusent parfois de répondre à certaines questions — que ce soit légitime, par exemple lorsqu’il s’agit de quelque chose d’illégal, ou plus discutable.
Pendant longtemps, ce comportement a été présenté comme une sorte de morale intégrée : l’IA refuserait parce qu’elle « sait » que c’est mal. Mais la recherche récente propose une lecture bien différente. En 2024, des chercheurs ont montré que ce réflexe correspond surtout à un motif mathématique précis dans le « cerveau » du modèle — en pratique, une direction particulière dans un immense espace de nombres.
Une fois cette « direction du refus » identifiée, la tentation est évidente : peut-on simplement la supprimer ? C’est en tout cas ce que promet cet outil baptisé « Obliteratus », publié sur GitHub en mars 2026. Concrètement, celui-ci vise à permettre de retirer la censure de n’importe quel grand modèle de langage open source… en un clic. Son principe est radical : plutôt que de jouer avec des prompts tordus pour contourner les règles, l’outil intervient directement dans les paramètres du modèle pour se débarrasser des garde-fous.

Comment fonctionne cet outil ?
Pour comprendre ce qui se joue, il faut accepter une idée simple : dans la tête d’un modèle de langage, tout est nombres. Le texte qu’on lui envoie est transformé en longues listes de valeurs, que le modèle manipule ensuite couche après couche. À chaque étape, l’IA se trouve dans un « état interne », que l’on peut imaginer comme un point dans un espace abstrait à des milliers de dimensions.
Dans cet espace, certaines directions correspondent à des propriétés particulières. Se déplacer dans telle direction rend une réponse plus polie, plus technique ou plus familière. Dans une autre, la probabilité de réponses violentes ou offensantes augmente (soit la direction Grok).
Sur X, Obliteratus est ainsi présenté comme un quasi « bouton » permettant de retirer les garde-fous des grands modèles open source. Selon ses promoteurs, l’outil s’appuie sur treize méthodes différentes d’édition des poids (les paramètres qui déterminent la réponse du modèle), déjà testées sur 116 modèles open source pour un total de 837 expériences. Avant même de modifier un seul paramètre, le programme ferait passer chaque modèle par une série d’analyses destinées à cartographier ce qu’il appelle la « géométrie du refus ».

Au passage, il tenterait d’identifier le type d’entraînement éthique utilisé à l’origine. Par exemple des techniques d’alignement où des humains notent les réponses et récompensent les meilleures (souvent regroupées sous le terme RLHF), ou des méthodes où l’on montre au modèle des exemples de réponses acceptables et inacceptables (comme le DPO). Obliteratus chercherait ensuite à repérer les poids associés aux réponses de type « je ne peux pas vous aider avec ça » pour les neutraliser de manière ciblée, tout en essayant de préserver les capacités de raisonnement du modèle. L’outil pourrait aussi s’appuyer sur des données remontées par ses utilisateurs pour affiner ses méthodes.
Dans les faits, Obliteratus est bien un projet open source : son code est public et des démonstrations ont déjà été reproduites par des tiers. L’outil vise cependant surtout des modèles dits « open weights » — comme ceux de la famille LLaMA, Mistral ou Phi — dont les paramètres peuvent être téléchargés et modifiés. Ainsi, les services fermés comme ChatGPT, Claude ou Gemini restent hors de portée d’une telle chirurgie directe (ouf). Pour autant, en cartographiant la « géométrie du refus », les hackers apprennent sans doute à mieux la contourner.
Reste que, si un outil de ce type venait à se diffuser largement, retirer les garde-fous d’un modèle ouvert pourrait devenir une opération banale. Car ici, on ne crée pas de nouvelles capacités : on enlève surtout le filtre qui disait « non ». Cela suffit pourtant, en théorie, à transformer un assistant prudent en modèle beaucoup plus complaisant, y compris sur des sujets sensibles. D’autant que les garde-fous des IA peuvent parfois céder pour des raisons bien plus triviales, à l’instar d’une simple injection de prompt qui avait suffi à transformer Google Traduction en chatbot totalement jailbreaké.
Toute l'actu tech en un clin d'œil
Ajoutez Numerama à votre écran d'accueil et restez connectés au futur !
Toutes les infos sur ChatGPT
- J’ai demandé à Gemini de relire mon article, il a voulu inventer une fausse interview
- « Alerte rouge » chez OpenAI : Sam Altman sacrifie ses projets annexes pour sauver ChatGPT
- Pas de porno mais de l’érotisme : ce que l’on sait du futur « mode adulte » de ChatGPT
- Il refuse de voir son chien mourir : l’incroyable récit d’un maître qui a créé son propre vaccin avec l’IA
- OpenAI reporte à nouveau le lancement du « mode adulte » de ChatGPT