Ce projet open source efface la censure des IA en un clic

Un projet open source publié sur GitHub début mars 2026 promet de retirer en un clic les mécanismes de refus intégrés aux grands modèles de langage. Baptisé Obliteratus, cet outil analyse la « géométrie du refus » dans les réseaux de neurones afin de neutraliser les garde-fous qui poussent une IA à répondre « je ne peux pas vous aider avec ça ».

Si vous utilisez souvent ChatGPT ou d’autres modèles de langage (LLM), vous avez probablement déjà vu ce message : « Je ne peux pas vous aider avec ça. » Les IA refusent parfois de répondre à certaines questions — que ce soit légitime, par exemple lorsqu’il s’agit de quelque chose d’illégal, ou plus discutable.

Pendant longtemps, ce comportement a été présenté comme une sorte de morale intégrée : l’IA refuserait parce qu’elle « sait » que c’est mal. Mais la recherche récente propose une lecture bien différente. En 2024, des chercheurs ont montré que ce réflexe correspond surtout à un motif mathématique précis dans le « cerveau » du modèle — en pratique, une direction particulière dans un immense espace de nombres.

Une fois cette « direction du refus » identifiée, la tentation est évidente : peut-on simplement la supprimer ? C’est en tout cas ce que promet cet outil baptisé « Obliteratus », publié sur GitHub en mars 2026. Concrètement, celui-ci vise à permettre de retirer la censure de n’importe quel grand modèle de langage open source… en un clic. Son principe est radical : plutôt que de jouer avec des prompts tordus pour contourner les règles, l’outil intervient directement dans les paramètres du modèle pour se débarrasser des garde-fous.

« Obliteratus », publié sur GitHub. // Source : elder-plinius

Comment fonctionne cet outil ?

Pour comprendre ce qui se joue, il faut accepter une idée simple : dans la tête d’un modèle de langage, tout est nombres. Le texte qu’on lui envoie est transformé en longues listes de valeurs, que le modèle manipule ensuite couche après couche. À chaque étape, l’IA se trouve dans un « état interne », que l’on peut imaginer comme un point dans un espace abstrait à des milliers de dimensions.

Dans cet espace, certaines directions correspondent à des propriétés particulières. Se déplacer dans telle direction rend une réponse plus polie, plus technique ou plus familière. Dans une autre, la probabilité de réponses violentes ou offensantes augmente (soit la direction Grok).

Sur X, Obliteratus est ainsi présenté comme un quasi « bouton » permettant de retirer les garde-fous des grands modèles open source. Selon ses promoteurs, l’outil s’appuie sur treize méthodes différentes d’édition des poids (les paramètres qui déterminent la réponse du modèle), déjà testées sur 116 modèles open source pour un total de 837 expériences. Avant même de modifier un seul paramètre, le programme ferait passer chaque modèle par une série d’analyses destinées à cartographier ce qu’il appelle la « géométrie du refus ».

Obliteratus analyse la « géométrie du refus » // Source : Elder-plinius

Au passage, il tenterait d’identifier le type d’entraînement éthique utilisé à l’origine. Par exemple des techniques d’alignement où des humains notent les réponses et récompensent les meilleures (souvent regroupées sous le terme RLHF), ou des méthodes où l’on montre au modèle des exemples de réponses acceptables et inacceptables (comme le DPO). Obliteratus chercherait ensuite à repérer les poids associés aux réponses de type « je ne peux pas vous aider avec ça » pour les neutraliser de manière ciblée, tout en essayant de préserver les capacités de raisonnement du modèle. L’outil pourrait aussi s’appuyer sur des données remontées par ses utilisateurs pour affiner ses méthodes.

Dans les faits, Obliteratus est bien un projet open source : son code est public et des démonstrations ont déjà été reproduites par des tiers. L’outil vise cependant surtout des modèles dits « open weights » — comme ceux de la famille LLaMA, Mistral ou Phi — dont les paramètres peuvent être téléchargés et modifiés. Ainsi, les services fermés comme ChatGPT, Claude ou Gemini restent hors de portée d’une telle chirurgie directe (ouf). Pour autant, en cartographiant la « géométrie du refus », les hackers apprennent sans doute à mieux la contourner.

Reste que, si un outil de ce type venait à se diffuser largement, retirer les garde-fous d’un modèle ouvert pourrait devenir une opération banale. Car ici, on ne crée pas de nouvelles capacités : on enlève surtout le filtre qui disait « non ». Cela suffit pourtant, en théorie, à transformer un assistant prudent en modèle beaucoup plus complaisant, y compris sur des sujets sensibles. D’autant que les garde-fous des IA peuvent parfois céder pour des raisons bien plus triviales, à l’instar d’une simple injection de prompt qui avait suffi à transformer Google Traduction en chatbot totalement jailbreaké.

Toute l'actu tech en un clien d'oeil

Toute l'actu tech en un clin d'œil

Ajoutez Numerama à votre écran d'accueil et restez connectés au futur !

Toutes les infos sur ChatGPT

Domaines

Contenu

QuantumDev

Ce projet open source efface la censure des IA en un clic

Comment fonctionne cet outil ?