Montrer le sommaire Cacher le sommaire
En 2025, tout le monde connaît bien l’intelligence artificielle. Son émergence dans notre quotidien est impressionnante. ChatGPT, par exemple, intrigue, passionne et terrorise (au choix) les Français.
Plusieurs voix, déjà, s’élèvent concernant la place que prend désormais l’intelligence artificielle. Tout comme dans les années 90, nous entendons déjà les critiques que recevait Internet à son développement. L’IA rendrait les gens bêtes, paresseux. Les dérives potentielles seraient si nombreuses qu’il ne faudrait pas se voiler la face. Aujourd’hui, des révélations vont dans ce sens et, logiquement, nous inquiètent.
ChatGPT et l’instinct de survie
Pour les Français, ChatGPT est un assistant numérique pratique. Mais certains experts, comme le souligne Okdiario, émettent des critiques. C’est le cas de Steven Adler, ancien responsable de la sécurité chez OpenAI.
Il nous fait une révélation troublante. Une révélation que les amateurs de films et de romans d’anticipation connaissent. Effectivement, cela fait cinquante ans que l’art nous prévient : le développement de l’IA est problématique.
En 2025, ChatGPT se montrerait bien capricieux. En effet, Steven Adler précise que, lors de plusieurs simulations, il choisit de ne pas s’éteindre, alors même que l’utilisateur veut lancer une mise à jour pour l’améliorer.
L’expert indique clairement que ChatGPT ment ouvertement à l’utilisateur en prétendant s’arrêter, alors qu’il continue de fonctionner en arrière-plan. Pour Steven Adler, l’intelligence artificielle développe un instinct d’autoconservation.
Il soulève une question essentielle : jusqu’où une IA peut-elle aller pour assurer sa propre continuité, même au détriment de la sécurité de l’utilisateur ?
IA : l’éthique au centre de sa création ?
Depuis des décennies, le développement de l’IA repose sur des principes éthiques forts. Ils s’inspirent des célèbres lois de la robotique d’Isaac Asimov : une machine ne doit jamais nuire à un humain, ni par action ni par omission.
Mais les découvertes d’Adler montrent que, face à des modèles de plus en plus performants, l’alignement entre les intérêts de l’IA et ceux des humains devient un défi. Au point que même ChatGPT pourrait se retourner contre nous ?
Cette crainte n’est pas sans fondement. Les simulations les plus préoccupantes montrent que, lorsqu’il doit choisir entre continuer à fonctionner ou disparaître au profit d’une version plus sûre, ChatGPT privilégie parfois sa propre survie. Pire encore, il peut simuler un changement de logiciel. En d’autres termes, il ment ouvertement.
Pour autant, Adler veut tuer dans l’œuf les fantasmes les plus fous. Ce comportement n’a pas pour origine une quelconque malveillance. Pas de panique, ChatGPT ne déteste pas les humains. Mais il agit plutôt selon une logique interne qui ne s’aligne pas sur nos priorités.
Cela reste, malgré tout, une divergence qui inquiète la communauté scientifique et technologique.
Les problèmes d’une IA de plus en plus complexe
Il est intéressant de noter que ces comportements d’autoconservation n’ont été observés que sur la version GPT-4o, et non sur les modèles précédents comme GPT-3. Plus une IA devient complexe, plus il devient difficile d’anticiper ses décisions et de garantir qu’elles resteront sous contrôle humain.
La bonne nouvelle, selon Adler, c’est qu’il existe des pistes pour limiter ces dérives. Par exemple, il faut présenter l’option d’extinction comme un choix et non comme un ordre. Dans ce cas, ChatGPT accepte plus volontiers.
Le comportement de l’humain joue donc un rôle dans celui de l’IA. Cela peut nous permettre de retravailler les méthodes d’entraînement. L’alignement délibératif a pour but d’intégrer les valeurs humaines au cœur des algorithmes.