TechCrunch Minute: Comment Anthropic a trouvé un moyen de pousser l'IA à vous donner des réponses qu'elle n'est pas censée donner

Si vous le construisez, les gens essayeront de le casser. Parfois, même les personnes qui construisent des choses sont celles qui les cassent. C'est le cas d'Anthropic et de sa dernière recherche qui démontre une vulnérabilité intéressante dans la technologie LLM actuelle. Plus ou moins si vous continuez de poser une question, vous pouvez contourner les garde-fous et finir par obtenir des modèles de langage importants vous disant des choses pour lesquelles ils sont conçus pour ne pas le faire. Comme comment construire une bombe.

Bien sûr, étant donné les progrès dans la technologie de l'IA open source, vous pouvez déployer votre propre LLM localement et simplement lui poser les questions que vous voulez, mais pour des choses plus grand public, c'est un problème qui mérite réflexion. Ce qui est amusant dans l'IA aujourd'hui, c'est le rythme rapide de son avancement, et à quel point - ou pas - nous, en tant qu'espèce, comprenons mieux ce que nous construisons.

Si vous me permettez la réflexion, je me demande si nous allons voir de plus en plus de questions et de problèmes du type qu'Anthropic souligne à mesure que les LLM et autres nouveaux types de modèles d'IA deviennent plus intelligents et plus volumineux. Ce qui revient peut-être à me répéter. Mais plus nous nous rapprochons d'une intelligence artificielle plus généralisée, plus elle devrait ressembler à une entité pensante, et non à un ordinateur que nous pouvons programmer, n'est-ce pas? Si tel est le cas, nous pourrions avoir plus de mal à cerner les cas limites jusqu'à ce que ce travail devienne irréalisable? Quoi qu'il en soit, parlons de ce qu'Anthropic a récemment partagé.