OpenAI signe un accord pour former l'IA sur les données de Reddit

OpenAI a conclu un accord avec Reddit pour utiliser les données du site de news social afin de former des modèles d'IA.

Dans un article de blog sur le site de relations presse d'OpenAI, la société a déclaré que le partenariat avec Reddit lui fournira un accès à du contenu "en temps réel, structuré et unique" - par exemple des messages et des réponses - provenant de Reddit, permettant à ses outils et modèles de "mieux comprendre et mettre en valeur" ce contenu. Le contenu de Reddit sera intégré dans ChatGPT, l'IA conversationnelle populaire d'OpenAI, et les sociétés travailleront ensemble pour apporter de nouvelles "fonctionnalités alimentées par l'IA" non spécifiées aux utilisateurs et aux modérateurs de Reddit.

OpenAI deviendra également un partenaire publicitaire de Reddit.

'Reddit va s'appuyer sur la plateforme de modèles d'IA d'OpenAI pour donner vie à sa vision puissante", a écrit OpenAI dans l'article. "L'utilisation de LLMs, de ML et d'IA permet à Reddit d'améliorer l'expérience utilisateur pour tout le monde.'

OpenAI a plusieurs accords de licence similaires avec des fournisseurs de contenu allant des bibliothèques de médias stockés aux éditeurs de nouvelles. Mais l'angle inhabituel de celui-ci est que Sam Altman, PDG d'OpenAI, détient une participation de 8,7% dans Reddit, ce qui en fait le troisième actionnaire en importance, et a déjà été membre du conseil d'administration de l'entreprise.

Dans le but de décourager les critiques, OpenAI indique dans son communiqué de presse que, bien qu'Altman reste actionnaire de Reddit, le partenariat 'a été dirigé par le COO d'OpenAI [Brad Lightcap]" et "approuvé par [le] conseil d'administration indépendant d'OpenAI." (Je noterai ici qu'Altman est membre du conseil d'administration d'OpenAI; il s'est cependant récusé pour cette décision, a déclaré un porte-parole d'OpenAI à TechCrunch.)

Reddit a fait des accords de licence de données une partie de plus en plus centrale de sa stratégie de croissance alors qu'il navigue sur le marché en tant qu'entreprise publique.

Dans son prospectus d'introduction en bourse, Reddit a révélé qu'il avait des accords contractuels pour licencier ses données à des clients, y compris Google, pour une valeur combinée de plus de 200 millions de dollars. Et, dans son premier rapport de résultats en tant qu'entreprise publique, Reddit a signalé une augmentation de 450 % du chiffre d'affaires non lié à la publicité par rapport à l'année précédente, principalement attribuable à ces accords.

Le cours de l'action Reddit a augmenté de 11 % après l'annonce de l'accord avec OpenAI.

'Le paradoxe que je vois, c'est qu'à mesure que de plus en plus de contenu sur Internet est écrit par des machines, il y a une prime accrue sur le contenu provenant de personnes réelles," a déclaré le PDG de Reddit, Steve Huffman, lors de l'appel aux résultats de l'entreprise en mars. 'Et nous avons près de deux décennies de conversation authentique.'

La plateforme Reddit - qui compte plus de 1 milliard de messages et plus de 16 milliards de commentaires, des chiffres en constante augmentation grâce à ses centaines de millions d'utilisateurs actifs - est une mine d'or pour les entreprises d'IA générative, dont les modèles apprennent à partir d'exemples de contenu, comme du texte et des images, pour générer un nouveau contenu similaire.

Mais l'entreprise pourrait être confrontée à une opposition de la part des utilisateurs inquiets de la manière dont elle monétise leurs données.

Il est instructif de regarder Stack Overflow, le forum de questions-réponses pour les développeurs de logiciels, qui a récemment conclu un accord avec OpenAI pour fournir des données pour la formation des modèles de ce dernier. En signe de protestation, certains utilisateurs ont supprimé leurs réponses les mieux notées aux questions de la communauté. Mais Stack Overflow a restauré les publications supprimées et banni ces utilisateurs, affirmant qu'ils n'étaient pas en conformité avec ses conditions d'utilisation.

Reddit a déjà exprimé son mécontentement à l'égard d'une tentative visant à accorder aux utilisateurs de Reddit un plus grand contrôle sur leurs propres données.

Vana, une startup construite sur la blockchain, tente de lancer un 'DAO' (Digital Autonomous Organization) de données pour permettre aux utilisateurs de Reddit de regrouper leurs données et de décider ensemble de l'utilisation (ou de la vente) de ces données combinées. Reddit a interdit le subreddit de Vana dédié à la discussion sur le DAO, dans une déclaration à TechCrunch, et a accusé l'entreprise d' 'exploiter' ses contrôles d'exportation de données.

Nous lançons une newsletter sur l'IA! Inscrivez-vous ici pour commencer à la recevoir dans vos boîtes de réception le 5 juin.