Une entreprise récente nommée Pleias, soutenue par le ministère de la Culture, offre un ensemble de textes libres de droits pour entraîner des modèles de langage avancés tout en respectant les droits d'auteur et en encourageant la diversité linguistique.
Écrit par Frank Niedercorn
Pleias, une start-up récente fondée en décembre 2023, se positionne comme une alternative respectueuse du droit d'auteur et de la diversité linguistique dans le domaine de l'intelligence artificielle générative. En s'opposant ouvertement à OpenAI et aux grandes entreprises de l'IA générative, Pleias affirme que l'innovation n'est pas conditionnée par la quantité de données sous droit d'auteur, contrairement à ce que soutiennent les grands modèles de langage. Grâce à son modèle basé sur des données en open source, Pleias compte prouver le contraire. Anastasia Stasenko, cofondatrice de Pleias, explique : "Les grandes entreprises affirment qu'il est nécessaire d'utiliser des données sous droit pour innover, mais nous allons démontrer que ce n'est pas le cas."
Le débat fait beaucoup parler de lui en ce moment. En effet, le journal "New York Times" a décidé de poursuivre en justice OpenAI, une filiale de Microsoft, pour avoir utilisé plusieurs millions de ses articles sans autorisation. De son côté, l'Europe a adopté l'IA Act, un texte approuvé par les 27 pays de l'Union, qui vise à rémunérer les auteurs. Anastasia Stasenko souligne que l'objectif de l'IA Act est de respecter le droit d'auteur tout en mettant à disposition des ressources pour entraîner des modèles de langages de manière transparente et éthique dans la communauté open source. Ces ressources sont encore rares, voire inexistantes, pour de nombreuses langues européennes.
Consultez également :
La French Tech exprime des regrets concernant l'AI Act, jugeant que ce texte pourrait nuire à l'innovation en Europe.
La jeune entreprise collabore avec plusieurs projets de recherche collaborative sur l'IA générative open source, tels que Occiglot, EleutherAI et ceux d'AllenAI, un institut à but non lucratif fondé par Paul Allen, cofondateur de Microsoft. Elle bénéficie également du soutien de Langu:IA, un projet de la DGLFLF qui vise à faciliter l'accès aux données en français et en langues de France pour l'entraînement et la spécialisation de LLM.
Pleias joue un rôle important en mettant à disposition une première version de son Common Corpus, qui contient 500 milliards de mots provenant de textes en open source dans plusieurs langues et datant de plus de 70 ans. Ces textes sont libres de droit et proviennent de bibliothèques publiques telles que Gallica, Delpher et la bibliothèque du Congrès. Anastasia Stasenko souligne que Gallica, la bibliothèque numérique de la BNF, contribue avec ses 80 milliards de mots.
Découvrez également :
Une recherche menée par l'Unesco met en garde contre les préjugés sexistes propagés par l'intelligence artificielle générative.
Pleias travaille sur un projet de corpus open data contenant 300 milliards de mots issus de textes administratifs et législatifs français et européens. Ce projet, réalisé en collaboration avec la direction interministérielle du numérique (Dinum), vise à permettre aux intelligences artificielles futures de mieux comprendre le droit en se familiarisant avec ces textes, selon Anastasia Stasenko.
Pleias travaille également sur un projet lié aux données synthétiques, qui sont créées par un algorithme préalablement entraîné sur des données réelles. L'objectif est de générer des jeux de données de grande taille pour des langues qui en ont besoin pour entraîner de grands modèles de langage. Anastasia Stasenko souligne l'importance de cette démarche. La prochaine étape pour Pleias consiste à réussir à lever des fonds dans les semaines à venir.
Frank Niedercorn ( )
—
Texte rééc
Découvrez nos nouvelles offres Premium dès maintenant !
Nos vidéos
Est-ce que la concurrence peut réduire les prix des billets de train de la SNCF ?
Est-ce que la maison individuelle a un avenir malgré la crise immobilière et les problèmes climatiques ?
Pourquoi les tarifs des péages autoroutiers augmentent-ils et pourquoi cela ne va pas s'arrêter ?
Est-ce que la baisse de la natalité est réellement un problème ?
Les articles les plus consultés
Les bienfaits du sommeil réparateur
La Lune, un endroit important pour l'humanité
Richard Slayman devient le premier humain à recevoir une greffe de rein porcin
En vedette
La mise en service de l'EPR de Flamanville approche à grands pas
Truth Social booste la fortune boursière de Donald Trump
Le gouvernement confronté à un déficit inquiétant
Science & Futur
La philosophie politique, une discipline prometteuse à l'ère de l'intelligence artificielle
Le duel entre Moore et Huang pour établir les règles dans le domaine des puces
Propositions pour une intelligence artificielle générative respectant les droits d'auteur
Informations pratiques
P
L'Ensemble
Tous les droits sont protégés – Copyright Les Echos 2024






