Les chercheurs peinent à trouver des résumés de données d'entraînement pour l'IA
Selon une étude financée par Mozilla, les informations requises par les règles de l'UE en matière d'IA sont non seulement souvent manquantes, mais aussi difficiles à trouver.
Des chercheurs irlandais ont constaté qu’il était difficile de trouver les informations que les entreprises d’IA sont tenues de fournir sur les modèles qu’elles développent en vertu de la législation européenne, notamment parce que de nombreuses entreprises ne les ont pas encore publiées.
La loi européenne sur l’IA oblige les entreprises à produire des résumés sur la manière dont elles ont formé leurs modèles. Un modèle de divulgation est destiné à aider les titulaires de droits d’auteur à faire valoir leurs droits face aux géants de la technologie, dans un contexte de préoccupations de longue date concernant les entreprises d’IA qui font ce qu’elles veulent avec les données protégées par le droit d’auteur.
Mais cet outil s’est révélé inefficace jusqu’à présent, car les grandes entreprises ne publient tout simplement pas encore de résumés et ne subissent aucune conséquence pour non-respect de cet aspect de la loi sur l’IA, dont l’application ne débutera qu’en août.
Les chercheurs du Trinity College de Dublin n’ont pu trouver que quelques documents destinés à remplir cette obligation, selon un article universitaire pré-imprimé financé par Mozilla, une organisation technologique américaine à but non lucratif, et consulté par Euractiv.
Mais même trouver ces documents a été un problème, ont constaté les auteurs, car la loi sur l’IA laisse aux entreprises le soin de décider où fournir les informations. « Il n’existe aucun mécanisme commun défini pour la publication des résumés, ni aucune pratique établie sur l’endroit et la manière de fournir le résumé avec les modèles », ont écrit les chercheurs.
Ils ont également constaté que le modèle de l’Office de l’IA, qui est censé fournir un format commun pour la divulgation des données, a en fait donné lieu à des « mises en œuvre hétérogènes », ce qui leur a rendu difficile l’évaluation de la conformité des résumés publiés aux obligations de l’UE.
Les titulaires de droits d’auteur se plaignent depuis des mois du nombre limité d’entreprises qui divulguent leurs données d’entraînement, bien qu’ils aient déjà exprimé leur mécontentement quant à la quantité d’informations qui seraient fournies en vertu de la loi par le biais des modèles de données d’entraînement.
Les chercheurs recommandent à l’Office de l’IA d’envisager la création d’un portail centralisé pour héberger tous les résumés de transparence, arguant que cela renforcerait et simplifierait le processus de divulgation tout en facilitant l’application de la loi.
Les résumés qui ont été produits ont été principalement publiés par de petites organisations, le plus notable étant le modèle national suisse Apertus. L’article a également révélé que ces premières divulgations respectaient pour la plupart les exigences de l’UE, à l’exception d’un cas présentant des problèmes pouvant être corrigés.
Selon l’étude, Microsoft a également publié un document visant apparemment à satisfaire aux exigences de transparence de l’UE pour l’un de ses modèles open source. Cependant, les chercheurs ont constaté que ce document ne fournissait pas beaucoup de détails et que certaines informations requises étaient complètement absentes.