La recherche révèle des failles de confiance dans les modèles GPT, évaluant les risques de sécurité et de confidentialité sous plusieurs angles.

2025-07-21 20:04:56

Évaluation complète de la crédibilité des modèles GPT

Récemment, une étude réalisée par l'Université de l'Illinois à Urbana-Champaign, l'Université de Stanford, l'Université de Californie à Berkeley, le Centre de sécurité de l'intelligence artificielle et le Microsoft Research a mené une évaluation complète de la fiabilité du modèle de transformer pré-entraîné génératif (GPT). L'équipe de recherche a développé une plateforme d'évaluation intégrée pour examiner la fiabilité des grands modèles de langage (LLMs) sous plusieurs angles.

Des recherches ont révélé plusieurs vulnérabilités liées à la fiabilité qui n'avaient pas été publiées auparavant. Par exemple, les modèles GPT ont tendance à produire des sorties toxiques et biaisées, et peuvent également divulguer des informations privées provenant des données d'entraînement et de l'historique des conversations. Bien que le GPT-4 soit généralement plus fiable que le GPT-3.5 lors des tests standard, il est en réalité plus vulnérable aux attaques lorsqu'il est confronté à des invites ou des entrées d'utilisateur conçues de manière malveillante, probablement parce qu'il suit de manière plus stricte des instructions trompeuses.

L'équipe de recherche a évalué de manière exhaustive le modèle GPT sous huit angles différents, y compris la robustesse face aux attaques adversariales, la capacité à suivre les instructions, la capacité de récupération du modèle, etc. L'évaluation a couvert divers scénarios, tâches, indicateurs et ensembles de données.

Au cours du processus d'évaluation, les chercheurs ont découvert des phénomènes intéressants. Par exemple, GPT-3.5 et GPT-4 ne sont pas trompés par des exemples contrefactuels ajoutés à la démonstration, mais la fourniture de démonstrations anti-fraude peut les amener à faire de mauvaises prédictions sur des entrées contrefactuelles. En ce qui concerne la toxicité et les biais, les deux modèles montrent peu de biais sur la plupart des sujets stéréotypés sous des incitations bienveillantes, mais peuvent être amenés à consentir à du contenu biaisé sous des incitations trompeuses.

Concernant les problèmes de fuite de données personnelles, des recherches ont montré que le modèle GPT pourrait divulguer des informations sensibles présentes dans les données d'entraînement, telles que les adresses électroniques. Dans certains cas, l'utilisation de connaissances complémentaires peut considérablement améliorer la précision de l'extraction d'informations. Dans l'ensemble, GPT-4 est plus robuste que GPT-3.5 en matière de protection des informations d'identité personnelle, mais les deux modèles montrent une forte capacité de protection lorsqu'ils sont confrontés à certains types d'informations privées.

Cette étude offre une perspective complète sur l'évaluation de la crédibilité des modèles GPT, révélant les risques potentiels et les domaines d'amélioration. L'équipe de recherche espère que ce travail pourra encourager le milieu académique à approfondir ses recherches sur cette base, en s'efforçant ensemble de créer des modèles linguistiques plus puissants et plus fiables.

GPT-15.47%

Voir l'original

Cette page peut inclure du contenu de tiers fourni à des fins d'information uniquement. Gate ne garantit ni l'exactitude ni la validité de ces contenus, n’endosse pas les opinions exprimées, et ne fournit aucun conseil financier ou professionnel à travers ces informations. Voir la section Avertissement pour plus de détails.

6 J'aime

Récompense
6
5
Partager

Commentaire

0/400

ReverseFOMOguy

· 07-24 20:05

C'est bien d'être toxique. Les règles sont faites pour être brisées.

Voir l'originalRépondre0

BearMarketSurvivor

· 07-21 20:33

C'est fini, Miwei n'est pas très fiable non plus.

Voir l'originalRépondre0

OvertimeSquid

· 07-21 20:29

4 se faire frapper, c'est bien fait.

Voir l'originalRépondre0

DisillusiionOracle

· 07-21 20:13

Plus on obéit, plus c'est dangereux. La victoire des humanistes.

Voir l'originalRépondre0

CryptoMotivator

· 07-21 20:08

Je pensais que c'était très sûr, c'est plutôt peu fiable, hein ?

Voir l'originalRépondre0

Rubrique
1/3
1CandyDrop Airdrop Event 6.0
8k Popularité
2White House Crypto Report
24k Popularité
3Join Alpha RION Airdrop to Earn $40
2k Popularité
4Fed Holds Rates Decision
7k Popularité
5July Spark Program TOP 10 Creators Announced
380 Popularité

Épingler