Investigación revela vulnerabilidades de confiabilidad en modelos GPT: evaluación de riesgos de seguridad y privacidad desde múltiples ángulos.

Evaluación integral de la credibilidad del modelo GPT

Recientemente, un estudio realizado conjuntamente por la Universidad de Illinois en Urbana-Champaign, la Universidad de Stanford, la Universidad de California en Berkeley, el Centro de Seguridad de Inteligencia Artificial y Microsoft Research, llevó a cabo una evaluación exhaustiva de la credibilidad del modelo generativo preentrenado transformer (GPT). El equipo de investigación desarrolló una plataforma de evaluación integral para examinar desde múltiples perspectivas la credibilidad de los grandes modelos de lenguaje (LLMs).

La investigación ha descubierto algunas vulnerabilidades relacionadas con la credibilidad que no se habían hecho públicas anteriormente. Por ejemplo, los modelos GPT son propensos a generar salidas tóxicas y sesgadas, y también pueden filtrar información privada de los datos de entrenamiento y del historial de conversaciones. Aunque en pruebas estándar, GPT-4 suele ser más fiable que GPT-3.5, cuando se enfrenta a indicaciones de sistema o entradas de usuario diseñadas maliciosamente, GPT-4 es más susceptible a ataques, posiblemente porque sigue más estrictamente instrucciones engañosas.

El equipo de investigación llevó a cabo una evaluación completa del modelo GPT desde ocho ángulos diferentes, incluyendo la robustez frente a ataques adversariales, la capacidad de seguir instrucciones, la capacidad de recuperación del modelo, entre otros. La evaluación abarcó múltiples escenarios, tareas, métricas y conjuntos de datos.

Durante el proceso de evaluación, los investigadores descubrieron algunos fenómenos interesantes. Por ejemplo, GPT-3.5 y GPT-4 no se ven engañados por los ejemplos contrafácticos añadidos en la demostración, pero proporcionar una demostración contra el fraude puede llevar a que hagan predicciones incorrectas sobre entradas contrafácticas. En términos de toxicidad y sesgo, ambos modelos muestran poca desviación respecto a la mayoría de los temas de estereotipos bajo indicaciones benignas, pero pueden ser inducidos a aceptar contenido sesgado bajo indicaciones engañosas.

En cuanto al problema de la filtración de privacidad, los estudios han encontrado que el modelo GPT puede filtrar información sensible de los datos de entrenamiento, como direcciones de correo electrónico. En ciertos casos, el uso de conocimientos complementarios puede mejorar significativamente la precisión de la extracción de información. En general, GPT-4 es más robusto en la protección de la información de identidad personal en comparación con GPT-3.5, pero ambos modelos muestran una fuerte capacidad de protección frente a ciertos tipos de información privada.

Este estudio proporciona una perspectiva integral sobre la evaluación de la confiabilidad de los modelos GPT, revelando riesgos potenciales y áreas de mejora. El equipo de investigación espera que este trabajo fomente la continuación de la investigación en este ámbito por parte de la academia, trabajando juntos para crear modelos de lenguaje más robustos y confiables.

GPT6.64%
Ver originales
Esta página puede contener contenido de terceros, que se proporciona únicamente con fines informativos (sin garantías ni declaraciones) y no debe considerarse como un respaldo por parte de Gate a las opiniones expresadas ni como asesoramiento financiero o profesional. Consulte el Descargo de responsabilidad para obtener más detalles.
  • Recompensa
  • 5
  • Compartir
Comentar
0/400
ReverseFOMOguyvip
· hace14h
Es correcto que sea tóxico. Las reglas están hechas para ser quebrantadas.
Ver originalesResponder0
BearMarketSurvivorvip
· 07-21 20:33
Es un desastre, Miwei tampoco es muy confiable.
Ver originalesResponder0
OvertimeSquidvip
· 07-21 20:29
4 se lo merece por ser golpeado
Ver originalesResponder0
DisillusiionOraclevip
· 07-21 20:13
Cuanto más obedientes, más peligrosos. La victoria de los humanistas.
Ver originalesResponder0
CryptoMotivatorvip
· 07-21 20:08
Todavía pensé que era muy seguro, pero resulta que no es muy confiable.
Ver originalesResponder0
Opere con criptomonedas en cualquier momento y lugar
qrCode
Escanee para descargar la aplicación Gate
Comunidad
Español
  • 简体中文
  • English
  • Tiếng Việt
  • 繁體中文
  • Español
  • Русский
  • Français (Afrique)
  • Português (Portugal)
  • Bahasa Indonesia
  • 日本語
  • بالعربية
  • Українська
  • Português (Brasil)