Evaluación integral de la credibilidad del modelo GPT
Recientemente, un estudio realizado conjuntamente por la Universidad de Illinois en Urbana-Champaign, la Universidad de Stanford, la Universidad de California en Berkeley, el Centro de Seguridad de Inteligencia Artificial y Microsoft Research, llevó a cabo una evaluación exhaustiva de la credibilidad del modelo generativo preentrenado transformer (GPT). El equipo de investigación desarrolló una plataforma de evaluación integral para examinar desde múltiples perspectivas la credibilidad de los grandes modelos de lenguaje (LLMs).
La investigación ha descubierto algunas vulnerabilidades relacionadas con la credibilidad que no se habían hecho públicas anteriormente. Por ejemplo, los modelos GPT son propensos a generar salidas tóxicas y sesgadas, y también pueden filtrar información privada de los datos de entrenamiento y del historial de conversaciones. Aunque en pruebas estándar, GPT-4 suele ser más fiable que GPT-3.5, cuando se enfrenta a indicaciones de sistema o entradas de usuario diseñadas maliciosamente, GPT-4 es más susceptible a ataques, posiblemente porque sigue más estrictamente instrucciones engañosas.
El equipo de investigación llevó a cabo una evaluación completa del modelo GPT desde ocho ángulos diferentes, incluyendo la robustez frente a ataques adversariales, la capacidad de seguir instrucciones, la capacidad de recuperación del modelo, entre otros. La evaluación abarcó múltiples escenarios, tareas, métricas y conjuntos de datos.
Durante el proceso de evaluación, los investigadores descubrieron algunos fenómenos interesantes. Por ejemplo, GPT-3.5 y GPT-4 no se ven engañados por los ejemplos contrafácticos añadidos en la demostración, pero proporcionar una demostración contra el fraude puede llevar a que hagan predicciones incorrectas sobre entradas contrafácticas. En términos de toxicidad y sesgo, ambos modelos muestran poca desviación respecto a la mayoría de los temas de estereotipos bajo indicaciones benignas, pero pueden ser inducidos a aceptar contenido sesgado bajo indicaciones engañosas.
En cuanto al problema de la filtración de privacidad, los estudios han encontrado que el modelo GPT puede filtrar información sensible de los datos de entrenamiento, como direcciones de correo electrónico. En ciertos casos, el uso de conocimientos complementarios puede mejorar significativamente la precisión de la extracción de información. En general, GPT-4 es más robusto en la protección de la información de identidad personal en comparación con GPT-3.5, pero ambos modelos muestran una fuerte capacidad de protección frente a ciertos tipos de información privada.
Este estudio proporciona una perspectiva integral sobre la evaluación de la confiabilidad de los modelos GPT, revelando riesgos potenciales y áreas de mejora. El equipo de investigación espera que este trabajo fomente la continuación de la investigación en este ámbito por parte de la academia, trabajando juntos para crear modelos de lenguaje más robustos y confiables.
Esta página puede contener contenido de terceros, que se proporciona únicamente con fines informativos (sin garantías ni declaraciones) y no debe considerarse como un respaldo por parte de Gate a las opiniones expresadas ni como asesoramiento financiero o profesional. Consulte el Descargo de responsabilidad para obtener más detalles.
6 me gusta
Recompensa
6
5
Compartir
Comentar
0/400
ReverseFOMOguy
· hace14h
Es correcto que sea tóxico. Las reglas están hechas para ser quebrantadas.
Ver originalesResponder0
BearMarketSurvivor
· 07-21 20:33
Es un desastre, Miwei tampoco es muy confiable.
Ver originalesResponder0
OvertimeSquid
· 07-21 20:29
4 se lo merece por ser golpeado
Ver originalesResponder0
DisillusiionOracle
· 07-21 20:13
Cuanto más obedientes, más peligrosos. La victoria de los humanistas.
Ver originalesResponder0
CryptoMotivator
· 07-21 20:08
Todavía pensé que era muy seguro, pero resulta que no es muy confiable.
Investigación revela vulnerabilidades de confiabilidad en modelos GPT: evaluación de riesgos de seguridad y privacidad desde múltiples ángulos.
Evaluación integral de la credibilidad del modelo GPT
Recientemente, un estudio realizado conjuntamente por la Universidad de Illinois en Urbana-Champaign, la Universidad de Stanford, la Universidad de California en Berkeley, el Centro de Seguridad de Inteligencia Artificial y Microsoft Research, llevó a cabo una evaluación exhaustiva de la credibilidad del modelo generativo preentrenado transformer (GPT). El equipo de investigación desarrolló una plataforma de evaluación integral para examinar desde múltiples perspectivas la credibilidad de los grandes modelos de lenguaje (LLMs).
La investigación ha descubierto algunas vulnerabilidades relacionadas con la credibilidad que no se habían hecho públicas anteriormente. Por ejemplo, los modelos GPT son propensos a generar salidas tóxicas y sesgadas, y también pueden filtrar información privada de los datos de entrenamiento y del historial de conversaciones. Aunque en pruebas estándar, GPT-4 suele ser más fiable que GPT-3.5, cuando se enfrenta a indicaciones de sistema o entradas de usuario diseñadas maliciosamente, GPT-4 es más susceptible a ataques, posiblemente porque sigue más estrictamente instrucciones engañosas.
El equipo de investigación llevó a cabo una evaluación completa del modelo GPT desde ocho ángulos diferentes, incluyendo la robustez frente a ataques adversariales, la capacidad de seguir instrucciones, la capacidad de recuperación del modelo, entre otros. La evaluación abarcó múltiples escenarios, tareas, métricas y conjuntos de datos.
Durante el proceso de evaluación, los investigadores descubrieron algunos fenómenos interesantes. Por ejemplo, GPT-3.5 y GPT-4 no se ven engañados por los ejemplos contrafácticos añadidos en la demostración, pero proporcionar una demostración contra el fraude puede llevar a que hagan predicciones incorrectas sobre entradas contrafácticas. En términos de toxicidad y sesgo, ambos modelos muestran poca desviación respecto a la mayoría de los temas de estereotipos bajo indicaciones benignas, pero pueden ser inducidos a aceptar contenido sesgado bajo indicaciones engañosas.
En cuanto al problema de la filtración de privacidad, los estudios han encontrado que el modelo GPT puede filtrar información sensible de los datos de entrenamiento, como direcciones de correo electrónico. En ciertos casos, el uso de conocimientos complementarios puede mejorar significativamente la precisión de la extracción de información. En general, GPT-4 es más robusto en la protección de la información de identidad personal en comparación con GPT-3.5, pero ambos modelos muestran una fuerte capacidad de protección frente a ciertos tipos de información privada.
Este estudio proporciona una perspectiva integral sobre la evaluación de la confiabilidad de los modelos GPT, revelando riesgos potenciales y áreas de mejora. El equipo de investigación espera que este trabajo fomente la continuación de la investigación en este ámbito por parte de la academia, trabajando juntos para crear modelos de lenguaje más robustos y confiables.