La inteligencia artificial reprueba en gramática

Un equipo investigador liderado por la Universidad Rovira i Virgili (URV) en Tarragona, con participación de la Universidad Autónoma de Barcelona (UAB), la Institución Catalana de Investigación y Estudios Avanzados (ICREA) y la Universidad Humboldt de Berlín en Alemania, puso a prueba aplicaciones de inteligencia artificial para comprobar si realmente tienen capacidades lingüísticas equiparables a las de las personas. Para ello compararon la habilidad humana con la de los tres mejores grandes modelos de lenguaje disponibles actualmente: dos basados en GPT3, además de ChatGPT, basado en GP3.5.

Se les asignó una tarea fácilmente ejecutable para las personas: a partir de muchos tipos distintos de oraciones debían identificar al momento si esta estaba gramaticalmente bien formada en su lengua materna o no. Tanto a los humanos que participaron en este experimento como a los modelos del estudio se les hizo una pregunta muy simple: «¿Esta oración es gramaticalmente correcta?».

Los resultados demostraron que los humanos respondieron correctamente, mientras que los grandes modelos de lenguaje dieron muchas respuestas erróneas. De hecho, se detectó que adoptaron una estrategia predeterminada que consistía en responder «sí» la mayoría de las veces, independientemente de si la respuesta era correcta o no.

«El resultado es sorprendente, ya que a estos sistemas se les instruye según lo que es gramaticalmente correcto o no en un idioma», explica Vittoria Dentella, investigadora del Departamento de Estudios Ingleses y Alemanes, que ha liderado el estudio.

Los evaluadores humanos capacitan a estos grandes modelos de lenguaje explícitamente sobre el estado de gramaticalidad de las construcciones que pueden encontrar. A través del proceso de aprendizaje reforzado a partir de la retroalimentación humana, a estos modelos se les pondrá ejemplos de frases que no están gramaticalmente bien construidas y se les dará la correcta versión. Este tipo de instrucción es parte fundamental de su “entrenamiento”. Esto, en cambio, no ocurre en los humanos.

“Si bien las personas que educan a un bebé pueden corregirle ocasionalmente la forma en que habla, esto no ocurre constantemente ni en todas las comunidades lingüísticas del mundo”, afirma la investigadora.

Existe un doble desajuste entre humanos y IA. Las personas no tenemos acceso a “evidencia negativa” —sobre lo que no es gramaticalmente correcto en el idioma que se hable—, mientras que los grandes modelos de lenguaje tienen un amplio acceso a esta información a través de la retroalimentación humana, pero aun así no pueden reconocer fallos gramaticales triviales, mientras que los humanos podemos hacerlo instantáneamente y sin esfuerzo.