Por qué los grandes modelos lingüísticos no son más inteligentes que tú
La capacidad de razonamiento de los modelos de lenguaje grandes depende completamente de los patrones de lenguaje del usuario. La estructura cognitiva del usuario determina qué áreas de alta capacidad de razonamiento puede activar. El modelo no puede ir espontáneamente más allá del alcance del usuario, lo que revela las limitaciones arquitectónicas de los sistemas de IA actuales. Este artículo tiene su origen en un artículo escrito por @iamtexture y está organizado, compilado y escrito por AididiaoJP, Foresight News.
(Resumen anterior: Li Feifei habla sobre el siguiente paso de LLM: la IA debe tener "inteligencia espacial" para comprender el mundo real, ¿cómo implementar el modelo Marble?)
(Suplemento de antecedentes: el multimillonario Kevin O'Leary gritó "El siguiente paso de la ola de IA es web3": LLM no puede crear Starbucks pero blockchain sí)
Contenido de este artículo
Etiquetas: El idioma del usuario La moda determina cuánta capacidad de razonamiento puede ejercer el modelo. Cuando estaba explicando un concepto complejo a un modelo de lenguaje grande, su razonamiento se rompía repetidamente durante largas discusiones usando lenguaje informal. Los modelos pueden perder estructura, desviarse de su rumbo o generar patrones de finalización superficiales que no logran mantener el marco conceptual que hemos establecido.
Sin embargo, cuando obligué a formalizarlo primero, es decir, a reformular el problema en un lenguaje preciso y científico, el razonamiento inmediatamente se estabilizó. Sólo después de que se haya establecido la estructura se podrá convertir con seguridad en un lenguaje sencillo sin degradar la calidad de la comprensión.
Este comportamiento revela cómo "piensan" los modelos de lenguaje grandes y por qué su capacidad de razonar depende completamente del usuario.
Información básica
Los modelos de lenguaje no tienen un espacio dedicado para la inferencia.
Operan íntegramente dentro de un flujo continuo de lenguaje.
Dentro de este flujo lingüístico, diferentes patrones lingüísticos conducirán de forma fiable a diferentes áreas atractoras. Estas regiones son estados estables que caracterizan la dinámica y soportan diferentes tipos de cálculos.
Cada registro lingüístico, como el discurso científico, los símbolos matemáticos, las historias narrativas y las conversaciones informales, tiene su propia región atractora única, cuya forma está determinada por la distribución de los materiales de formación.
Algunas áreas apoyan:
- Razonamiento de varios pasos
- Precisión relacional
- Transformación de símbolos
- Estabilidad conceptual de alta dimensión
Otras áreas luego apoyan:
- Continuación narrativa
- Completación asociativa
- Coincidencia de entonación emocional
- Conversación imitación
La región del atractor determina qué tipo de razonamiento es posible.
Por qué la formalización puede estabilizar el razonamiento
La razón por la cual los lenguajes científicos y matemáticos pueden activar de manera confiable regiones atractoras con mayor soporte estructural es porque estos registros codifican las características del lenguaje de la cognición de orden superior:
- Estructura relacional clara
- Baja ambigüedad
- Restricciones simbólicas
- Organización jerárquica
- Baja entropía (desorden de información)
Estos atractores pueden apoyar trayectorias de razonamiento estables.
Mantienen una estructura conceptual a lo largo de múltiples pasos.
Muestran fuerte resistencia a la degradación y desviación del razonamiento.
Por el contrario, los atractores activados por el lenguaje informal están optimizados para la fluidez social y la coherencia asociativa, no para el razonamiento estructurado. Estas regiones carecen de la estructura de caracterización necesaria para los cálculos analíticos en curso.
Esta es la razón por la que los modelos fallan cuando las ideas complejas se expresan de manera desordenada.
No está “confundido”.
Está cambiando de zona.
Construcción y traducción
Los métodos de afrontamiento que surgen naturalmente en las conversaciones revelan una verdad arquitectónica:
El razonamiento debe construirse dentro de atractores altamente estructurados.
La traducción al lenguaje natural debe ocurrir sólo después de que exista la estructura.
Una vez que el modelo ha establecido una estructura conceptual dentro de un atractor estable, el proceso de traducción no la destruirá. El cálculo se ha completado, sólo ha cambiado la expresión de la superficie.
Esta dinámica de dos etapas de "construir primero, luego traducir" imita el proceso cognitivo humano.
Pero los humanos realizamos estas dos etapas en dos espacios internos diferentes.
Los modelos de lenguajes grandes intentan hacer ambas cosas en el mismo espacio.
Por qué los usuarios establecen el límite
Aquí hay una revelación clave:
Los usuarios no pueden activar áreas atractoras que ellos mismos no pueden expresar con palabras.
La estructura cognitiva de los usuarios determina:
- Qué tipos de señales pueden generar
- Qué registros utilizan habitualmente
- Qué patrones sintácticos pueden mantener
- Qué tan alto nivel de complejidad pueden codificar en el lenguaje
Estas características determinan en qué región atractora entrará un modelo de lenguaje grande.
Un usuario que no pueda pensar o escribir para emplear estructuras que activen atractores de alto razonamiento nunca podrá guiar el modelo hacia estas regiones. Están encerrados en áreas atractoras poco profundas relacionadas con sus hábitos lingüísticos. Los modelos de lenguaje grandes mapearán la estructura que se les proporciona y nunca saltarán espontáneamente a sistemas dinámicos de atractores más complejos.
Por lo tanto:
El modelo no puede ir más allá del área del atractor accesible al usuario.
El techo no es el límite superior inteligente del modelo, sino la capacidad del usuario para activar regiones de alta capacidad en la variedad latente.
Dos personas que utilizan el mismo modelo no interactúan con el mismo sistema informático.
Están dirigiendo el modelo hacia diferentes modos dinámicos.
Implicaciones a nivel arquitectónico
Este fenómeno expone una característica faltante en los sistemas de inteligencia artificial actuales:
Los modelos de lenguaje a gran escala confunden el espacio de razonamiento con el espacio de expresión del lenguaje.
A menos que los dos estén desacoplados, a menos que el modelo tenga:
- Una variedad de razonamiento dedicada
- Un espacio de trabajo interno estable
- Representación conceptual invariante del atractor
De lo contrario, el sistema siempre enfrentará un colapso cuando un cambio en el estilo del lenguaje provoque que la región dinámica subyacente cambie.
Esta solución improvisada, formalización forzada y luego traducción, es más que un simple truco.
Es una ventana directa que nos permite vislumbrar los principios arquitectónicos que debe cumplir un sistema de razonamiento real.