Centro de Estudios Interdisciplinarios para el Desarrollo Center for Interdisciplinary Development Studies
CEIPeD
CEIPeD Estudios para el desarrollo Studies for development
Tecnología e Innovación Technology and Innovation

¿La IA entiende o sólo “estudia de memoria”?

Does AI Understand or Just "Learn by Heart"?

PublicadoPublished 14 nov 2024 · 4 min

¿Puede una inteligencia artificial realmente "entender"? La creciente sofisticación de los modelos de lenguaje plantea esta pregunta en un contexto fascinante. En su análisis, el autor explora cómo el "Pattern Matching" y los límites en el razonamiento matemático muestran que estos sistemas aún dependen en gran medida de patrones y datos previos. Aunque la IA está más avanzada que nunca en prever respuestas y simular lógica, los desafíos actuales revelan que la comprensión humana sigue siendo única.

Can artificial intelligence truly "understand"? The growing sophistication of language models raises this question in a fascinating context. In his analysis, the author explores how "Pattern Matching" and the limitations in mathematical reasoning show that these systems still rely heavily on patterns and prior data. Although AI is more advanced than ever in predicting answers and simulating logic, current challenges reveal that human comprehension remains unique.

¿Son las máquinas capaces de pensar, razonar y sentir? ¿Lo harán en mayor o menor medida que nosotros? Si lo hacen, ¿es de una forma diferente a la nuestra? En el caso de las primeras dos preguntas, aún nadie ha sido capaz de ofrecer respuestas concluyentes. Lo que sí podemos decir es que su “pensamiento” es, sin lugar a duda, diferente al nuestro.

Pattern Matching, ¿la conciencia digital?

El Pattern Matching es una técnica que busca referencias o patrones definidos en los datos que usó para entrenarse, es decir, compara datos buscando coincidencias absolutas. Es un asunto binario, de sí o no.

El ejemplo más sencillo de esto es el del algoritmo que busca palabras específicas en un texto. Otra de sus características clave es que, al estar basado en reglas claras predefinidas, es altamente predecible y reproducible. Dado un input, la respuesta será siempre la misma.

El lenguaje natural es sumamente complejo y tiene una gran variabilidad. Una misma idea puede expresarse de múltiples maneras sin cambiar su significado. El pattern matching tradicional, basado en coincidencias exactas, no logra imitar esta flexibilidad del pensamiento humano. Por ello, los modelos de lenguaje modernos, como GPT, emplean una variante llamada Pattern Matching Probabilístico. En lugar de buscar patrones exactos de forma determinista, esta técnica utiliza herramientas estadísticas y datos previamente aprendidos para prever respuestas. Así, los modelos pueden gestionar mejor la variabilidad y complejidad del lenguaje.

¿Los modelos de lenguaje entienden o sólo estudian de memoria?

Un reciente paper de un equipo de investigación de Apple buscó responder a una pregunta parecida. Realizaron varios experimentos para entender las limitaciones del razonamiento matemático de estos modelos. Tomaron como referencia inicial un dataset (conjunto de datos) de entrenamiento de modelos de lenguaje llamado GSM8K (Grade School Math 8K).

El GSM8K se trata de un conjunto de datos de alta calidad compuesto por 8,500 problemas matemáticos de nivel primario con diversidad lingüística. Los problemas incluyen únicamente las cuatro operaciones aritméticas básicas: suma, resta, división y multiplicación. Aunque estudios previos demuestran que técnicas como el Chain-of-Thought prompting y la incorporación de una memoria temporal son efectivas, los resultados también revelan que estos modelos son sensibles a cambios mínimos, lo cual evidencia sus limitaciones para realizar razonamientos formales.

Se propusieron realizar distintos tipos de modificaciones al dataset GSM8K con el objetivo de observar qué sucedía con la precisión en los resultados. GSM-Symbolic es la primera variante de su experimento y sólo remueve nombres y le pone un rango a las variables de los problemas:

Los resultados de muchos modelos de lenguaje actuales muestran una gran variabilidad, lo que reduce su desempeño, tal como era de esperarse. La precisión de las respuestas se evaluó bajo tres tipos de cambios en los problemas: alterando solo los nombres; solo los números (usando números más grandes y menos comunes); y variando ambos parámetros al mismo tiempo. Los resultados indican que los modelos tienen mejor desempeño al cambiar solo los nombres, seguido por el cambio solo de los números, y finalmente, el menor nivel de precisión se observa cuando se modifican tanto nombres como números.

No conformes aún, realizan un conjunto de variantes al dataset GSM-Symbolic. Una variación que a los problemas les quita alguna cláusula, haciéndolo más fácil (GSM-M1). También generan dos variaciones que agregan una y dos cláusulas, GSM-P1 y GSM-P2 respectivamente.

Los resultados decrecen rápidamente de izquierda a derecha en dificultad de los problemas, como podríamos esperar, basados en cómo es que están implementados los modelos.

Finalmente, para terminar de darle robustez a los resultados, incorporan una última modificación al dataset que se llama GSM-NoOp. Esta modificación incorpora cláusulas o información irrelevante para el problema con el objetivo de confundir al modelo en la resolución del problema. Un ejemplo de esto es agregar información descriptiva sobre los objetos que estamos intentando contar, no olvidemos que son problemas de matemática de primaria, que puedan sugerir alguna operación extra pero en realidad no sea así. Los resultados de este último dataset son los más bajos ya que entienden a estas descripciones que no agregan información relevante para resolver el problema con alguna operación básica a hacer. El ejemplo que ellos usan es que, al estar contando frutas, describen a algunas como más pequeñas que el promedio. Esto lo interpreta como frutas a restar del total cuando en realidad no debería suceder.

Este comportamiento se agrava al aumentar la complejidad de las preguntas relacionadas a la matemática. Por experiencia propia, hay veces en las que intenta responder a una pregunta y siempre encuentra la forma de darte una respuesta que demuestre tu pregunta con poca rigurosidad y asumiendo erróneamente propiedades o hipótesis para poder responder “correctamente”.

Aunque los avances en este campo son impresionantes, y los algoritmos pueden “identificar” patrones y razonar basándose en modelos de razonamiento humano previos que forman parte de su entrenamiento, aún no logran generar razonamientos verdaderamente nuevos. Queda mucho por investigar y comprender para acercar a los modelos de lenguaje a un tipo de razonamiento que se asemeje más al humano.

Are machines capable of thinking, reasoning, and feeling? Will they do so to a greater or lesser extent than us? If they do, is it in a way that is different from ours? Regarding the first two questions, no one has yet been able to offer conclusive answers. What we can say is that their "thinking" is, without a doubt, different from ours.

Pattern Matching: The Digital Consciousness?

Pattern Matching is a technique that looks for defined references or patterns within the data used to train it—that is, it compares data looking for absolute matches. It is a binary matter of yes or no.

The simplest example of this is an algorithm that searches for specific words in a text. Another of its key characteristics is that, being based on clear predefined rules, it is highly predictable and reproducible. Given an input, the answer will always be the same.

Natural language is highly complex and has great variability. The same idea can be expressed in multiple ways without changing its meaning. Traditional pattern matching, based on exact matches, fails to imitate this flexibility of human thought. For this reason, modern language models, such as GPT, employ a variant called Probabilistic Pattern Matching. Instead of searching for exact patterns in a deterministic way, this technique uses statistical tools and previously learned data to predict responses. Thus, models can better manage the variability and complexity of language.

Do Language Models Understand or Just Learn by Heart?

A recent paper by an Apple research team sought to answer a similar question. They conducted several experiments to understand the limitations of these models' mathematical reasoning. They took as an initial baseline a language model training dataset called GSM8K (Grade School Math 8K).

GSM8K is a high-quality dataset composed of 8,500 grade-school-level math problems with linguistic diversity. The problems include only the four basic arithmetic operations: addition, subtraction, division, and multiplication. Although previous studies demonstrate that techniques such as Chain-of-Thought prompting and the incorporation of a temporary memory are effective, the results also reveal that these models are sensitive to minimal changes, which highlights their limitations in performing formal reasoning.

They set out to make different types of modifications to the GSM8K dataset to observe what happened to the accuracy of the results. GSM-Symbolic is the first variant of their experiment, and it only removes names and applies a range to the variables in the problems:

The results of many current language models show great variability, which reduces their performance, just as was to be expected. The accuracy of the responses was evaluated under three types of changes in the problems: altering only the names; altering only the numbers (using larger and less common numbers); and varying both parameters at the same time. The results indicate that models perform best when changing only names, followed by changing only numbers, and finally, the lowest level of accuracy is observed when both names and numbers are modified.

Not satisfied yet, they created a set of variations based on the GSM-Symbolic dataset. One variation removes a clause from the problems, making them easier (GSM-M1). They also generated two variations that add one and two clauses, GSM-P1 and GSM-P2 respectively.

The results decrease rapidly from left to right as problem difficulty increases, as we might expect based on how the models are implemented.

Finally, to bring further robustness to the results, they incorporated a final modification to the dataset called GSM-NoOp. This modification introduces clauses or information irrelevant to the problem with the aim of confusing the model during problem-solving. An example of this is adding descriptive information about the objects we are trying to count—let us not forget these are primary school math problems—which might suggest an extra operation, but in reality does not. The results for this last dataset are the lowest, as the models interpret these descriptions that add no relevant information to solve the problem as a basic operation to be performed. The example they use is that while counting fruits, they describe some as being smaller than average. The model interprets this as fruits to be subtracted from the total, when in reality that should not happen.

This behavior worsens as the complexity of questions related to mathematics increases. From personal experience, there are times when it tries to answer a question and always finds a way to give you an answer that proves your question with little rigor, erroneously assuming properties or hypotheses in order to respond "correctly."

Although the advancements in this field are impressive, and algorithms can "identify" patterns and reason based on previous human reasoning models that are part of their training, they still fail to generate truly new reasoning. Much remains to be researched and understood to bring language models closer to a type of reasoning that more closely resembles that of humans.

Recibí nuestro análisis cada semana

Get our analysis every week

Sin ruido. Solo lo que importa en desarrollo y políticas públicas, directo a tu correo.

No noise. Just what matters in development and public policy, straight to your inbox.

Quincenal · podés darte de baja cuando quieras.
Biweekly · unsubscribe anytime.