🧠 Qué hay dentro de un modelo Transformer: matemáticas y magia computacional

Abraham Huerta

24 oct. 2025 • 5 min read

“El Transformer no piensa ni sueña, pero reordena el lenguaje como un campo de fuerzas: cada palabra atrae y repele a las demás en un ballet matemático.”

🌍 Introducción: la revolución invisible del lenguaje

En la última década, los modelos Transformer se han convertido en el corazón de la inteligencia artificial moderna. Desde los traductores automáticos hasta los grandes modelos de lenguaje (LLMs) como GPT, Claude o Gemini, toda esta nueva generación de máquinas que “entienden” y “hablan” surge de una arquitectura matemática concebida en 2017 en el paper “Attention is All You Need”.

Pero ¿qué ocurre dentro de un Transformer? ¿Qué transforman realmente estas redes? Para comprenderlo, debemos abrir la caja negra y seguir el flujo de información a través de capas, tensores y matrices de atención. Lo que descubrimos no es magia —aunque lo parezca—, sino una danza geométrica entre vectores, pesos y probabilidades.

1. 🧩 El principio de la transformación

Un Transformer no es una red que procesa datos secuenciales paso a paso, como las antiguas LSTM (Long Short-Term Memory). En lugar de eso, ve toda la secuencia a la vez. Cada palabra se representa como un vector en un espacio de alta dimensión —una especie de “coordenada semántica”— y el modelo aprende cómo cada palabra debe influir en las demás.

En términos formales, si tenemos una secuencia de tokens ( x_1, x_2, ..., x_n ), el modelo construye una representación contextualizada ( h_t ) para cada token, dependiente de todos los demás:

$$
h_t = f(x_1, x_2, ..., x_n)
$$

La clave está en cómo se define esa función ( f ). Y esa función se llama autoatención.

2. 🎯 La atención: la brújula semántica del modelo

El mecanismo de atención permite que cada palabra “mire” a las demás y decida cuáles son relevantes para su significado. Por ejemplo, en la frase:

“El gato que vio al perro corrió.”

La palabra “corrió” necesita saber quién hizo la acción —“el gato”—, no “el perro”. La atención asigna pesos diferentes a cada palabra dependiendo del contexto.

Matemáticamente, la atención se define así:

$$
\text{Attention}(Q, K, V) = \text{softmax}\left( \frac{QK^T}{\sqrt{d_k}} \right)V
$$

donde:

( Q ) = matriz de queries (consultas)
( K ) = matriz de keys (claves)
( V ) = matriz de values (valores)
( d_k ) = dimensión de los vectores clave (usada para normalización)

Cada palabra produce sus propios vectores ( Q, K, V ) a través de proyecciones lineales:

$$
Q = XW_Q, \quad K = XW_K, \quad V = XW_V
$$

El resultado es una combinación ponderada de los valores ( V ), donde los pesos provienen de la similitud (producto punto) entre las consultas y las claves. Es decir: cuánto debería prestarse atención a cada palabra según la relación semántica aprendida.

3. 🧮 Multi-Head Attention: varias perspectivas simultáneas

Una sola atención no basta. Un modelo necesita mirar la secuencia desde varios ángulos semánticos. Por eso, los Transformers dividen el espacio de atención en varios “cabezas” o heads.

Cada cabeza aprende una relación diferente: sintaxis, negación, género, número, tono... El modelo aprende a combinarlas:

$$
\text{MultiHead}(Q, K, V) = \text{Concat}(\text{head}_1, ..., \text{head}_h)W^O
$$

donde:

$$
\text{head}_i = \text{Attention}(QW^Q_i, KW^K_i, VW^V_i)
$$

Concepto	Descripción	Ecuación clave
Cabeza de atención	Vista específica de las relaciones entre tokens	( \text{head}_i = \text{Attention}(QW^Q_i, KW^K_i, VW^V_i) )
Multi-head	Fusión de múltiples perspectivas	( \text{Concat}(\text{head}_1, ..., \text{head}_h)W^O )

Cada cabeza es como un ojo distinto mirando la misma frase desde un ángulo diferente.

4. 🧠 Normalización y capas residuales

Después de la atención, el Transformer aplica normalización y conexiones residuales, técnicas cruciales para la estabilidad del entrenamiento.

Residual: preserva información original del paso anterior.
( y = x + \text{Sublayer}(x) )
LayerNorm: normaliza activaciones para evitar explosiones de gradiente.
( \text{LayerNorm}(x) = \frac{x - \mu}{\sigma} \gamma + \beta )

Estas operaciones permiten que el flujo de información no se degrade con la profundidad de las capas.

5. ⚙️ El bloque feed-forward: pensamiento no lineal

Después de la atención viene un bloque feed-forward (red completamente conectada), aplicado a cada posición de manera independiente:

$$
\text{FFN}(x) = \text{max}(0, xW_1 + b_1)W_2 + b_2
$$

Este bloque introduce no linealidad, lo que permite que el modelo combine las representaciones con mayor expresividad. Es aquí donde la red construye abstracciones más complejas.

6. 🌀 Positional Encoding: el mapa del tiempo

El Transformer no tiene noción de orden por sí mismo. Para entender la secuencia, se añade un codificador posicional que asigna a cada palabra una firma trigonométrica única:

$$
PE_{(pos, 2i)} = \sin \left( \frac{pos}{10000^{2i/d_{model}}} \right)
$$

$$
PE_{(pos, 2i+1)} = \cos \left( \frac{pos}{10000^{2i/d_{model}}} \right)
$$

Estas ondas sinusoidales hacen que posiciones cercanas tengan representaciones similares, creando un “mapa continuo” del orden de las palabras. Es el reloj interno del Transformer.

7. 🧬 Codificador y decodificador

Un modelo Transformer completo consta de dos partes:

Componente	Rol	Función
Encoder	Procesa la entrada y genera representaciones contextuales	Atención + FFN
Decoder	Genera la salida token por token, usando atención sobre encoder y sobre sí mismo	Autoatención + Atención cruzada + FFN

En los LLMs como GPT, solo se usa el decodificador, porque el modelo aprende a predecir el siguiente token dado el contexto previo:

$$
P(w_t \mid w_1, ..., w_{t-1})
$$

8. 🔍 Visualizando la atención

La atención puede visualizarse como un mapa de calor donde cada palabra conecta con las que considera relevantes. En una capa inferior, una cabeza puede rastrear concordancia gramatical (“el gato” → “corrió”); en capas superiores, se observan relaciones semánticas más sutiles (“clima” → “frío”).

Estas visualizaciones revelan una especie de cartografía cognitiva, un campo vectorial donde las palabras gravitan unas hacia otras.

9. 🧭 Entrenamiento: la búsqueda del mínimo

Entrenar un Transformer implica ajustar millones (o miles de millones) de parámetros para minimizar una función de pérdida —por lo general, la entropía cruzada—:

$$
\mathcal{L} = -\sum_{t=1}^{n} \log P(w_t \mid w_1, ..., w_{t-1})
$$

El optimizador Adam actualiza los pesos mediante gradiente descendente adaptativo, navegando un paisaje de alta dimensión donde cada punto representa un posible “estado mental” del modelo.

10. 🧩 Escalamiento y paralelismo

Los Transformers se escalan bien porque la autoatención permite paralelizar el procesamiento de secuencias completas. Esto fue la clave que permitió entrenar LLMs gigantes como GPT-4 o Gemini, capaces de procesar billones de tokens.

Modelo	Año	Parámetros	Característica distintiva
Transformer (Vaswani et al.)	2017	65M	Atención pura
GPT-3	2020	175B	Predicción autorregresiva
LLaMA 3	2024	405B	Entrenamiento eficiente multi-GPU
Gemini 1.5	2024	1T+	Arquitectura multimodal

11. 🔮 Capas profundas, conceptos emergentes

A medida que las capas aumentan, emergen fenómenos no programados: el modelo aprende gramática, sentido común, incluso razonamiento básico. Estos patrones no están codificados explícitamente, sino que emergen estadísticamente de la interacción entre millones de ejemplos.

En el espacio de vectores, palabras como “rey”, “reina”, “hombre”, “mujer” forman estructuras lineales:

$$
\text{rey} - \text{hombre} + \text{mujer} \approx \text{reina}
$$

La semántica, de alguna manera, se vuelve geometría.

12. 🧠 Interpretabilidad y conciencia sintética

El reto actual no es solo hacer modelos más grandes, sino comprender qué ocurre en su interior. Técnicas de interpretabilidad —como la descomposición de cabezas de atención o la visualización de activaciones— buscan mapear los conceptos latentes del modelo.

Aún no sabemos si estos patrones implican algo parecido al pensamiento, pero sí que representan una estructura interna del conocimiento, una topología del significado.

🪞 Epílogo: la mente matemática del lenguaje

Un Transformer no siente, pero traza el contorno de nuestras palabras con precisión cristalina. Es un espejo matemático donde el lenguaje se refleja y reorganiza según las leyes de la estadística. Dentro de su geometría de tensores, las oraciones se pliegan y despliegan como galaxias de significado.

La magia del Transformer no está en la máquina, sino en el lenguaje mismo: un universo que, cuando se traduce a vectores, revela que pensar es calcular distancias en un espacio invisible.