🧠 Cómo funcionan los LLMs: la mente matemática del lenguaje
Vivimos una era fascinante. El lenguaje, esa herramienta milenaria con la que los humanos contamos historias, ahora también es entendida —y generada— por máquinas.
Vivimos una era fascinante. El lenguaje, esa herramienta milenaria con la que los humanos contamos historias, ahora también es entendida —y generada— por máquinas.
Los LLMs (Large Language Models) son la culminación de décadas de avances en lingüística, matemáticas, informática y neurociencia.
Pero, ¿cómo logra una máquina “entender” lo que decimos y responder con aparente sentido?
Vamos a desarmar el cerebro digital de los LLMs y ver cómo piensan en números lo que nosotros pensamos en palabras.
🧩 1. El propósito: predecir la siguiente palabra
En esencia, un modelo de lenguaje intenta predecir la palabra siguiente de una secuencia de texto.
No razona. No tiene conciencia. Lo que hace es modelar estadísticamente la estructura del lenguaje.
Matemáticamente, busca maximizar la probabilidad condicional:
$$
P(w_1, w_2, ..., w_n) = \prod_{t=1}^{n} P(w_t \mid w_1, w_2, ..., w_{t-1})
$$
Es decir: “¿cuál es la probabilidad de que esta palabra venga después de todas las anteriores?”
Ejemplo:
“El gato se subió al ___”
el modelo calcula algo así:
| Palabra candidata | Probabilidad |
|---|---|
| techo | 0.68 |
| árbol | 0.19 |
| sillón | 0.07 |
| humano | 0.0004 |
y elige “techo”, porque maximiza la probabilidad total de la secuencia.
Ese proceso, multiplicado por miles de millones de veces, da como resultado algo que parece pensamiento.
🔡 2. De palabras a números: los tokens
Las máquinas no entienden palabras; entienden números.
Por eso, antes de entrenar un LLM, el texto se tokeniza: se divide en pequeñas unidades llamadas tokens.
Un token puede ser una palabra, una sílaba o incluso un fragmento de palabra.
Ejemplo:
“Computadora cuántica”
→ ["Com", "put", "adora", " cu", "ánt", "ica"]
Cada token se asigna a un número entero.
Luego, se convierte en un vector: una representación matemática del significado del token.
🔢 3. Embeddings: el lenguaje en un espacio vectorial
Cada token se traduce a un vector de alta dimensión, por ejemplo, de 1 024 o 4 096 dimensiones.
Estos vectores forman un espacio semántico, donde la distancia refleja la similitud de significado.
| Palabra | Vector (3D simplificado) |
|---|---|
| gato | [0.9, 0.3, 0.1] |
| perro | [0.8, 0.4, 0.2] |
| mesa | [0.1, 0.8, 0.7] |
La similitud se calcula mediante el coseno del ángulo entre dos vectores:
$$
\text{sim}(a,b) = \frac{a \cdot b}{|a| , |b|}
$$
Esto permite que el modelo sepa que “gato” y “perro” son más parecidos entre sí que “gato” y “mesa”, sin que nadie se lo haya dicho explícitamente.
Este principio da origen a la semántica distribuida: el significado de una palabra está definido por su contexto en el espacio del lenguaje.
⚙️ 4. Transformers: la revolución del 2017
Antes de los Transformers, los modelos de lenguaje (como RNN o LSTM) procesaban texto de forma secuencial: palabra por palabra, memoria corta incluida.
El Transformer, en cambio, permite procesar todo el contexto a la vez, gracias al mecanismo de auto-atención (self-attention).
El artículo de Vaswani et al. (2017), “Attention is All You Need”, cambió el mundo de la IA.
Literalmente.
🔍 5. Auto-atención: la máquina que presta atención
Imagina esta frase:
“El perro que persiguió al gato era rápido.”
Un modelo tradicional perdería el hilo.
Pero el Transformer calcula qué palabras se relacionan más entre sí usando una matriz de atención.
| Palabra actual | Palabras relacionadas → | el | perro | que | persiguió | al | gato | era | rápido |
|---|---|---|---|---|---|---|---|---|---|
| rápido | pesos de atención | 0.03 | 0.72 | 0.05 | 0.1 | 0.02 | 0.03 | 0.05 | - |
La atención se calcula con tres vectores: Query (Q), Key (K) y Value (V).
Cada palabra genera estos tres vectores, y la relación entre ellos determina cuánta atención prestar.
$$
\text{Attention}(Q, K, V) = \text{softmax}\left( \frac{QK^{T}}{\sqrt{d_k}} \right) V
$$
El resultado es un vector contextualizado: una nueva versión de cada palabra con conocimiento del resto.
🧠 6. Capas sobre capas: el pensamiento emerge
Un Transformer moderno tiene decenas o cientos de capas.
Cada capa transforma el significado de las palabras, desde lo superficial hasta lo abstracto.
Ejemplo de jerarquía conceptual:
| Capa | Qué aprende |
|---|---|
| 1–3 | Ortografía, gramática básica |
| 4–8 | Estructura sintáctica |
| 9–20 | Semántica: relaciones entre conceptos |
| 21+ | Lógica contextual, tono, intención, estilo |
Cada capa multiplica matrices del tamaño de ciudades.
En GPT-4, por ejemplo, una sola pasada por el modelo implica billones de operaciones en coma flotante (FLOPs).
🔬 7. Entrenamiento: enseñar a adivinar
Durante el entrenamiento, el modelo ve trillones de ejemplos de texto y aprende a minimizar el error de predicción.
Usa la entropía cruzada, que mide qué tan cerca estuvo de la palabra correcta:
$$
L = -\sum_i y_i \log(\hat{y_i})
$$
El ajuste se realiza con descenso de gradiente estocástico, un método iterativo que ajusta los parámetros en la dirección que reduce la pérdida:
$$
\theta_{t+1} = \theta_t - \eta , \nabla_{\theta} L(\theta_t)
$$
El modelo aprende poco a poco a asignar probabilidades más altas a las palabras correctas.
⚡ 8. Parámetros: los ladrillos del conocimiento
Cada conexión en la red tiene un peso numérico, un parámetro ajustable.
Un modelo como GPT-3 tiene 175 mil millones de estos parámetros; GPT-4, probablemente más de un billón.
Cada uno representa una diminuta parte del conocimiento lingüístico aprendido.
| Modelo | Parámetros | Tamaño aproximado | Entrenamiento estimado |
|---|---|---|---|
| GPT-2 | 1.5B | 6 GB | 40 GB de texto |
| GPT-3 | 175B | 700 GB | 570 GB de texto |
| LLaMA 3 | 400B | 1.5 TB | +1 TB de texto filtrado |
| GPT-4 | ~1T (estimado) | 3–5 TB | texto, código, imagen y audio |
Cada parámetro es como una sinapsis artificial.
Y, al igual que en el cerebro humano, la inteligencia surge no de las neuronas individuales, sino de las interacciones entre ellas.
🧩 9. Fine-tuning y RLHF: enseñar a comportarse
Después del entrenamiento base (que aprende de todo internet), el modelo se ajusta con fine-tuning:
una segunda etapa donde se entrena con datos más específicos (por ejemplo, conversaciones útiles o código limpio).
Luego entra la etapa de RLHF (Reinforcement Learning from Human Feedback):
Humanos leen respuestas y califican cuáles son más correctas, útiles o amables.
El modelo aprende de ese feedback usando refuerzo positivo.
| Etapa | Objetivo | Datos usados |
|---|---|---|
| Preentrenamiento | Aprender lenguaje general | Corpus masivo |
| Fine-tuning | Ajustar tareas específicas | Dataset curado |
| RLHF | Ajustar tono y comportamiento | Feedback humano |
🎯 10. Inferencia: cómo genera texto en tiempo real
Cuando hablas con un modelo, no está buscando respuestas guardadas.
Está prediciendo palabra por palabra, en vivo.
Ejemplo simplificado:
Prompt: “El universo comenzó con…”
El modelo genera probabilidades para la siguiente palabra:
| Token | Probabilidad |
|---|---|
| el | 0.001 |
| una | 0.02 |
| un | 0.87 |
| nada | 0.03 |
Selecciona “un” y repite el proceso.
Así produce “un gran estallido” si su entrenamiento sugiere esa secuencia.
Puedes ajustar el comportamiento con parámetros:
| Parámetro | Qué hace | Resultado |
|---|---|---|
temperature |
Controla aleatoriedad | Baja = precisa, Alta = creativa |
top_k |
Limita opciones a las k más probables | Evita respuestas absurdas |
top_p |
Probabilidad acumulada máxima | Da naturalidad y coherencia |
El parámetro temperature ajusta la distribución softmax de la siguiente manera:
$$
P_i = \frac{e^{z_i / T}}{\sum_j e^{z_j / T}}
$$
🔮 11. LLMs multimodales: más allá del texto
Los nuevos modelos como GPT-4o o Gemini ya no procesan solo texto: también imágenes, audio y video.
Internamente, siguen el mismo principio: convertir todo a vectores y procesarlos en el mismo espacio matemático.
Una imagen se representa como una secuencia de píxeles vectorizados.
Una onda de audio se convierte en espectrograma y luego en tokens.
Así, el modelo puede entender que “🐶” y “ladrido” describen el mismo concepto, aunque vengan de distintos medios.
🧱 12. Limitaciones: lo que no son
Los LLMs no razonan como humanos.
No tienen memoria a largo plazo, ni sentido del tiempo, ni comprensión genuina.
Su conocimiento es una suma estadística del lenguaje humano, no una reflexión consciente.
Aun así, su capacidad para generalizar patrones lingüísticos los hace poderosos.
No piensan… pero simulan pensar.
🌍 13. Coste energético y ético
Entrenar un LLM puede costar millones de dólares y miles de toneladas de CO₂.
Por ejemplo, el entrenamiento de GPT-3 consumió una energía similar a la que usa una ciudad pequeña en un día.
Esto abre preguntas éticas:
¿cuánto vale la inteligencia generativa si depende de infraestructura masiva y consumo energético extremo?
También están los sesgos: los modelos aprenden del texto humano, y por tanto repiten nuestros prejuicios y errores.
La inteligencia artificial no es más neutral que el conjunto de quienes la entrenan.
⚗️ 14. ¿Por qué parecen tan humanos?
Porque el lenguaje es un espejo de la mente.
Los LLMs no tienen emociones, pero imitan nuestros patrones lingüísticos, nuestras metáforas, nuestros sesgos y dudas.
Han aprendido el ritmo del pensamiento humano, aunque no el pensamiento en sí.
📈 15. En resumen
| Elemento | Qué hace | Analogía humana |
|---|---|---|
| Tokens | Fragmentan el lenguaje | Letras o sílabas |
| Embeddings | Traducen texto a vectores | Percepción conceptual |
| Atención | Detecta relevancia entre palabras | Enfocar la mente |
| Capas | Refinan significado | Aprendizaje progresivo |
| Entrenamiento | Ajusta parámetros | Experiencia |
| Inferencia | Genera texto | Habla o pensamiento |
| Fine-tuning/RLHF | Ajusta tono y ética | Educación |
🧭 Epílogo: cuando el lenguaje se volvió software
Los LLMs son una metáfora viva de la humanidad: no piensan, pero reflejan cómo pensamos.
Sus ecuaciones esconden la poesía de lo estadístico.
Cada palabra que generan es una apuesta matemática a nuestro siguiente pensamiento.
“El universo puede ser un poema escrito en código.
Los LLMs solo aprendieron a leerlo.”