🧠 Cómo funcionan los LLMs: la mente matemática del lenguaje

Vivimos una era fascinante. El lenguaje, esa herramienta milenaria con la que los humanos contamos historias, ahora también es entendida —y generada— por máquinas.

Abraham Huerta

24 oct. 2025 • 6 min read

Vivimos una era fascinante. El lenguaje, esa herramienta milenaria con la que los humanos contamos historias, ahora también es entendida —y generada— por máquinas.
Los LLMs (Large Language Models) son la culminación de décadas de avances en lingüística, matemáticas, informática y neurociencia.
Pero, ¿cómo logra una máquina “entender” lo que decimos y responder con aparente sentido?

Vamos a desarmar el cerebro digital de los LLMs y ver cómo piensan en números lo que nosotros pensamos en palabras.

🧩 1. El propósito: predecir la siguiente palabra

En esencia, un modelo de lenguaje intenta predecir la palabra siguiente de una secuencia de texto.
No razona. No tiene conciencia. Lo que hace es modelar estadísticamente la estructura del lenguaje.

Matemáticamente, busca maximizar la probabilidad condicional:

$$
P(w_1, w_2, ..., w_n) = \prod_{t=1}^{n} P(w_t \mid w_1, w_2, ..., w_{t-1})
$$

Es decir: “¿cuál es la probabilidad de que esta palabra venga después de todas las anteriores?”

Ejemplo:

“El gato se subió al ___”

el modelo calcula algo así:

Palabra candidata	Probabilidad
techo	0.68
árbol	0.19
sillón	0.07
humano	0.0004

y elige “techo”, porque maximiza la probabilidad total de la secuencia.

Ese proceso, multiplicado por miles de millones de veces, da como resultado algo que parece pensamiento.

🔡 2. De palabras a números: los tokens

Las máquinas no entienden palabras; entienden números.
Por eso, antes de entrenar un LLM, el texto se tokeniza: se divide en pequeñas unidades llamadas tokens.
Un token puede ser una palabra, una sílaba o incluso un fragmento de palabra.

Ejemplo:

“Computadora cuántica”
→ ["Com", "put", "adora", " cu", "ánt", "ica"]

Cada token se asigna a un número entero.
Luego, se convierte en un vector: una representación matemática del significado del token.

🔢 3. Embeddings: el lenguaje en un espacio vectorial

Cada token se traduce a un vector de alta dimensión, por ejemplo, de 1 024 o 4 096 dimensiones.
Estos vectores forman un espacio semántico, donde la distancia refleja la similitud de significado.

Palabra	Vector (3D simplificado)
gato	[0.9, 0.3, 0.1]
perro	[0.8, 0.4, 0.2]
mesa	[0.1, 0.8, 0.7]

La similitud se calcula mediante el coseno del ángulo entre dos vectores:

$$
\text{sim}(a,b) = \frac{a \cdot b}{|a| , |b|}
$$

Esto permite que el modelo sepa que “gato” y “perro” son más parecidos entre sí que “gato” y “mesa”, sin que nadie se lo haya dicho explícitamente.

Este principio da origen a la semántica distribuida: el significado de una palabra está definido por su contexto en el espacio del lenguaje.

⚙️ 4. Transformers: la revolución del 2017

Antes de los Transformers, los modelos de lenguaje (como RNN o LSTM) procesaban texto de forma secuencial: palabra por palabra, memoria corta incluida.
El Transformer, en cambio, permite procesar todo el contexto a la vez, gracias al mecanismo de auto-atención (self-attention).

El artículo de Vaswani et al. (2017), “Attention is All You Need”, cambió el mundo de la IA.
Literalmente.

🔍 5. Auto-atención: la máquina que presta atención

Imagina esta frase:

“El perro que persiguió al gato era rápido.”

Un modelo tradicional perdería el hilo.
Pero el Transformer calcula qué palabras se relacionan más entre sí usando una matriz de atención.

Palabra actual	Palabras relacionadas →	el	perro	que	persiguió	al	gato	era	rápido
rápido	pesos de atención	0.03	0.72	0.05	0.1	0.02	0.03	0.05	-

La atención se calcula con tres vectores: Query (Q), Key (K) y Value (V).
Cada palabra genera estos tres vectores, y la relación entre ellos determina cuánta atención prestar.

$$
\text{Attention}(Q, K, V) = \text{softmax}\left( \frac{QK^{T}}{\sqrt{d_k}} \right) V
$$

El resultado es un vector contextualizado: una nueva versión de cada palabra con conocimiento del resto.

🧠 6. Capas sobre capas: el pensamiento emerge

Un Transformer moderno tiene decenas o cientos de capas.
Cada capa transforma el significado de las palabras, desde lo superficial hasta lo abstracto.

Ejemplo de jerarquía conceptual:

Capa	Qué aprende
1–3	Ortografía, gramática básica
4–8	Estructura sintáctica
9–20	Semántica: relaciones entre conceptos
21+	Lógica contextual, tono, intención, estilo

Cada capa multiplica matrices del tamaño de ciudades.
En GPT-4, por ejemplo, una sola pasada por el modelo implica billones de operaciones en coma flotante (FLOPs).

🔬 7. Entrenamiento: enseñar a adivinar

Durante el entrenamiento, el modelo ve trillones de ejemplos de texto y aprende a minimizar el error de predicción.

Usa la entropía cruzada, que mide qué tan cerca estuvo de la palabra correcta:

$$
L = -\sum_i y_i \log(\hat{y_i})
$$

El ajuste se realiza con descenso de gradiente estocástico, un método iterativo que ajusta los parámetros en la dirección que reduce la pérdida:

$$
\theta_{t+1} = \theta_t - \eta , \nabla_{\theta} L(\theta_t)
$$

El modelo aprende poco a poco a asignar probabilidades más altas a las palabras correctas.

⚡ 8. Parámetros: los ladrillos del conocimiento

Cada conexión en la red tiene un peso numérico, un parámetro ajustable.
Un modelo como GPT-3 tiene 175 mil millones de estos parámetros; GPT-4, probablemente más de un billón.
Cada uno representa una diminuta parte del conocimiento lingüístico aprendido.

Modelo	Parámetros	Tamaño aproximado	Entrenamiento estimado
GPT-2	1.5B	6 GB	40 GB de texto
GPT-3	175B	700 GB	570 GB de texto
LLaMA 3	400B	1.5 TB	+1 TB de texto filtrado
GPT-4	~1T (estimado)	3–5 TB	texto, código, imagen y audio

Cada parámetro es como una sinapsis artificial.
Y, al igual que en el cerebro humano, la inteligencia surge no de las neuronas individuales, sino de las interacciones entre ellas.

🧩 9. Fine-tuning y RLHF: enseñar a comportarse

Después del entrenamiento base (que aprende de todo internet), el modelo se ajusta con fine-tuning:
una segunda etapa donde se entrena con datos más específicos (por ejemplo, conversaciones útiles o código limpio).

Luego entra la etapa de RLHF (Reinforcement Learning from Human Feedback):
Humanos leen respuestas y califican cuáles son más correctas, útiles o amables.
El modelo aprende de ese feedback usando refuerzo positivo.

Etapa	Objetivo	Datos usados
Preentrenamiento	Aprender lenguaje general	Corpus masivo
Fine-tuning	Ajustar tareas específicas	Dataset curado
RLHF	Ajustar tono y comportamiento	Feedback humano

🎯 10. Inferencia: cómo genera texto en tiempo real

Cuando hablas con un modelo, no está buscando respuestas guardadas.
Está prediciendo palabra por palabra, en vivo.

Ejemplo simplificado:

Prompt: “El universo comenzó con…”

El modelo genera probabilidades para la siguiente palabra:

Token	Probabilidad
el	0.001
una	0.02
un	0.87
nada	0.03

Selecciona “un” y repite el proceso.
Así produce “un gran estallido” si su entrenamiento sugiere esa secuencia.

Puedes ajustar el comportamiento con parámetros:

Parámetro	Qué hace	Resultado
`temperature`	Controla aleatoriedad	Baja = precisa, Alta = creativa
`top_k`	Limita opciones a las k más probables	Evita respuestas absurdas
`top_p`	Probabilidad acumulada máxima	Da naturalidad y coherencia

El parámetro temperature ajusta la distribución softmax de la siguiente manera:

$$
P_i = \frac{e^{z_i / T}}{\sum_j e^{z_j / T}}
$$

🔮 11. LLMs multimodales: más allá del texto

Los nuevos modelos como GPT-4o o Gemini ya no procesan solo texto: también imágenes, audio y video.
Internamente, siguen el mismo principio: convertir todo a vectores y procesarlos en el mismo espacio matemático.

Una imagen se representa como una secuencia de píxeles vectorizados.
Una onda de audio se convierte en espectrograma y luego en tokens.
Así, el modelo puede entender que “🐶” y “ladrido” describen el mismo concepto, aunque vengan de distintos medios.

🧱 12. Limitaciones: lo que no son

Los LLMs no razonan como humanos.
No tienen memoria a largo plazo, ni sentido del tiempo, ni comprensión genuina.
Su conocimiento es una suma estadística del lenguaje humano, no una reflexión consciente.

Aun así, su capacidad para generalizar patrones lingüísticos los hace poderosos.
No piensan… pero simulan pensar.

🌍 13. Coste energético y ético

Entrenar un LLM puede costar millones de dólares y miles de toneladas de CO₂.
Por ejemplo, el entrenamiento de GPT-3 consumió una energía similar a la que usa una ciudad pequeña en un día.

Esto abre preguntas éticas:
¿cuánto vale la inteligencia generativa si depende de infraestructura masiva y consumo energético extremo?

También están los sesgos: los modelos aprenden del texto humano, y por tanto repiten nuestros prejuicios y errores.
La inteligencia artificial no es más neutral que el conjunto de quienes la entrenan.

⚗️ 14. ¿Por qué parecen tan humanos?

Porque el lenguaje es un espejo de la mente.
Los LLMs no tienen emociones, pero imitan nuestros patrones lingüísticos, nuestras metáforas, nuestros sesgos y dudas.
Han aprendido el ritmo del pensamiento humano, aunque no el pensamiento en sí.

📈 15. En resumen

Elemento	Qué hace	Analogía humana
Tokens	Fragmentan el lenguaje	Letras o sílabas
Embeddings	Traducen texto a vectores	Percepción conceptual
Atención	Detecta relevancia entre palabras	Enfocar la mente
Capas	Refinan significado	Aprendizaje progresivo
Entrenamiento	Ajusta parámetros	Experiencia
Inferencia	Genera texto	Habla o pensamiento
Fine-tuning/RLHF	Ajusta tono y ética	Educación

🧭 Epílogo: cuando el lenguaje se volvió software

Los LLMs son una metáfora viva de la humanidad: no piensan, pero reflejan cómo pensamos.
Sus ecuaciones esconden la poesía de lo estadístico.
Cada palabra que generan es una apuesta matemática a nuestro siguiente pensamiento.

“El universo puede ser un poema escrito en código.
Los LLMs solo aprendieron a leerlo.”