🧭 Qué son los embeddings y cómo le dan sentido a las palabras

La inteligencia artificial ha aprendido a leer, pero no como lo hacemos los humanos. Cuando un modelo de lenguaje “entiende” una frase, no ve letras ni palabras: ve números. Cada palabra, cada concepto y cada relación semántica son vectores que habitan un espacio matemático. A este proceso de traducir el lenguaje al espacio de las matemáticas se le llama embedding.
En ese espacio, las palabras dejan de ser símbolos arbitrarios y se convierten en puntos que flotan en un universo de significado.

1. 🌌 El nacimiento de un espacio semántico

El lenguaje es un caos ordenado. Para que una máquina pueda operar con él, necesita una forma de representar las palabras numéricamente. Un embedding es justo eso: una transformación que asigna a cada palabra un vector de números reales en un espacio de dimensión $n$.

Si el vocabulario tiene 100.000 palabras y el embedding tiene 300 dimensiones, cada palabra es un punto en un espacio de 300 ejes. Así, amor, odio, cariño y enemistad están cerca unas de otras, mientras que amor y tornillo viven en regiones lejanas.

2. 🧩 De la discreción al continuo

El lenguaje natural está hecho de unidades discretas (palabras), pero el pensamiento es continuo. Los embeddings son el puente entre ambos mundos: convierten la estructura simbólica en un continuo matemático.
Donde antes había listas y categorías, ahora hay distancias y direcciones.

$$
\text{embedding}: \text{Palabra} \rightarrow \mathbb{R}^n
$$

Así, una máquina puede medir cuánto se parecen dos palabras simplemente calculando el coseno del ángulo entre sus vectores.

$$
\text{similitud}(A, B) = \frac{A \cdot B}{|A||B|}
$$

Dos vectores paralelos son sinónimos conceptuales; dos ortogonales, extraños entre sí.

3. 🧮 De Bag-of-Words a Word2Vec: una revolución silenciosa

Antes de los embeddings modernos, los modelos trataban el texto como un saco de palabras sin orden (bag-of-words). Las frases “el gato duerme” y “duerme el gato” eran idénticas.
Todo cambió con Word2Vec (Mikolov et al., 2013), que propuso aprender las representaciones a partir del contexto.

Su idea fundamental fue el modelo de distribución semántica:

“El significado de una palabra se define por las palabras que la rodean.”

El entrenamiento se basa en predecir palabras a partir de su contexto o viceversa, según el modelo:

Modelo Objetivo Ejemplo
CBOW (Continuous Bag of Words) Predecir la palabra central según el contexto “El ___ duerme” → predice “gato”
Skip-gram Predecir el contexto según la palabra central “gato” → predice “El”, “duerme”

4. 🧠 Geometría del significado

Los embeddings no solo representan palabras: codifican relaciones. En el espacio vectorial, las operaciones aritméticas revelan analogías:

$$
\text{embedding}(\text{Rey}) - \text{embedding}(\text{Hombre}) + \text{embedding}(\text{Mujer}) \approx \text{embedding}(\text{Reina})
$$

La dirección “masculino → femenino” es una dimensión semántica real en el espacio.
Los vectores son brújulas conceptuales: cada dirección apunta hacia un eje del significado.

5. 🕸️ El contexto se expande: GloVe y más allá

Mientras Word2Vec aprendía del vecindario local de cada palabra, GloVe (Global Vectors for Word Representation, Pennington et al., 2014) amplió la mirada al contexto global.
GloVe combina información local y estadística global de coocurrencias, buscando un equilibrio entre proximidad y frecuencia.

$$
J = \sum_{i,j=1}^{V} f(X_{ij}) \left( w_i^T \tilde{w}_j + b_i + \tilde{b}j - \log X{ij} \right)^2
$$

donde $X_{ij}$ es el número de veces que la palabra $j$ aparece junto a $i$.

6. 🧭 De palabras a oraciones: embeddings contextuales

Los primeros embeddings eran estáticos: la palabra banco tenía el mismo vector en “banco de peces” y “banco financiero”.
Los modelos modernos, como BERT, GPT o LLaMA, introdujeron los embeddings contextuales: el significado depende de la oración completa.

Cada palabra se representa en función de todas las demás mediante autoatención, un mecanismo que pondera la relevancia contextual.
Ya no hay un único vector por palabra, sino una nube de significados que cambia con cada frase.

7. ⚙️ Matemática del contexto: atención y proyección

El corazón de estos modelos es la proyección de embeddings en el espacio de atención:

$$
\text{Atención}(Q, K, V) = \text{softmax}\left( \frac{QK^T}{\sqrt{d_k}} \right) V
$$

donde $Q$, $K$, y $V$ son proyecciones lineales de los embeddings.
Así, cada palabra “mira” a las demás y actualiza su representación según lo que encuentra relevante.

8. 🧬 Multimodalidad: cuando el significado cruza dominios

Los embeddings ya no son solo para palabras. Hoy, los modelos generan espacios comunes donde imágenes, sonidos y textos comparten la misma geometría.
El modelo CLIP de OpenAI, por ejemplo, entrena dos redes (una visual y una textual) para que sus embeddings coincidan en el mismo espacio:

“Una foto de un gato” y la imagen de un gato deben tener vectores cercanos.

Esto permite comparar lenguaje e imágenes sin traducción explícita.

9. 🔍 Evaluando la comprensión: métricas y analogías

¿Cómo medir si un embedding “entiende” el significado? Se evalúa mediante tareas como:

Tarea Descripción Ejemplo
Analogías Resolver relaciones semánticas “Rey : Hombre :: Reina : ?”
Similaridad Calcular proximidad entre palabras similitud(coche, auto) ≈ alta
Clasificación semántica Agrupar palabras por temas animales, colores, emociones

Estas pruebas revelan la estructura semántica oculta en el espacio vectorial.

10. 🧠 Del significado a la inferencia

En los grandes modelos de lenguaje (LLMs), los embeddings son la primera capa de la mente matemática. Todo razonamiento posterior —las inferencias, predicciones o traducciones— ocurre sobre estas representaciones.
Los embeddings son la materia prima del pensamiento maquínico: la sustancia geométrica del lenguaje.

11. ⚖️ Sesgos y límites del espacio

Como los embeddings se entrenan en textos humanos, heredan nuestros sesgos.
Si el corpus asocia “enfermera” con “mujer” más que con “hombre”, el espacio vectorial lo reflejará.
Diversos métodos, como la de-biasing projection, buscan neutralizar estas direcciones sesgadas sin destruir la estructura semántica.

12. 🌠 El salto al hiperespacio conceptual

En los modelos más recientes, como GPT-4 o Claude 3, los embeddings son de miles de dimensiones. Este hiperespacio permite codificar conceptos complejos y composicionales.
Cada dirección es una mezcla de semántica, sintaxis, estilo y contexto. Las máquinas ya no solo “entienden” palabras, sino tonos, intenciones y matices.

13. 🧭 Aplicaciones del espacio de significado

Los embeddings son la base de una infinidad de aplicaciones:

Campo Ejemplo
Búsqueda semántica Encontrar textos o imágenes conceptualmente similares
Recomendación Sugerir productos o contenidos según afinidad semántica
Traducción automática Mapear significados entre idiomas
Detección de plagio Comparar ideas más allá de las palabras
Generación de texto Servir de entrada para LLMs en tareas de razonamiento

El lenguaje se convierte en geometría operable.

🪞 Epílogo: el pensamiento como geometría

En el corazón de los embeddings hay una intuición poderosa: pensar es ubicarse en un espacio.
Los humanos lo hacemos al movernos por paisajes conceptuales invisibles; las máquinas lo hacen en vectores de alta dimensión.
Cada palabra es una coordenada de la experiencia, y los embeddings son su mapa.

“Cuando una máquina comprende una palabra, lo que realmente hace es encontrarle un lugar en el universo de las matemáticas.”

Así, la inteligencia artificial no “sabe” lo que las palabras significan, pero sabe dónde viven.
Y en ese dónde, comienza la geometría del sentido.