Propuesta metodológica para la recuperación de información documental: integración de grafos de conocimiento y redes neuronales

Polo-Bautista, Luis Roberto; Casique Vasquez, Raquel; Polo-Bautista, Luis Roberto; Casique Vasquez, Raquel

doi:10.22201/iibi.24488321xe.2025.105.59051

Artículos

Propuesta metodológica para la recuperación de información documental: integración de grafos de conocimiento y redes neuronales

Methodological Proposal for Document Information Retrieval: Integration of Knowledge Graphs and Neural Networks

Luis Roberto Polo-Bautista^*
https://orcid.org/0000-0002-0421-1126

Raquel Casique Vasquez^**
https://orcid.org/0009-0007-3553-2225

^{^*}Centro de Investigación en Computación, Instituto Politécnico Nacional, México. luispolobautista@gmail.com

^{^**}Escuela Nacional de Biblioteconomía y Archivonomía, Instituto Politécnico Nacional, México rcasique106@gmail.com

Resumen

El uso de grafos para modelar relaciones complejas entre entidades se ha consolidado como una herramienta importante en la recuperación de información documental. De esta forma, el objetivo de este trabajo es proponer una metodología basada en redes neuronales de grafos (GNN) para mejorar la recuperación de información documental mediante grafos de conocimiento (KG). Los documentos se transforman en un grafo de conocimiento construido con lemas y frases nominales sobre el cual se inicializan incrustaciones procesadas con una red de atención gráfica (GAT). Ante una consulta, el sistema extrae un subgrafo del grafo de conocimiento global, ajusta las representaciones y genera respuestas concisas y fácticas. La arquitectura se contrasta con la referencia del gran modelo de lenguaje (LLM) Llama 3.1 usando tres métricas principales: número de tókenes de la respuesta, similitud con el documento de origen y tiempo de procesamiento. Los resultados teóricos y experimentales muestran mejoras en la obtención de respuestas precisas y contextualmente pertinentes.

Palabras claves: Recuperación de información; Grafos de conocimiento (KG); Red de atención gráfica (GAT); Incrustaciones

Abstract

The use of graphs to model complex relationships between entities has become a valuable tool in document information retrieval. Thus, this work aims to propose a methodology based on graph neural networks (GNNs) to improve document information retrieval using knowledge graphs (KGs). We transformed the documents into a knowledge graph constructed with lemmas and noun-chunks, on which embeddings processed with a graph attention network (GAT) were initialized. When a query is made, the system extracts a subgraph from the global knowledge graph, adjusts the representations, and generates concise and factual responses. We compared its architecture with Llama 3.1, a reference LLM, using three main metrics: number of tokens in the response, similarity to the source document, and processing time. The theoretical and experimental results show improvements due to the accuracy and contextual relevance of the responses obtained.

Keywords: Information Retrieval; Knowledge Graphs (KG); Graph Attention Network (GAT); Embeddings

Introducción

Actualmente, la gestión de la información y el conocimiento, a través de su almacenamiento y recuperación, es fundamental para el progreso social. Históricamente, el conocimiento ha sido transmitido principalmente a través del lenguaje natural, y en los últimos años se registra en diversos documentos, como en libros, en artículos, y otros soportes, ya sea en sus versiones impresas o electrónicas. El avance tecnológico ha permitido que las computadoras mejoren el procesamiento de estos documentos para posteriormente recuperar esta información, lo que ha incrementado su disponibilidad conforme a las necesidades de los usuarios y así satisfacer sus demandas informativas (^{Ávila-Barrientos, 2022: 132}; ^{Gelbukh y Sidorov, 2006: 37}).

La recuperación de información busca extraer información relevante de diversas fuentes en respuesta a las consultas de los usuarios y organiza los resultados según su similitud con la consulta. Los primeros sistemas de recuperación de la información basados en la concordancia de palabras clave presentaban limitaciones como polisemia, sinonimia y lagunas léxicas que restringían su eficiencia (^{Croft, Metzler y Strohman, 2010: 1-4}; ^{Hambarde y Proença, 2023: 76 581}). Estos sistemas tradicionales no satisfacen directamente las demandas de información, sino que ofrecen indicaciones hacia el contenido potencialmente relevante que puede ser, o no, lo que los usuarios necesitan (^{Metzler et al., 2021: 1-2}).

En los últimos años, el procesamiento del lenguaje natural (natural language processing) ha tenido avances importantes debido a la diversidad de datos en la web y a una mayor potencia de procesamiento que ha permitido usar algoritmos de aprendizaje automático para mejorar los sistemas tradicionales de recuperación de la información y abordar las limitaciones basadas en la concordancia de palabras (^{Hambarde y Proença, 2023: 76 581}). El aprendizaje profundo, especialmente mediante redes neuronales convolucionales (convolutional neural networks) (^{Yaxue, 2020}) y redes neuronales recurrentes (recurrent neural networks) (^{Lai, 2015}) ha mejorado significativamente la representación textual y comprensión de consultas en la recuperación de la información.

Posteriormente, se desarrollaron métodos basados en atención, como los transformadores (transformers) (^{Vaswani et al., 2023}) que, entre otras características, mejoran la capacidad de los sistemas de recuperación de la información para centrarse en partes específicas de la consulta del usuario. Un ejemplo de la implementación de los transformadores es su integración dentro de modelos de lenguaje previamente entrenados, como BERT (^{Devlin et al., 2019}) y en grandes modelos de lenguaje, como GPT, los cuales han demostrado la capacidad de mejorar el rendimiento de los sistemas de recuperación de la información al proporcionar comprensión, generación, generalización y razonamiento del lenguaje natural (^{Zhu et al., 2024: 2}).

De esta forma, la recuperación de información clásica, centrada en la recuperación de documentos relevantes mediante palabras clave, está siendo superada por propuestas en las que la recuperación forma parte de un proceso mayor de representación de conocimiento. En este contexto, los grandes modelos de lenguaje (en adelante, LLM [large language models]) no solo identifican fragmentos importantes de información, sino que los integran y estructuran en respuestas y unidades de conocimiento reutilizables. Sin embargo, estos modelos cuentan con limitaciones que pueden afectar su uso en ambientes de producción relacionados con la recuperación de la información.

Otra propuesta en torno a la recuperación de información es la de crear grafos de conocimiento (en adelante, KG [knowledge graphs]) a partir del contenido de documentos, donde la integración de incrustaciones o embeddings (representaciones vectoriales de sus nodos y aristas) usando redes neuronales de grafos (en adelante, GNN [graph neural networks]) mejora las representaciones semánticas y contextuales del documento. Esto ayuda a establecer mejores relaciones entre los términos, las consultas de los usuarios y los documentos, y genera resultados más exactos (^{Hambarde y Proença, 2023: 76 582}).

Aunque los LLM de última generación, como Gemini 2.5, Claude Opus 4 y GPT-5, han avanzado en capacidad computacional, existen deficiencias estructurales que justifican el uso de enfoques alternativos como las GNN y los KG. Los LLM actuales tienen limitaciones como fragilidad en la descomposición de tareas mediante cadenas de pensamiento (chains of thought), altos requisitos de datos, alta latencia y problemas de tokenización (^{Wang et al., 2025}; ^{Hwang, Wang y Gu, 2025}). De igual forma, sufren de alucinaciones, tienen un alto consumo de recursos computacionales, y cuentan con una limitada interpretabilidad, sesgos culturales y, al no ser deterministas, poseen variaciones en su respuesta ante cambios mínimos en los prompts (^{Kostikova et al., 2025}; ^{Tao et al., 2024}; ^{Qiang et al., 2024}). Las técnicas de generación aumentada por recuperación (retrieval-augmented generation) disminuyen algunas de estas limitaciones, pero requieren de una infraestructura costosa y su precisión sigue dependiendo del modelo de lenguaje usado (^{Kostikova et al., 2025}).

En la práctica, estas limitaciones implican que un sistema basado exclusivamente en los LLM puede producir respuestas plausibles pero incorrectas, pues se carece de la transparencia necesaria para la validación factual del contenido. La ventana de contexto limitada y la sensibilidad a ligeros cambios en el prompt aumentan esta vulnerabilidad, lo cual dificulta la recuperación exhaustiva y coherente de información en dominios extensos o altamente técnicos y especializados.

Por otro lado, las GNN aprovechan la estructura topológica de los datos. Por ejemplo, un método reciente demuestra que integrar una GNN para procesar un grafo de conocimiento puede mejorar sustancialmente el rendimiento en tareas de respuesta compleja, frente a la aplicación de generación aumentada por recuperación tradicional en consultas complejas (^{Mavromatis y Karypis, 2024}).

Las GNN están diseñadas específicamente para trabajar con datos estructurados y ofrecen grandes ventajas frente a los LLM en el contexto de la recuperación de la información. Al procesar directamente la topología del grafo, estas preservan la coherencia semántica. De la misma manera, son considerablemente más eficientes en términos energéticos, pues pueden consumir entre 5 y 30 veces menos energía que un modelo transformador, debido a que operan con una complejidad O(|V|+|E|) en lugar de la O(n²) propia de la atención global. A esto puede sumarse su capacidad de escalabilidad, que permite insertar o actualizar datos en el grafo sin necesidad de reentrenar todo el modelo. Esto facilita mantener el conocimiento actualizado con un costo computacional mínimo (^{Heptalytics, 2025}).

En atención a las limitaciones identificadas en los sistemas tradicionales de recuperación de información basadas en la concordancia de palabras clave y en los grandes modelos de lenguaje (LLM), el presente trabajo tiene como objetivo proponer una metodología basada en las redes neuronales de grafos (GNN) para mejorar la recuperación de información documental mediante grafos de conocimiento (KG). Esta propuesta se fundamenta con los avances descritos en el estado del arte sobre los grafos de conocimiento y las redes neuronales de grafos, buscando superar las restricciones de los enfoques clásicos y de los grandes modelos de lenguaje al ofrecer respuestas precisas, contextualmente pertinentes y fácticas para la recuperación de información documental.

Redes neuronales de grafos (GNN)

Diversas disciplinas requieren trabajar con grafos que proporcionen información detallada sobre las relaciones entre distintas entidades o elementos. ^{Zhou et al. (2020)} mencionan que disciplinas como el modelado de sistemas físicos, el aprendizaje de representaciones moleculares, la predicción de enlaces entre proteínas y la clasificación de enfermedades requieren de un enfoque capaz de aprender a partir de las estructuras de grafos (57).

Otras áreas de investigación que también han usado modelos basados en grafos son los sistemas de recuperación de la información. ^{Kamphuis (2020)} menciona que las estructuras de grafos también se han implementado en el contexto de la recuperación de la información, como en motores de búsqueda web, blogs y comercio electrónico, donde estos permiten representar documentos, consultas y usuarios como nodos, y los intereses o el comportamiento del usuario como aristas.

De acuerdo con ^{Hamilton (2020)}, los grafos son una estructura de datos que se encuentra en todas partes y son una forma global para representar sistemas complejos (2), lo cual los convierte en una herramienta importante para modelar relaciones en diversas áreas de conocimiento, como las redes sociales, los sistemas biológicos, las infraestructuras urbanas y los sistemas de recuperación de la información.

Formalmente, un grafo G= (V, E) se define como un conjunto de vértices v = (v₁ , v₂ , v₃ , ... v_n) y un conjunto de aristas E = {e₁ , e₂ , e₃, ... e_m } donde cada arista es un par de vértices e_i = (v_j, v_k) (^{Hamilton, 2020: 2}). El análisis de grafos usando algoritmos de aprendizaje automático ha cobrado un creciente interés en diversos campos del conocimiento en relación con la capacidad expresiva de estas estructuras, las cuales permiten modelar una amplia gama de sistemas complejos (^{Zhou et al., 2020: 57}).

Sobre esta base, las GNN son una propuesta que pretende mejorar aún más el potencial de los métodos clásicos de análisis de redes al incorporar aprendizaje automático profundo. Esto asistiría en solucionar tareas como la clasificación de nodos, por ejemplo, para inferir intereses de usuarios, o en la predicción de enlaces, que son esenciales para descubrir interacciones biológicas o sugerir nuevas conexiones en redes sociales con altos niveles de precisión (^{Grover y Leskovec, 2016: 2}).

Para usar estos algoritmos de aprendizaje automático, es necesario construir representaciones vectoriales que describan las características de nodos y aristas. Sin embargo, el diseño manual de estas características, basado en el conocimiento de expertos, suele ser laborioso y específico para tareas concretas, lo que dificulta su generalización hacia otros problemas (^{Grover y Leskovec, 2016: 2}).

Las GNN resuelven esta limitación pues aprenden automáticamente estas representaciones vectoriales (incrustaciones), que codifican tanto la estructura local de cada nodo y arista, así como su contexto global en todo el grafo. De este modo, es posible solucionar tareas, como la clasificación de nodos, la predicción de enlaces, la detección de comunidades, entre otras, con altos niveles de precisión y generalización sin dependencia de la ingeniería manual de características (^{Grover y Leskovec, 2016: 2-3}).

En el aprendizaje automático tradicional, se han desarrollado diversos algoritmos enfocados en crear representaciones vectoriales de cada nodo en un grafo, esto hace que se capturen las relaciones y estructuras topológicas. Entre los enfoques más destacados se encuentran DeepWalk (^{Perozzi, Al-Rfou y Skiena, 2014}), Word2vec (^{Goldberg y Levy, 2014}), LINE (large-scale information network embedding) (^{Tang et al., 2015}) y Node2vec (^{Grover y Leskovec, 2016}). Estos algoritmos representan avances importantes en la obtención de vectores que reflejan la estructura y conexiones de los grafos.

A pesar de estos algoritmos, uno de los principales desafíos radica en crear representaciones que no solo sean eficientes para una tarea determinada, sino que también puedan generalizarse hacia diferentes problemas y dominios de conocimiento (^{Grover y Leskovec, 2016: 856}). Esto ha impulsado el desarrollo de enfoques más avanzados, como los basados en redes neuronales y otras técnicas de aprendizaje profundo aplicadas a estructuras de grafos. El uso de estas nuevas propuestas de algoritmos para codificar la estructura de grafos en incrustaciones (representaciones vectoriales) ofrece varios beneficios: permite aprender a partir de datos distribuidos de múltiples fuentes, elimina la necesidad de realizar ingeniería de características manuales y proporciona un rendimiento predictivo de última generación (^{Leskovec, 2023: 1}).

^{Ren et al. (2023: 13)} mencionan que el uso del aprendizaje automático para grafos tiene como objetivo hacer que los nodos que comparten ciertas características estructurales y semánticas tengan representaciones vectoriales similares (donde la similitud a menudo se mide mediante una función de distancia entre puntos o similitud de coseno). Con base en los primeros enfoques descritos anteriormente, se desarrollaron las GNN, que son métodos basados en aprendizaje profundo. Debido a su alto rendimiento, estas se han convertido, recientemente, en un método de análisis para grafos ampliamente utilizado (^{Zhou et al., 2020: 57}).

En términos simples, las GNN representan cada nodo como una combinación ponderada de las características de sus nodos vecinos. Son modelos que pueden aprender a recopilar datos de vecinos de nodos que están a diferentes distancias y utilizan procesos para modelar cómo estos se influencian mutuamente. De igual forma, se han aplicado en diversas tareas relacionadas con grafos, como la clasificación de nodos, la predicción de enlaces y la agrupación (^{Keramatfar, Rafiee y Amirkhani, 2022: 1-2}; ^{Zhou et al., 2020: 62}). Su arquitectura se muestra en la Figura 1.

Fuente: ^{Zhou et al. (2020: 60)}

Figura 1 Arquitectura de las redes neuronales de grafos (GNN)

Las GNN constituyen las unidades esenciales del modelo, pues son las encargadas de manejar de forma iterativa la información del grafo de entrada. En este procedimiento, se actualizan las representaciones de los nodos y las aristas, facilitando la recopilación de las características tanto locales como globales de la red.

Respecto a las incrustaciones, hay diversas clases que representan distintas dimensiones del grafo. Las incrustaciones de nodos refieren a la representación vectorial de cada nodo, ya que capturan las propiedades del nodo en comparación con sus vecinos y el grafo en su totalidad. Por otro lado, las incrustaciones de aristas representan cada arista, pues capturan los atributos de la relación entre los nodos que vinculan. Como punto final, las incrustaciones del grafo ofrecen una representación vectorial del grafo en su totalidad, en vista de que recopilan las propiedades topológicas y semánticas.

Con estas representaciones vectoriales es posible brindar una solución a múltiples problemas en distintos campos. En el ámbito del nodo, existen problemas que involucran la predicción de características o etiquetas vinculadas a nodos específicos, tales como la categorización de nodos o la identificación de irregularidades. En el ámbito de la arista, se contemplan problemas que anticipan características o etiquetas vinculadas a las aristas, tales como la predicción de enlaces o la categorización de interrelaciones.

Finalmente, como ya se ha mencionado, en el ámbito del grafo se pueden ofrecer soluciones a problemas que conllevan la predicción de características o etiquetas vinculadas al grafo en su totalidad, tales como la categorización de grafos y la creación de nuevos grafos. Entre los algoritmos basados en GNN más representativos se encuentran las redes convolucionales de grafos (graph convolutional networks), propuestas para la clasificación semisupervisada (^{Kipf y Welling, 2017}); las redes de atención gráfica (en adelante, GAT [graph attention networks]), que incorporan mecanismos de atención para ponderar la importancia de los vecinos (^{Veličković et al., 2018}); y las graph recurrent networks with attributed random walks, presentadas por ^{Huang et al. (2019)}, que integran recorridos aleatorios con atributos para modelar dinámicas de grafos recurrentes.

En el contexto de la recuperación de información usando GNN, estas se usan en tipos específicos de grafos. Estos tipos de grafos son los grafos de conocimiento (KG), los cuales integran conjuntos de entidades del mundo real conectados por relaciones semánticamente significativas. Por lo general, almacenan conocimiento fáctico estructurado que permite un fácil acceso y recuperación de la información (^{Ding et al., 2024: 1}).

Un KG se define como KG = (E, R, S), donde E representa un conjunto de nodos (entidades), R es un conjunto de relaciones (tipos de aristas) y S ⊆ E х R х E es un conjunto de aristas (tripletas). Cada arista s ∈ S en un KG denota una declaración o hecho (e_s , r, e_o) en formato de tripleta o puede escribirse como r (e_s , e_o) en forma de lógica de primer orden, donde e_s , e_o ?#8712; E denotan las entidades sujeto y objeto, y r ?#8712; R denota la relación entre ambas (^{Ren et al., 2023: 5}).

Al transformar los documentos de un área de conocimiento específica mediante la extracción de entidades y relaciones para construir un grafo de conocimiento, es posible mapear la estructura de todo el conocimiento de esa área en particular, lo cual permite identificar patrones y modelar estructuras que favorecen una mejor caracterización de la información. La representación de los nodos y las aristas en forma vectorial o usando incrustaciones a través de una GNN extiende la posibilidad de aplicar soluciones a diversos problemas que requieren de un análisis crítico y semántico de este tipo de datos, como en el caso de la recuperación de la información documental.

Metodología propuesta

La propuesta metodológica parte de la necesidad de comparar enfoques simbólicos y conexionistas en tareas de recuperación de información. A partir de una revisión de la literatura reciente sobre los KG y las GNN, se identificó que los KG permiten representar explícitamente las relaciones léxicas y sintácticas entre entidades. Por su parte, las GNN y, en particular, modelos como las GAT (^{Veličković et al., 2018}) y CompGCN (^{Vashishth et al., 2020}) ofrecen la capacidad de aprender representaciones distribuidas que combinan información semántica y estructural. En el caso de los LLM como Llama 3.1, estos han demostrado un gran desempeño en la comprensión del lenguaje natural, pero funcionan como cajas negras, es decir, sin un razonamiento explícito.

Con base en estos antecedentes, se diseñó un pipeline que integró las siguientes fases: 1. Preprocesamiento lingüístico para la extracción de entidades y relaciones; 2. Construcción de un KG a partir de coocurrencias y dependencias sintácticas; 3. Generación de tripletas y entrenamiento de incrustaciones con CompGCN; 4. Construcción de características y entrenamiento de una GNN (GAT); y 5. Mecanismos de consulta basados en subgrafos locales, rutas explicables (paths) y heurísticas lingüísticas. En la Figura 2 puede observarse el procedimiento. Esta propuesta busca evaluar si un sistema simbólico-conexionista puede ofrecer ventajas frente a un LLM en escenarios controlados de respuesta de preguntas (QA [question answering]).

Fuente: elaboración de los autores (2025)

Figura 2 Arquitectura general de la propuesta

Preprocesamiento

En la fase de preprocesamiento se utilizó el modelo en español de Spacy (^{Montani et al., 2020}) para normalizar el texto y extraer las unidades léxicas relevantes que representarán los nodos del grafo. Por cada documento, se extrajeron lemas alfabéticos y frases nominales de más de una palabra. Estos elementos se normalizaron para reducir la variabilidad morfológica y se almacenaron junto con la representación Spacy del documento. El preprocesamiento también preservó el texto original y generó listas de nodos candidato por documento que se usaron como la base para la construcción del grafo de conocimiento.

Construcción del grafo de conocimiento (KG)

La construcción del grafo conectó nodos usando dos mecanismos complementarios. Primero, se aplicó una ventana (por defecto de tamaño 5) sobre las secuencias de tókenes para crear aristas de coocurrencia entre los nodos que aparecieran en la misma ventana; cada arista acumuló conteos y posibles etiquetas de relación. Segundo, cuando Spacy identificó relaciones sintácticas, por ejemplo, dependencias sujeto-verbo-objeto, estas se añadieron como relaciones adicionales en las aristas para mejorar la semántica. Tras agregar frecuencias de nodo y de coocurrencia, se calculó la información mutua puntual por arista y se le adjuntó como peso, de modo que las conexiones informativas recibieron mayor prioridad que las coocurrencias aleatorias.

Generación de tripletas y entrenamiento del KG

A partir del KG se generaron tripletas etiquetadas como <s, relación, o> o <sujeto, predicado, objeto> similares a tripletas RDF (resource description framework), estas representaron coocurrencias y relaciones sintácticas. Con este conjunto de tripletas se entrenó un modelo de incrustaciones para grafos usando CompGCN, el cual utilizó convoluciones gráficas y funciones de composición para aprender incrustaciones del KG (^{Vashishth et al., 2020}). El entrenamiento produjo incrustaciones por entidad y de relación que ofrecieron una representación continua del espacio de entidades del corpus y que constituyeron la base para la inicialización de características en la GNN.

Construcción de características y entrenamiento del GNN

Para aprovechar tanto la semántica capturada por el KG como la estructura topológica del grafo, este pipeline construyó vectores de características por nodo concatenando la incrustación de entidad con un vector promedio de las incrustaciones de las relaciones incidentes cuando existieran. Estas características se mapearon al orden de nodos del KG y sirvieron como entrada para una red neuronal de grafos basada en atención (^{Veličković et al., 2018}). El modelo GAT de dos capas fue entrenado en una tarea de predicción de enlaces (link-prediction), el cual usa aristas reales como positivas y muestrea aristas negativas aleatorias. Tras el entrenamiento, la GNN produjo incrustaciones finales por nodo que integraron patrones estructurales y relacionales.

Construcción del grafo de consulta y mapeo al KG global

Al recibir una consulta en lenguaje natural por parte de un usuario, el sistema la transformó en un pequeño grafo de consulta siguiendo el mismo enfoque de lemas y frases nominales, así como aristas por ventana y dependencias. Para enlazar la consulta al KG global, el código empleó el solapamiento de tókenes como primera heurística y, si fuese necesario, una búsqueda difusa (rapidfuzz o difflib) como una solución alternativa (fallback). Las coincidencias exactas o de alta similitud se consideraron como base para extraer el subgrafo local de interés.

Extracción del subgrafo y entrenamiento del GNN por consulta

Partiendo de las semillas mapeadas desde la consulta, se extrajo un subgrafo k-hop (por defecto k=2) que concentró la vecindad semántica relevante. Para adaptar las representaciones al contexto particular de la consulta, el pipeline reentrenó el modelo CompGCN (^{Vashishth et al., 2020}) sobre la unión de tripletas globales y tripletas del grafo de consulta. Estas incrustaciones más centradas en la consulta (per-query) se usaron para reconstruir las características por nodo y reentrenar a la GAT sobre el grafo global, lo que produjo incrustaciones GNN focalizadas que enfatizaron la relevancia local.

Razonamiento por rutas (paths)

La selección de nodos candidato combinó múltiples señales normalizadas, como similitud en el espacio KG (coseno entre un vector de consulta y cada entidad), similitud en el espacio GNN (coseno entre agregados GNN), y una puntuación basada en rutas (número de rutas simples entre los nodos base y cada candidato ponderadas por la inversa de su longitud). De igual forma, el sistema aplicó heurísticas lingüísticas (bonificaciones para tókenes que aparecían como trozos de sustantivos, penalizaciones por eco exacto de tókenes de la consulta), y un impulso determinista para vecinos sustantivos de los nodos base, lo que ayudó a preferir respuestas nominales y conectadas. Las rutas encontradas también sirvieron como evidencia explicable.

Refinamiento de la respuesta

El módulo de refinamiento buscó frases multipalabra en las rutas reproducidas textualmente en los documentos, priorizó los nodos etiquetados como “noun/propn” y, cuando la candidata fue un adjetivo o verbo, intentó expandirla a una frase nominal existente en los documentos (búsqueda de trozos de sustantivos que contenían el token). El resultado fue una respuesta breve y legible; usualmente el nodo seleccionado estuvo acompañado de hasta dos sugerencias de vecinos relevantes.

Diseño experimental

Este experimento no almacenó el KG ni las incrustaciones en una base de datos tradicional ni NoSQL; en su lugar operó directamente sobre estructuras en memoria y espacios vectoriales o matrices de incrustaciones generadas durante la ejecución. Las incrustaciones de entidades y relaciones se mantuvieron como arreglos Numpy (arrays) en memoria y se pasaron a los componentes subsecuentes: GNN, visualizaciones y scoring. Esta decisión facilitó iteraciones rápidas y evitó la complejidad de manejar versiones de esquema durante el desarrollo exploratorio. No obstante, el diseño admitió integraciones con sistemas de almacenamiento más robustas.

Para la reproducibilidad del experimento, cabe mencionar que se usó Python 3.13 en un sistema operativo Windows 11 Pro de 64 bits, un procesador Intel Core i7-12700 a 2.10 GHz, 32 GB de memoria RAM y una unidad de procesamiento gráfico Nvidia GeForce RTX 4060Ti. El código está disponible en el enlace <https://github.com/LuisPoloBautista/knowledgegraph-gnn-qa>.

Casos de prueba

Para validar la propuesta se definió un corpus de documentos con textos cortos en español sobre temas de conocimiento general de economía, cambio climático, educación en línea y deporte (Tabla 1). Cada documento fue considerado como una unidad de información lingüística que alimentó las etapas de construcción del grafo, de entrenamiento de los modelos y de generación de respuestas. En promedio, estos textos tienen una extensión aproximadamente igual a 16 palabras, lo cual permitió un control experimental reproducible. Para las etapas de producción, el mismo pipeline puede adaptarse a corpus más extensos que contemplen artículos, monografías u otros documentos.

Tabla 1 Textos de los documentos usados como casos de pruebas Fuente: elaboración de los autores (2025)

Identificador	Documentos
1	La economía global está experimentando cambios significativos debido a la inteligencia artificial.
2	El cambio climático afecta la biodiversidad y la vida de millones de especies en el planeta.
3	La educación en línea ha transformado la manera en que los estudiantes acceden al conocimiento.
4	El fútbol es el deporte más popular en muchos países y une a las personas a través de la pasión.

LLM de referencia

Como modelo de referencia se utilizó Llama 3.1 versión 8B, de Meta AI. Este modelo autorregresivo de transformadores fue puesto en marcha localmente mediante Ollama. El LLM procesó el texto completo del documento junto con la consulta en un prompt estructurado que solicitó respuestas basadas únicamente en la información proporcionada. Esta configuración permitió una comparación directa de la capacidad de comprensión y de síntesis de información entre ambos enfoques.

Métricas

La evaluación se fundamentó en múltiples métricas cuantitativas: similitud semántica entre las respuestas generadas y el texto original, tiempo de procesamiento computacional y longitud de las respuestas generadas.

Presentación y análisis de los resultados

Con la metodología descrita anteriormente se obtuvieron los siguientes resultados. En la parte superior de la Figura 3 puede apreciarse la estructura global del conocimiento extraído de los documentos. Se trata de un grafo no dirigido donde los nodos representan lemas y frases nominales, y las aristas indican relaciones de coocurrencia.

Fuente: elaboración de los autores (2025)

Figura 3 Resultados del pipeline metodológico visualizados en Pandas

Los gráficos muestran la proyección de los nodos del KG en un espacio vectorial bidimensional. Esta visualización de incrustaciones da cuenta de cómo el modelo CompGCN y la GNN organizan los conceptos de acuerdo con su similitud semántica y contextual. Términos como “cambio climático”, “biodiversidad” y “especie” se agrupan en regiones cercanas, mientras que conceptos distintos como “educación” y “deporte” ocupan áreas separadas. La actualización con la GNN refina estas agrupaciones e integra la estructura topológica y su contexto relacional.

Por otro lado, la parte inferior de la Figura 3 se enfoca en el procesamiento de una consulta específica. Para este ejemplo, lo consultado fue “es el deporte más popular en muchos países”. Se generó un grafo de consulta reducido que incluyó los términos clave. La siguiente visualización de la consulta, usando CompGCN y la GNN, presenta cómo los modelos reajustan las representaciones vectoriales para enfatizar la relevancia local.

El nodo relativo a “el deporte más popular en muchos países”, que representa la consulta del usuario de forma vectorial, está destacado en rojo y en el centro del clúster de entidades relevantes como “fútbol”, “países” y “pasión”. Esto demuestra la capacidad del pipeline para focalizar el razonamiento en el contexto de la consulta, lo cual facilita una extracción de respuestas precisa y contextualmente pertinente.

La Figura 4 expone la similitud semántica entre las respuestas generadas y los documentos originales. Puede observarse que el LLM presenta valores de similitud mayores que la GNN en todas las consultas; sin embargo, esta aparente ventaja tiene costos significativos. Algunos de estos son que el LLM necesita procesar grandes cantidades de tókenes para alcanzar esos niveles de similitud. Esto incrementa el riesgo de alucinaciones y de introducir contenido irrelevante, cuestión que otros trabajos de investigación ya han demostrado, como en ^{Polo-Bautista et al. (2025)}.

Fuente: elaboración de los autores (2025)

Figura 4 Similitud entre las respuestas y el texto original

De igual forma, las GNN, aunque reportan valores más bajos de similitud en este trabajo de investigación (0 - 0.17 frente a 0.17 - 0.43 del LLM), generan respuestas más acotadas y controladas; tal reduce la probabilidad de introducir información no contenida en el documento original. En este sentido, este enfoque controlado es más funcional en dominios críticos o especializados donde la precisión y la ausencia de alucinaciones son aspectos más importantes que la verbosidad.

La Figura 5 muestra el análisis del tiempo de procesamiento. En este caso, las GNN requieren entre 18 y 36 segundos en comparación con el LLM, que necesita entre 1 y 14 segundos. Esta aparente desventaja temporal debe evaluarse considerando factores operacionales más amplios. Los LLM operan en centros de datos con grandes infraestructuras habilitadas para el procesamiento gráfico y tensorial, pero su entrenamiento y despliegue en dominios específicos implica costos computacionales y energéticos prohibitivos por el ajuste fino necesario para su reentrenamiento. Las GNN, por el contrario, precisan de recursos significativamente menores para su entrenamiento y adaptación en áreas específicas, con lo cual se aprovechan relaciones estructurales explícitas en lugar de ‘memorizar’ patrones lingüísticos a gran escala.

Fuente: elaboración de los autores (2025)

Figura 5 Tiempo de procesamiento

En contextos donde prevalecen restricciones de coste, sostenibilidad y escalabilidad, las GNN constituyen una alternativa más viable a largo plazo en el contexto de la recuperación de la información, especialmente para organizaciones sin acceso a altos recursos computacionales, ya que ofrecen una solución técnicamente robusta y económicamente sostenible.

El análisis de la longitud de respuesta en la Figura 6 muestra que el LLM generó salidas extensas que superan los 600 tókenes en determinadas consultas, mientras que las GNN mantienen consistentemente respuestas de longitud mínima. Esta característica conlleva múltiples ventajas: producen respuestas más concisas y fácticas, optimizadas para sistemas que priorizan precisión informativa sobre narrativas extensas; tienen menor consumo de ancho de banda y recursos de almacenamiento, con lo que se reducen significativamente los costos asociados al procesamiento de grandes volúmenes textuales; y minimizan el riesgo de alucinación característico de los LLM, donde producen explicaciones extensas que incluyen información sin respaldo del documento fuente. La limitación inherente de longitud en las GNN actúa como un mecanismo de control de calidad que restringe la generación de contenido especulativo y mantiene la fidelidad a la información disponible en el corpus de referencia.

Fuente: elaboración de los autores (2025)

Figura 6 Longitud de respuestas

Discusión

Los resultados evidencian que, si bien los LLM generan respuestas más extensas con aparente mayor similitud semántica, esto se logra con altos costos computacionales, mayor complejidad de entrenamiento y una gran probabilidad de generar alucinaciones o información no verificable. En contraste, las GNN presentan ventajas complementarias importantes. Proporcionan un paradigma más eficiente para entrenamientos específicos que eliminan la necesidad de grandes conjuntos de datos e infraestructuras computacionales complejas. Su arquitectura reduce la alucinación de forma inherente al fundamentarse en relaciones explícitas y datos estructurados con los que genera salidas controladas, concisas y fácticas que se alinean con los requerimientos de sistemas críticos donde el exceso de tókenes carece de un valor añadido. Adicionalmente, facilitan ajustes rápidos en nuevas áreas del conocimiento sin los costos asociados al reentrenamiento completo de los LLM.

En consecuencia, aunque las GNN tengan tiempos de procesamiento superiores y menor similitud, su menor costo computacional, reducida tendencia a la alucinación y mayor control sobre la generación de respuestas, las posicionan como la opción óptima para aplicaciones especializadas donde la precisión y eficiencia sean criterios prioritarios.

Por otro lado, la adopción de este enfoque también conlleva ciertas limitaciones técnicas y operativas que deben tomarse en cuenta. Un ejemplo es que la eficiencia de este método depende de la calidad de las entidades y relaciones extraídas. Las técnicas actuales de adquisición automática de conocimiento, como el etiquetado de entidades y la extracción de relaciones, suelen ser imprecisas. Esto produce grafos incompletos o ruidosos que pueden degradar el rendimiento del sistema (^{Peng et al., 2023}). De igual forma, convertir documentos a una representación de grafo es un proceso complejo y muy específico del dominio. No existe un único esquema de grafo genérico; construir un grafo orientado al conocimiento de cada dominio puede resultar ineficiente con las técnicas de extracción actuales (^{Peng et al., 2023}).

También es importante mencionar que las GNN tienen desafíos específicos. Al usar múltiples capas de entrenamiento, estas pueden sufrir el fenómeno de suavizado excesivo (over-smoothing), en el cual las representaciones de nodos se vuelven indistinguibles entre sí y pierden su capacidad discriminativa (^{Chen et al., 2019}). Por lo tanto, ajustar la arquitectura de la red es delicado, ya que pocas capas limitan la captura de relaciones lejanas y muchas otras suavizan demasiado la información, lo que restringe la profundidad útil y exige de estrategias para compensarlo.

En general, aunque el enfoque propuesto tiene el potencial de mejorar la recuperación semántica y la precisión de los resultados, su aplicación práctica requiere un especial cuidado en la construcción y actualización del grafo de conocimiento, así como en la selección de la arquitectura de la GNN. Las limitaciones antes descritas integran posibles complicaciones que deben considerarse para llevar a cabo implementaciones en entornos de producción reales.

Conclusiones

El análisis presentado en este trabajo demuestra que los algoritmos de aprendizaje automático para grafos, específicamente las redes neuronales de grafos (GNN), representan una buena alternativa a los enfoques tradicionales actuales en recuperación de información documental.

La evolución de los sistemas de recuperación de información, desde los métodos basados en la concordancia de palabras hasta los grandes modelos de lenguaje (LLM), ha evidenciado ciertas limitaciones que afectan la precisión, la eficiencia y la confiabilidad de estos modelos. Los LLM de última generación, aunque han mostrado grandes capacidades en la comprensión del lenguaje natural, presentan deficiencias como alucinaciones, un alto costo computacional, una limitada interpretabilidad, sesgos culturales y fragilidad ante variaciones menores en los prompts. Estas limitaciones son desventajas importantes en contextos donde se requiere precisión factual y transparencia en los procesos de recuperación documental.

La propuesta metodológica previamente expuesta, al integrar técnicas de procesamiento del lenguaje natural para la identificación de entidades y la extracción de relaciones en combinación con GNN para representación vectorial, expone un marco teórico sólido para la creación de sistemas de recuperación de la información alternativos a las propuestas clásicas. Esta aproximación permite capturar las interrelaciones semánticas y contextuales de los documentos de manera estructurada y supera las limitaciones de los enfoques basados únicamente en la similitud textual o los dependientes de la semántica latente de los LLM.

El análisis mostró características diferenciadas de cada paradigma. Las GNN ofrecen complejidad computacional lineal O(|V|+|E|), interpretabilidad mediante rutas definidas en el grafo, ausencia de alucinaciones al basarse en entidades extraídas y capacidad de actualización incremental del conocimiento. Por el contrario, los LLM proporcionan mayor fluencia en la generación de lenguaje natural y capacidad de síntesis contextual, aunque con un mayor costo computacional y menor interpretabilidad.

Los resultados de este análisis, combinados con la metodología propuesta, sugieren que el uso de algoritmos de aprendizaje automático para grafos en la recuperación de la información documental no solo es técnicamente viable, sino que representa un cambio de paradigma hacia sistemas más confiables, interpretables y eficientes. La capacidad de transformar documentos en grafos de conocimiento y, posteriormente, en representaciones vectoriales de baja dimensión permite una comparación de respuestas precisa y contextualmente pertinente, donde los documentos de temática similar se agrupan próximos en el espacio euclidiano. Esta transición es particularmente relevante en dominios especializados donde la precisión factual es un requisito fundamental.

Futuras investigaciones deberían enfocarse en la implementación práctica de estos marcos teóricos, la evaluación empírica comparativa en diferentes dominios documentales y en el desarrollo de metodologías híbridas que combinen las fortalezas de las GNN con técnicas complementarias de procesamiento de lenguaje natural para maximizar la efectividad en la recuperación de información documental.

Referencias

Ávila-Barrientos, Eder. 2022. “Recuperación de información con linked open data”. Investigación Bibliotecológica: archivonomía, bibliotecología e información 36 (91): 125-46. https://doi.org/10.22201/iibi.24488321xe.2022.91.58567

Chen, Deli, Yankai Lin, Wei Li, Peng Li, Jie Zhou y Xu Sun. 2019. “Measuring and Relieving the Over-smoothing Problem for Graph Neural Networks from the Topological View”. Arxiv. https://arxiv.org/abs/1909.03211

Croft, W. Bruce, Donald Metzler y Trevor Strohman. 2010. Search Engines / Information Retrieval in Practice. Addison-Wesley.

Devlin, Jacob, Ming-Wei Chang, Kenton Lee y Kristina Toutanova. 2019. “BERT: Pre-training of Deep Bidirectional Transformers for Language Understanding”. En Proceedings of the 2019 Conference of the North American Chapter of the Association for Computational Linguistics / Human Language Technologies Volume 1 (Long and Short Papers), editado por Jill Burstein, Christy Doran y Thamar Solorio, 4171-86. Association for Computational Linguistics. https://doi.org/10.18653/v1/N19-1423

Ding, Linyi, Sizhe Zhou, Jinfeng Xiao y Jiawei Han. 2024. “Automated Construction of Theme-Specific Knowledge Graphs”. Arxiv. https://arxiv.org/abs/2404.19146

Gelbukh, Alexander, y Grigori Sidorov. 2006. Procesamiento automático del español con enfoque en recursos léxicos grandes. Centro de Investigación en Computación, Instituto Politécnico Nacional.

Goldberg, Yoav, y Omer Levy. 2014. “Word2vec Explained: Deriving Mikolov et al.’s Negative-Sampling Word-Embedding Method”. Arxiv. https://arxiv.org/abs/1402.3722

Grover, Aditya, y Jure Leskovec. 2016. “Node2vec: Scalable Feature Learning for Networks”. En Proceedings of the 22nd ACM SIGKDD International Conference on Knowledge Discovery and Data Mining, 855-64. Association for Computing Machinery. https://doi.org/10.1145/2939672.2939754

Hambarde, Kailash A., y Hugo Proença. 2023. “Information Retrieval: Recent Advances and Beyond”. IEEE Access 11: 76581-604. https://doi.org/10.1109/ACCESS.2023.3295776

Hamilton, William L. 2020. Graph Representation Learning. Springer.

Heptalytics. 2025. “Graph Neural Networks: An Efficient Energy Solution for Structured Data Analysis”. Heptalytics. https://www.heptalytics.ai/graph-neural-networks-an-efficient-energy-solution-for-structured-data-analysis

Huang, Xiao, Qingquan Song, Yuening Li y Xia Hu. 2019. “Graph Recurrent Networks with Attributed Random Walks”. En Proceedings of the 25th ACM SIGKDD International Conference on Knowledge Discovery and Data Mining, 732-40. Association for Computing Machinery. https://doi.org/10.1145/3292500.3330941

Hwang, Sukjun, Brandon Wang y Albert Gu. 2025. “Dynamic Chunking for End-to-End Hierarchical Sequence Modeling”. Arxiv. https://arxiv.org/abs/2507.07955

Kamphuis, Chris. 2020. “Graph Databases for Information Retrieval”. En Advances in Information Retrieval / 42nd European Conference on IR Research, ECIR 2020, editado por Joemon, M. Jose, Emine Yilmaz, João Magalhães, Pablo Castells, Nicola Ferro, Mário J. Silva y Flávio Martins, 608-12. Springer. https://doi.org/10.1007/978-3-030-45442-5_79

Keramatfar, Abdalsamad, Mohadeseh Rafiee y Hossein Amirkhani. 2022. “Graph Neural Networks: A Bibliometrics Overview”. Machine Learning with Applications 10, e100401. https://doi.org/10.1016/j.mlwa.2022.100401

Kipf, Thomas N., y Max Welling. 2017. “Semi-supervised Classification with Graph Convolutional Networks”. Arxiv. https://arxiv.org/abs/1609.02907

Kostikova, Aida, Zhipin Wang, Deidamea Bajri, Ole Pütz, Benjamin Paaßen y Steffen Eger. 2025. “LLLMs: A Data-Driven Survey of Evolving Research on Limitations of Large Language Models”. Arxiv. https://arxiv.org/abs/2505.19240

Lai, Siwei, Liheng Xu, Kang Liu y Jun Zhao. 2015. “Recurrent Convolutional Neural Networks for Text Classification. Proceedings of the AAAI Conference on Artificial Intelligence 29 (1): 2267-73. https://doi.org/10.1609/aaai.v29i1.9513

Leskovec, Jure. 2023. “Databases as Graphs: Predictive Queries for Declarative Machine Learning”. En Proceedings of the 42nd ACM SIGMOD-SIGACT-SIGAI Symposium on Principles of Database Systems, 1. Association for Computing Machinery. https://doi.org/10.1145/3584372.3589939

Mavromatis, Costas, y George Karypis. 2024. “GNN-RAG: Graph Neural Retrieval for Large Language Model Reasoning”. Arxiv. https://arxiv.org/abs/2405.20139

Metzler, Donald, Yi Tay, Dara Bahri y Marc Najork. 2021. “Rethinking Search: Making Domain Experts out of Dilettantes”. ACM SIGIR Forum 55 (1): 1-27. https://doi.org/10.1145/3476415.3476428

Montani, Ines, Matthew Honnibal, Adriane Boyd, Sofie Van Landeghem y Henning Peters. 2020. Spacy: Industrial-Strength Natural Language Processing in Python [software]. Zenodo. https://doi.org/10.5281/zenodo.1212303

Peng, Ciyuan, Feng Xia, Mehdi Naseriparsa y Francesco Osborne. 2023. “Knowledge Graphs: Opportunities and Challenges”. Artificial Intelligence Review 56 (11): 13071-102. https://doi.org/10.1007/s10462-023-10465-9

Perozzi, Bryan, Rami Al-Rfou y Steven Skiena. 2014. “DeepWalk: Online Learning of Social Representations”. En Proceedings of the 20th ACM SIGKDD International Conference on Knowledge Discovery and Data Mining, 701-10. Association for Computing Machinery. https://doi.org/10.1145/2623330.2623732

Polo-Bautista, Luis Roberto, Sandra Dinora Orantes-Jiménez, Francisco Carrillo-Brenes y Luis M. Vilches-Blázquez. 2025. “Semi-automatic Construction of Knowledge Graphs on Natural Disasters in Mexico Using Large Language Models”. En Geographical Information Systems / 5th Latin American Conference, GIS-LATAM 2024, editado por Miguel Félix Mata-Rivera, Roberto Zagal-Flores, Daniela Elisabeth Ballari y José Antonio León-Borges, 148-67. Springer. https://doi.org/10.1007/978-3-031-80017-7_10

Qiang, Yao, Subhrangshu Nandi, Ninareh Mehrabi, Greg Ver Steeg, Anoop Kumar, Anna Rumshisky y Aram Galstyan. 2024. “Prompt Perturbation Consistency Learning for Robust Language Models”. En Findings of the Association for Computational Linguistic: EACL 2024, editado por Yvette Graham y Matthew Purver, 1357-70. Association for Computational Linguistics. https://aclanthology.org/2024.findings-eacl.91

Ren, Hongyu, Mikhail Galkin, Michael Cochez, Zhaocheng Zhu y Jure Leskovec. 2023. “Neural Graph Reasoning: Complex Logical Query Answering Meets Graph Databases”. Arxiv. https://arxiv.org/abs/2303.14617

Tang, Jian, Meng Qu, Mingzhe Wang, Ming Zhang, Jun Yan y Qiaozhu Mei. 2015. “LINE: Large-Scale Information Network Embedding”. En Proceedings of the 24th International Conference on World Wide Web, 1067-77. International World Wide Web Conferences Steering Committee. https://doi.org/10.1145/2736277.2741093

Tao, Yan, Olga Viberg, Ryan S. Baker y René F. Kizilcec. 2024. “Cultural Bias and Cultural Alignment of Large Language Models”. PNAS Nexus 3 (9), pgae346.https://doi.org/10.1093/pnasnexus/pgae346

Vashishth, Shikhar, Soumya Sanyal, Vikram Nitin y Partha Talukdar. 2020. “Composition-Based Multi-relational Graph Convolutional Networks”. Arxiv. https://arxiv.org/abs/1911.03082

Vaswani, Ashish, Noam Shazeer, Niki Parmar, Jakob Uszkoreit, Llion Jones, Aidan N. Gomez, Lukasz Kaiser e Illia Polosukhin. 2023. “Attention Is All You Need”. Arxiv. https://arxiv.org/abs/1706.03762

Veličković, Petar, Guillem Cucurull, Arantxa Casanova, Adriana Romero, Pietro Liò y Yoshua Bengio. 2018. “Graph Attention Networks”. Arxiv. https://arxiv.org/abs/1710.10903

Wang, Guan, Jin Li, Yuhao Sun, Xing Chen, Changling Liu, Yue Wu, Meng Lu, Sen Song y Yasin Abbasi Yadkori. 2025. “Hierarchical Reasoning Model”. Arxiv. https://arxiv.org/abs/2506.21734

Yaxue, Qin. 2020. “Convolutional Neural Networks for Literature Retrieval”. En Proceedings of the 2020 International Conference on Computer Vision, Image and Deep Learning (CVIDL), 393-97. Institute of Electrical and Electronics Engineers. https://doi.org/10.1109/CVIDL51233.2020.00-64

Zhou, Jie, Ganqu Cui, Shengding Hu, Zhengyan Zhang, Cheng Yang, Zhiyuan Liu, Lifeng Wang, Changcheng Li y Maosong Sun. 2020. “Graph Neural Networks: A Review of Methods and Applications”. AI Open 1: 57-81. https://doi.org/10.1016/j.aiopen.2021.01.001

Zhu, Yutao, Huaying Yuan, Shuting Wang, Jiongnan Liu, Wenhan Liu, Chenlong Deng, Haonan Chen, Zheng Liu, Zhicheng Dou y Ji-Rong Wen. 2024. “Large Language Models for Information Retrieval: A Survey”. Arxiv. https://arxiv.org/abs/2308.07107

¹Para citar este texto: Polo-Bautista, Luis Roberto, y Raquel Casique Vasquez. 2025. “Propuesta metodológica para la recuperación de información documental: integración de grafos de conocimiento y redes neuronales”. Investigación Bibliotecológica: archivonomía, bibliotecología e información 39 (105): 141-163. https://dx.doi.org/10.22201/iibi.24488321xe.2025.105.59051