Las bases de datos relacionales constituyen una de las fuentes de datos más utilizadas. Sin embargo, como fuente de almacenamiento presenta un grupo de limitaciones. En las bases de datos relacionales se dificulta almacenar conocimiento semántico. Para solventar las carencias en la representación de conocimiento de las bases de datos relacionales, una tendencia ha sido el uso de las ontologías. Las ontologías poseen una mayor riqueza semántica y son más cercanas al vocabulario del usuario final que los esquemas de las bases de datos relacionales. El objetivo de la presente investigación consiste en realizar un mapeo sistemático acerca de los escenarios en que se vinculan las bases de datos relacionales y las ontologías para brindar una mejor integración, consulta y visualización de los datos almacenados. El mapeo se llevó a cabo aplicando una propuesta metodológica establecida en la literatura. Como resultado de la investigación, se detectó que el mapeo de bases de datos relacionales a ontologías y la utilización de las ontologías para la integración de fuentes de datos heterogéneas fueron los escenarios de mayor presencia. Igualmente, se identificaron tendencias y desafíos en cada uno de los escenarios que pueden merecer mayores esfuerzos de investigación en el futuro.
Relational databases are one of the most used data sources. However, as a storage source, they present a group of shortcomings. It is complex to store semantic knowledge in relational databases. To solve the deficiencies in knowledge representation of relational databases, one trend has been to use ontologies. Ontologies possess a richer semantic and are closer to the end user vocabulary than relational database schemas. The objective of the present research was to carry out a systematic mapping about the scenarios where relational databases and ontologies are linked to provide a better integration, query, and visualization of stored data. The mapping was carried out by applying a methodological proposal established in the literature. As outcomes of the research, it was detected that the mapping of relational databases to ontologies and the ontologies usage for the integration of heterogeneous data sources were the most common scenarios. Likewise, trends and challenges were identified in each scenario, which might deserve further research efforts in the future.
Las bases de datos relacionales son una de las fuentes de datos más utilizadas. Su gran aceptación se debe entre, otras razones, a la robustez, flexibilidad, alto rendimiento, escalabilidad, seguridad y protección con que almacenan los datos (
Para solventar las carencias semánticas de las bases de datos relacionales, una tendencia ha sido el uso de las ontologías. Múltiples trabajos publicados destacan la complementariedad entre las bases de datos relacionales y las ontologías para resolver problemas de integración, consulta y visualización de datos (
Las ontologías ofrecen una conceptualización explícita y comprensible para los elementos del dominio (
Las ontologías son más ricas y cercanas al vocabulario del usuario final que los esquemas de las bases de datos relacionales. Una ontología conecta conceptos del dominio, mientras que un esquema de base de datos relacional utiliza un método de aplanamiento y dispersión no natural basado en la unión entre las tablas que la componen (
Por todo lo anterior, y considerando que la mayoría de los trabajos sobre este campo que se presentan en la literatura se enfocan en un escenario concreto del uso de las ontologías como complemento de las bases de datos relacionales, un estudio con enfoque holístico sobre esta área del conocimiento pudiera considerarse de gran utilidad para el uso de las lecciones aprendidas por la comunidad científica. Por tanto, como objetivo de la presente investigación se plantea realizar un mapeo sistemático sobre los escenarios en que se vinculan las bases de datos relacionales y las ontologías para brindar una mejor integración, consulta y visualización de los datos almacenados. Un mapeo sistemático ofrece una visión general del tema estudiado, así como la identificación de tendencias y brechas que son aprovechadas por los investigadores para orientar sus estudios (
El resto del trabajo se ha organizado de la siguiente forma: seguidamente, se explica la metodología utilizada para la realización del mapeo. Luego, se hace un análisis de los resultados de la clasificación obtenida en cuanto a: 1) los escenarios de vinculación, 2) las fuentes en que fueron publicados los trabajos y 3) el propósito de cada uno de los escenarios. Por último, se ofrecen las conclusiones del trabajo.
Para cumplir con el objetivo del presente trabajo se realizó un mapeo sistemático aplicando la propuesta metodológica establecida por Petersen (
El propósito del estudio consistió en identificar los escenarios de la vinculación entre las bases de datos relacionales y las ontologías para la integración, consulta y visualización de los datos almacenados. Para orientar el mapeo sistemático se definieron las siguientes preguntas de investigación:
PI 1 ¿Cuáles son los estudios que se han realizado en que se vinculan las bases de datos relacionales y las ontologías? Esta pregunta permite establecer un inventario sobre los trabajos realizados en que se utiliza un enfoque que complementa los modelos relacionales con las ontologías.
PI 2 ¿Cuáles son los escenarios abordados sobre la vinculación de las bases de datos relacionales y las ontologías en cada uno de los trabajos? Esta pregunta permite identificar los escenarios que se presentan en cada uno de los trabajos, así como las tendencias y desafíos que presentan cada uno de esos escenarios.
PI 3 ¿Dónde fue publicado cada uno de los trabajos?
PI 4 ¿Cuál es el propósito de cada uno de los trabajos?
Al responder las preguntas PI 2, PI 3 y PI 4 se pueden clasificar los trabajos según el escenario que abordan, la fuente de publicación y el propósito.
La búsqueda de los estudios primarios se realizó en las siguientes bases de datos bibliográficas: IEEExplore, ACM Digital Library, SpringerLink y ScienceDirect. En cada una de ellas se aplicó la cadena de búsqueda: (
Del total de documentos se seleccionaron aquellos que cumplieron con los criterios de inclusión: artículos de revistas científicas en que se vinculan las bases de datos relacionales con las ontologías. Para depurar el listado de documentos se aplicaron los criterios de exclusión que se listan a continuación:
· Duplicados
· Publicados en revistas no arbitradas.
· Enfocados en el almacenamiento de ontologías difusas.
· Basados únicamente en la construcción de ontologías.
· Enfocados en la vinculación de ontologías con bases de datos no relacionales.
· Enfocados en la creación automática de ontologías a partir de textos u otras fuentes de datos no relacionales.
Luego de aplicados los criterios de inclusión y exclusión, de los 40 artículos, fueron seleccionados 16. En la
La clasificación de los artículos se realizó tomando como referente las preguntas de investigación establecidas que permitieron llegar a las siguientes categorías: 1) escenarios en que se vinculan las bases de datos relacionales y las ontologías, 2) fuentes donde fueron publicados los artículos y 3) propósitos de las investigaciones.
Los resultados de las preguntas de la investigación se encuentran detallados en la
A continuación, en correspondencia con las preguntas de la investigación se realiza el análisis y visualización de los resultados. Petersen et al. (
En el gráfico circular de la
Aprovechando las clasificaciones realizadas en el mapeo sistemático y con el propósito de encontrar tendencias y desafíos, seguidamente se realiza un análisis en cada uno de los escenarios, fundamentado en los resultados estadísticos obtenidos.
Los seis escenarios presentados en este trabajo provienen de la apreciación de los autores. Los escenarios no son disjuntos, pueden estar contenidos unos dentro de otros, como es el caso del escenario E1, imprescindible para la correlación entre los dos modelos de datos que se abordan. A continuación, se analizan las tendencias encontradas en cada uno de los escenarios.
El mapeo surgió por la necesidad de transformar las bases de datos relacionales a ontologías y así proporcionarles semántica formal a los datos explícitamente
Uno de los temas que merece especial atención dentro del mapeo es la estrategia a utilizar para el poblado de los datos de la base de datos relacional en la ontología. Dos enfoques se presentan en la literatura: población impulsada por consultas y exportación masiva o volcado masivo (
El mapeo en el sentido inverso también ha sido trabajado con el propósito, principalmente, de utilizar las bases de datos relacionales como medio de almacenamiento de las ontologías. Una base de datos relacional proporciona capacidades de almacenamiento, consultas eficientes y una buena gestión de transacciones, por lo que ha sido un foco de atención durante años utilizar las bases de datos relacionales como forma de almacenamiento para las instancias de las ontologías. Existen tres tipos de métodos de almacenamiento: horizontal, vertical y de descomposición. Tao et al. (
Entre los lenguajes y herramientas utilizados para establecer la alineación (
En la revisión del presente trabajo se pudo constatar que el 38 % de los artículos analizados abordan el mapeo de bases de datos relacionales a ontologías y viceversa. En ese grupo de artículos clasificados por el tipo de propósito se tienen: tres cuantificaciones (C), dos propuestas conceptuales (PC) y una revisión (R). Clasificados por el tipo de fuente en que fueron publicados se tienen: dos en ACM Digital Library, uno en IEEExplore, dos en ScienceDirect y uno en SpringerLink (ver
Hacia los últimos 10 años una enorme cantidad de información crece y se produce continuamente a un ritmo muy acelerado. La mayoría de esas fuentes de datos son heterogéneas, lo que dificulta la integración y el intercambio de los datos (
La integración de datos consiste en integrar datos que comparten semánticas comunes, pero fueron originados desde fuentes no relacionadas. Para lograr la integración es preciso resolver los problemas de heterogeneidad. La integración de datos implica, principalmente, dos tareas principales. La primera tarea es la integración a nivel de esquema, la cual resuelve las diferencias de homogeneización en los esquemas y la nomenclatura utilizada para representar los datos. La segunda tarea es la integración a nivel de datos, la cual resuelve los diferentes registros a integrar que se refieren a la misma entidad del mundo real. Las ontologías permiten resolver las dos tareas (
Las ontologías se utilizan ampliamente en la integración de datos, ya que permiten representar el conocimiento como una descripción formal de un dominio de interés (
La Web Semántica puede considerarse como un sistema abierto y distribuido. Como tal, el problema de la heterogeneidad ha sido crítico para ser abordado. Se ha tenido en cuenta la interoperabilidad entre las diversas metodologías de mapeos para soportar diferentes fuentes de datos (
En la revisión del presente trabajo se pudo constatar la importancia de las ontologías para lograr la integración entre bases de datos relacionales heterogéneas. El 38 % de los artículos analizados abordan ese tema. En ese grupo de artículos clasificados por el tipo de propósito se tienen: dos cuantificaciones (C), una propuesta conceptual (PC), una revisión (R) y dos pruebas de conceptos (PRC). Clasificados por el tipo de fuente en que fueron publicados se tienen: tres en ACM Digital Library, uno en IEEExplore, uno en ScienceDirect y uno en SpringerLink (ver
Los sistemas OBDA se encuentran en la categoría de sistemas de información impulsados por ontologías (
Los sistemas OBDA tienen dos enfoques para su implementación: materialización y virtualización. La materialización consiste en crear un almacén de tripletas en formato RDF a partir de las bases de datos de origen. Las consultas se realizan con el lenguaje SPARQL sobre el almacén de tripletas RDF (
Los desafíos actuales que presenta OBDA coinciden con dos áreas de investigación abiertas en este ámbito: ingeniería de ontologías e ingeniería de mapeo (
En la revisión del presente trabajo se pudo constatar que este campo es un área de investigación abierta. El 19 % de los artículos analizados abordan explícitamente el paradigma de Acceso a Datos Basado en Ontologías (OBDA). En ese grupo de artículos clasificados por el tipo de propósito se tienen tres propuestas conceptuales (PC). Clasificados por el tipo de fuente en que fueron publicados se tienen: uno en IEEExplore, uno en ScienceDirect y uno en SpringerLink (ver
Las consultas en lenguaje natural constituyen una de las vías más sugerentes para ampliar el acceso a los datos. Google es un ejemplo fehaciente de ello. Sin embargo, para consultar una base de datos relacional es preciso conocer un lenguaje estructurado. Los esfuerzos actuales que se realizan en ese sentido se basan en utilizar las ontologías para permitir la realización de consultas en lenguaje natural y, con ello, ampliar el acceso a los datos.
En la formulación de interfaces en lenguaje natural se utilizan las ontologías como un medio natural de acceso a las fuentes de datos tradicionales (
A su vez las ontologías son responsables de convertir las palabras ingresadas por el usuario en expresiones del lenguaje formal. Normalmente, este tipo de sistemas operan con
La creación de interfaces en lenguaje natural basada en ontologías sobre bases de datos relacionales con altos niveles de recuperación y precisión continúa siendo un problema de investigación. Se necesitan sistemas que puedan abordar la robustez y la escalabilidad de las aplicaciones, así como la internalización en diferentes idiomas (
En la revisión del presente trabajo se pudo constatar que este campo es un área de investigación abierta. El 13 % de los artículos analizados abordan el tema de las consultas en lenguaje natural basado en ontologías. Uno de los motivos por los cuales el porciento no es alto es que este tema, usualmente, se combina en las publicaciones con el paradigma de Acceso a Datos Basado en Ontologías (OBDA) y en esta investigación se ha querido analizar por separado. En ese grupo de artículos clasificados por el tipo de propósito se tienen: una propuesta conceptual (PC) y una cuantificación (C). Clasificados por el tipo de fuente en que fueron publicados se tienen: uno en ScienceDirect y uno en SpringerLink (ver la
El objetivo principal de los métodos de aprendizaje de ontología es derivar automáticamente una ontología de los datos existentes. La creación automática de ontologías putativas a partir de bases de datos relacionales está implícita en los esfuerzos de mapeo (escenario E1) y en la mayoría de los sistemas de acceso a datos basados en ontologías (escenario E3) (
Los estudios más recientes sobre la generación de ontologías a partir de bases de datos relacionales se han orientado a reducir al mínimo posible la intervención del usuario. En uno de los enfoques analizados en la revisión se logró que la transformación pueda ser reversible, manteniendo las relaciones de claves externas y primarias de las tablas. En ese enfoque se usa el vocabulario RDFS en lugar de RDF, lo que le proporciona un mayor nivel de expresividad a la ontología generada. La transformación en el enfoque se logra sin la intervención del usuario (
Cuando se utiliza como entrada del proceso de generación de ontologías únicamente a la base de datos relacional, dos elementos que en ella no estén relacionados nunca podrán relacionarse en la ontología. En ese sentido, un elemento importante ha sido utilizar otras ontologías o tesauros externos que puedan aportarle semántica a la base de datos relacional que se desea transformar. En uno de los artículos analizados se utilizó el tesauro WordNet (
En la revisión del presente trabajo se pudo constatar que, en la mayoría de las investigaciones en que se obtienen ontologías a partir de bases de datos relacionales, están presentes esfuerzos para minimizar al máximo posible la intervención del usuario y, con ello, lograr el aprendizaje ontológico. El 19 % de los artículos analizados abordan ese tema. En ese grupo de artículos clasificados por el tipo de propósito se tienen: una propuesta conceptual (PC) y dos cuantificaciones (C). Clasificados por el tipo de fuente en que fueron publicados se tienen: dos en ACM Digital Library y uno en ScienceDirect (ver la
En este escenario se agrupan los trabajos en los cuales el aporte de las ontologías lo recibe directamente la base de datos relacional. Uno de los escenarios en que se vinculan las ontologías para aportarle semántica a las bases de datos relacionales es en el proceso de enriquecimiento de una base de datos relacional. En una organización, usualmente, se tiene una base de datos por cada uno de los sistemas de información. Por ejemplo, en un hospital donde hay dos sistemas informáticos, uno para la atención a los pacientes y otro para la gestión contable, se tienen dos bases de datos respectivas que a la vez tienen ciertas similitudes. Utilizando el enriquecimiento se pueden integrar ambas en una única base de datos objetivo o se pueden actualizar una a partir de la otra. El proceso de enriquecimiento es guiado por ontologías (
Nakhla y Nouira (
Las ontologías también permiten hacer evaluaciones de calidad de las bases de datos relacionales. La limpieza de datos se define como el proceso de detectar y corregir errores en bases de datos, implementando una ontología para clasificar los tipos de errores sintácticos y semánticos. El proceso de limpieza de los datos tiene gran significación en entornos de integración de datos. Urrutia y Chávez (
En sentido general, las ontologías son muy útiles para la representación del conocimiento. Reynoso y Cuevas utilizaron ontologías para representar conocimiento sobre resonancias magnéticas de diferentes partes del cuerpo humano. Las imágenes del inventario de resonancias se encontraban almacenadas en una base de datos. El uso de las ontologías automatizó la clasificación de las imágenes y facilitó su integración, consulta y visualización (
En la revisión del presente trabajo se pudo constatar que las ontologías son una técnica poderosa para la representación del conocimiento. El 25 % de los artículos analizados abordan el tema de utilizar las ontologías para aportarle semántica a las bases de datos relacionales. En ese grupo de artículos clasificados por el tipo de propósito se tienen: una propuesta conceptual (PC), una cuantificación (C) y dos pruebas de conceptos (PRC). Clasificados por el tipo de fuente en la que fueron publicados se tienen: dos en IEEExplore, uno en ScienceDirect y uno en SpringerLink (ver la
En el mapeo sistemático realizado en la presente investigación se identificaron artículos que vinculan las bases de datos relacionales y las ontologías. Esos artículos fueron clasificados en cuanto a: 1) el escenario de vinculación de las bases de datos relacionales y las ontologías abordado, 2) el tipo de propósito de la investigación y 3) la fuente en la que fue publicado. Las respuestas de las preguntas de la investigación son presentadas seguidamente.
PI 1: ¿Cuáles son los estudios que se han realizado en que se vinculan las bases de datos relacionales y las ontologías? De los 40 artículos encontrados se seleccionaron 16 que cumplieron con los criterios de inclusión y exclusión definidos. La mayor parte de los artículos desechados se enfocaron únicamente a las ontologías o las relacionaban con bases de datos no relacionales.
PI 2: ¿Cuáles son los escenarios abordados sobre la vinculación de las bases de datos relacionales y las ontologías en cada uno de los trabajos? A partir de la lectura de los artículos seleccionados se definieron seis escenarios en que se vinculan las bases de datos relacionales y las ontologías con el objetivo de brindar una mejor integración, consulta y visualización de los datos almacenados. Los escenarios identificados fueron: mapeo de bases de datos relacionales a ontologías y viceversa (E1), ontologías para la integración de fuentes de datos heterogéneas (E2), acceso a datos basado en ontologías (OBDA) (E3), consultas en lenguaje natural basado en ontologías (E4), aprendizaje ontológico a partir de bases de datos relacionales (E5) y aporte semántico mediante ontologías (E6). En la clasificación realizada, el mapeo de bases de datos relacionales a ontologías y viceversa (E1), así como la utilización de las ontologías para la integración de fuentes de datos heterogéneas (E2) fueron los escenarios con mayor presencia para un 38 % cada uno, mientras que el escenario de las consultas en lenguaje natural basada en ontología (E4) fue el escenario con menor presencia para un 13 %. Por cada uno de los escenarios se delimitaron tendencias (T) y desafíos (D) que a continuación se mencionan.
· El 38 % de los artículos revisados abordaron este escenario, lo que evidencia la vigencia del tema.
· (D) aunque se han desarrollado múltiples algoritmos de mapeo, la mayoría de los enfoques ofrecen mapeos semiautomáticos y el problema principal continúa siendo su automatización.
· (T) dentro de los dos tipos de poblado de ontologías analizados se considera el poblado impulsado por consultas como el más factible.
· (T) dentro de los tres métodos analizados para el almacenamiento de ontologías en bases de datos relacionales: vertical, horizontal y de descomposición, la tendencia actual está enfocada en el método de descomposición.
· El 38 % de los artículos revisados abordaron este escenario, lo que evidencia la vigencia del tema.
· (T) las ontologías permiten resolver las dos tareas que abarca la integración de las bases de datos relacionales: integración a nivel de esquema y a nivel de datos.
· El 19 % de los artículos revisados abordaron este escenario, lo que evidencia la vigencia del tema.
· (D) los desafíos actuales que presenta OBDA coinciden con dos áreas de investigación abiertas en este ámbito: ingeniería de ontologías e ingeniería de mapeo, aquí con mayor relevancia debido al gran tamaño que tienen las bases de datos relacionales.
· El 13 % de los artículos revisados abordaron este escenario, lo que evidencia la vigencia del tema.
· (D) se necesitan sistemas robustos y escalables, así como la internalización en diferentes idiomas.
· (D) este tipo de sistemas está obligado a mitigar la cobertura incompleta de los lenguajes.
· El 19 % de los artículos revisados abordaron este escenario, lo que evidencia la vigencia del tema.
· (T) los estudios más recientes sobre la generación de ontologías a partir de bases de datos relacionales se han orientado a reducir al mínimo posible la intervención del usuario.
· (T) un elemento importante ha sido utilizar otras ontologías o tesauros externos para obtener relaciones que complementen las explícitas de la base de datos relacional.
· El 25 % de los artículos revisados abordaron este escenario, lo que evidencia la vigencia del tema.
· (T) en el empleo de las ontologías como complemento semántico de las bases de datos relacionales se constataron diferentes usos en la revisión, dentro de ellos: el enriquecimiento, la evaluación de la calidad y la clasificación de los datos.
PI 3 ¿Dónde fue publicado cada uno de los estudios? En ACM Digital Library y en ScienceDirect fueron publicados el 31 % de los artículos seleccionados en cada una de ellas, mientras que en IEEExplore y en SpringerLink fueron publicados el resto para un 19 % en cada una.
PI 4 ¿Cuál es el propósito de cada estudio? De los artículos revisados se clasificaron siete como cuantificación (C) para un 44 %, cinco como propuesta conceptual (PC) para un 31 %, tres como prueba de concepto (PRC) para un 19 % y uno como revisión (R) para un 6 %.
Luego de respondidas las preguntas de la investigación se puede concluir que, la vinculación de las bases de datos relacionales y las ontologías parten de la existencia de una gran cantidad de sistemas legados con bases de datos relacionales y la necesidad de manipular semánticamente esos datos con apoyo de las ontologías. En el trabajo, se presentaron ejemplos que evidencian el esfuerzo dedicado por la comunidad científica para eliminar las brechas entre esos dos modelos de datos con el objetivo de aprovechar cada vez más su complementariedad.