Journal Information
Title: Enfoque UTE
Abbreviated Title: Enfoque UTE
ISSN (print): 1390-9363
ISSN (electronic): 1390-6542
Publisher: Universidad UTE (Quito, Ecuador)
Una gran cantidad de datos acumulados en las bases de datos de organizaciones, pueden esconder conocimientos valiosos y útiles para la toma de decisiones. La Minería de Datos también conocida como Descubrimiento de Conocimiento en Bases de Datos -Knowledge Discovery in Databases: KDD-, significa un proceso de extracción no trivial, de información implícita, útil, previamente desconocida, desde los datos de una base de datos (Chen, 1996) (Agrawal, 1993). De acuerdo con el Gartner Group (Larose, D, 2005, p.12) "La minería de datos es el proceso de descubrir nuevas correlaciones significativas, patrones y tendencias, tamizando grandes cantidades de datos almacenados en depósitos, usando tecnologías de reconocimiento de patrones, así como técnicas estadísticas y matemáticas." Dentro de ella, su estrategia de descubrimiento de reglas de asociación propone encontrar conjuntos de elementos que co-ocurren juntos frecuentemente en una base de datos (Agrawal, 1993) (Chen, 1996, p.7)(Hipp, 2000)(Hahsler, 2006).
La incorporación de esta tecnología en el ámbito de las bibliotecas ha comenzado a adquirir fuerza en los últimos años. Tanto es así que Nicholson define el término Bibliomining (Nicholson, 2006, p. 790) como “la combinación de minería de datos, bibliométricas, herramientas estadísticas, y de reportes, usadas para extraer patrones, basados en comportamientos, de los sistemas de biblioteca“. Coincidente con esta idea la asociación ARL -Association of Research Libraries- presenta el trabajo realizado por Barbara Mento (Mento, 2003). Esta publicación resulta de una investigación cuyo objetivo era determinar el uso de la tecnología de minería de datos en las actividades realizadas por distintas bibliotecas. De 124 bibliotecas consultadas, respondieron a la investigación 65. Si bien al momento de la investigación sólo 26 usaban tecnología de minería de datos, las restantes consideraban a esta tecnología muy importante. De las 26 bibliotecas, 18 aplicaban tecnología de minería de datos ya sea para facilitar las tareas administrativas o con propósitos estratégicos. Algunas bibliotecas mencionaron beneficios en la esfera administrativa a partir de la minería de datos, ya que esta tecnología ayudó al desarrollo de la colección, al presupuesto, a las decisiones de desarrollo de la Web, a valorar bases de datos y otros recursos, a determinar las necesidades de los usuarios, a monitorear el desempeño y usabilidad del sistema, a realizar pronósticos y establecer políticas y a mejorar la seguridad de la Web. En las conclusiones, la autora manifiesta que “Las bibliotecas que están usando minería de datos lo están haciendo principalmente para propósitos administrativos tales como facilitar la recolección y el análisis de, por ejemplo, la circulación, la adquisición, el uso de Web, y otros patrones de datos diversos. El objetivo es generalmente reforzar la toma de decisión y las operaciones internas propias de la biblioteca. Mientras que las actividades más importantes de la minería de datos residen en departamentos académicos e involucran investigación académica, hay conciencia y entusiasmo por las posibilidades de la minería de datos como una herramienta para bibliotecas de ARL.". (Mento, 2003,p.13).
Por su parte Galluzzi (Galluzzi, 2014) expresa que los bibliotecarios deben conducir las bibliotecas hacia las direcciones más innovadoras que han surgido en los últimos años y seguir siendo abiertos al cambio y lo más flexible posible.
Sue McKnight describe en (Dale, 2011) la evolución de la biblioteca académica a través del tiempo, lo que demuestra la resiliencia y capacidad de adaptación de los servicios bibliotecarios y de gestión de bibliotecas destacando el importante papel que las bibliotecas académicas tienen en la creación y el apoyo a los entornos digitales de aprendizaje, y su tendencia a participar en ellos hoy y en el futuro.
Si bien existe una amplia variedad de obras que tratan sobre minería de datos, no ocurre lo mismo con bibliomining. Entre los trabajos que aplican minería de datos a los datos de una biblioteca se encuentra el modelo KDBM -Knowledge Discovery Based Model- (Wo, 2004), diseñado para descubrir conocimiento sobre la utilización de las distintas categorías de materiales de una biblioteca universitaria. Este modelo de asignación de presupuesto, se sustenta en la idea de que nuevas asignaciones presupuestarias deben incorporar el conocimiento referido a la utilización realizada anteriormente de los recursos disponibles en la biblioteca.
La Facultad de Ciencias Exactas, Físicas y Naturales de la Universidad Nacional de San Juan, FCEFN-UNSJ, y en particular su biblioteca, han transitado un proceso de evaluación institucional. La evaluación de las instituciones universitarias del sistema universitario argentino se apoya en los conceptos centrales que surgen del artículo 44º de la Ley de Educación Superior. En el documento Lineamientos para la Evaluación Institucional (Resolución CONEAU 094/97) se expone la concepción general de la evaluación institucional que posee la CONEAU-Comisión Nacional de Evaluación y Acreditación Universitaria-, el marco normativo y las características de las evaluaciones externas que se realizan. En el mencionado documento se expresa que “Efectivamente, para poder llevar a cabo las tareas de investigación y docencia es central tener bibliotecas completas y actualizadas, con políticas de adquisición ajustadas a las necesidades de la institución y sus miembros.” (Lineamientos para la evaluación institucional, p. 20). “Toda evaluación, en cualquiera de sus fases, implica la utilización de medios cuantitativos y cualitativos, que son complementarios y de ninguna manera exclusivos ni aislados.” (Lineamientos para la evaluación institucional, p. 24). Además la Resolución CONEAU 315/00, que fija las pautas generales para la elaboración de los informes de evaluación externa, reconoce explícitamente para la variable Servicios de Biblioteca, de Información e Informáticos, las dimensiones: Presupuesto anual, Servicio e infraestructura, Catalogación y estadísticas, Circulación y préstamos, Informática entre otras.
Por su parte la Norma ISO 11620 -Norma internacional relacionada con la evaluación de bibliotecas de todo tipo- propone un conjunto de indicadores de desempeño entre los que se encuentran los relacionados con el uso, recuperación y préstamos de documentos. Para recabar los datos necesarios para el cómputo de esos indicadores la citada norma propone, explícitamente, la utilización de diferentes métodos entre los que cita el uso de los registros del sistema automatizado.
En conjunto el proceso de evaluación institucional, el marco regulatorio establecido por CONEAU, la Norma ISO-11620, los planes estratégicos, consideraciones y sugerencias realizadas por parte de la IFLA-International Federation of Library Associations and Institutions-, el reconocimiento del profesional bibliotecario como usuario-beneficiario de la tecnología de Minería de Datos en su actuación profesional y el modelo KDBM, han motivado al desarrollo de una propuesta referente al cómputo de utilización efectiva de los materiales disponibles, con el propósito de asistir al proceso de gestión de los recursos de una biblioteca universitaria, especialmente en instancias en las que se necesitan datos objetivos que apoyen decisiones referentes a la adquisición de nuevos materiales, A la vez, se promueve la incorporación y el reconocimiento de las potencialidades de las nuevas tecnologías, como la Minería de Datos, en entornos no tradicionales tal es el caso de bibliotecas.
En la sección 2 se describe el proceso realizado para el cómputo de utilización de cada categoría de libros, o códigos Dewey , en base a su estadística de utilización y a su utilización conjunta con otras categorías. En la sección 3 se discuten los resultados obtenidos y en la sección 4 se presentan las conclusiones.
Dentro de la minería de datos, la estrategia de descubrimiento de reglas de asociación propone encontrar conjuntos de elementos que co-ocurren juntos frecuentemente en una base de datos (Agrawal, 1993)(Chen, 1996)(Hipp, 2000)(Hahsler, 2006).
La biblioteca de la FCEFN-UNSJ registra en el sistema MicroISIS todos los movimientos (préstamos, devoluciones, renovaciones y consultas) de su material librario. En esta biblioteca se aplica el Sistema de Clasificación Decimal Dewey para la catalogación de su colección. A partir de considerar que cada transacción registrada en el sistema, consiste de los códigos Dewey correspondientes a los libros (ejemplares) -más de uno-, gestionados por un socio- Número de Socio- en una misma visita -Fecha- a la biblioteca, se adaptaron las definiciones del modelo matemático de reglas de asociación al ámbito de la citada biblioteca:
conjunto de los códigos Dewey correspondientes a los libros de la biblioteca de la FCEFN,
conjunto de transacciones, en el que cada transacción consiste de los códigos Dewey correspondientes a los libros requeridos por un socio en una sola visita a la biblioteca.
La implicación es una Regla de Asociación donde , , y , esto es, el conjunto de códigos Dewey formado por aquellos que corresponden al antecedente o al consecuente, no contiene códigos repetidos, y debe estar contenido o ser igual a alguna de las transacciones pertenecientes a .
En el marco soporte-confianza (Agrawal, 1993)(Brin, 1997)(Silverstein, 1998), la búsqueda de reglas de asociación adopta los factores soporte y confianza para evaluar las reglas descubiertas.
La regla tiene soporte s en el conjunto de transacciones , , si de las transacciones de contienen tanto a como a . El soporte puede ser considerado como la probabilidad de que las transacciones contengan un conjunto de ítems.
En nuestro trabajo, el conjunto está formado por los códigos Dewey que conforman el antecedente y/o el consecuente de la regla de asociación:
La regla se mantiene en el conjunto de transacciones , con factor de confianza , , si de las transacciones de que satisfacen también satisfacen ; esto es, el porcentaje de transacciones que contienen a -- respecto al número total de transacciones que contienen .
La confianza se define como la probabilidad de que las transacciones que contienen el antecedente de la regla, también contengan el consecuente; esto es, la probabilidad de que ocurra Y dado que ya ocurrió X. La confianza puede ser considerada, entonces, como un estimador de la probabilidad condicional .
El modelo KDBM, que consiste en una propuesta para evaluar la utilización de las diferentes categorías de materiales en una biblioteca universitaria, incorpora un mecanismo de estadísticas de circulación y un mecanismo de descubrimiento de reglas de asociación. Las estadísticas de circulación son computadas en base a la “fuerza semántica”, o pertinencia, de las categorías de materiales solicitados por los socios de la biblioteca, respecto a los departamentos involucrados en los préstamos. Las reglas de asociación, que reflejan la correlación entre pares de categorías de materiales, brindan el apoyo adecuado para determinar la importancia de las categorías utilizadas. En este contexto, una regla de asociación toma la forma A(B((,(), donde A y B son categorías de materiales y ( y ( son soporte y confianza respectivamente. Por ejemplo, la regla de asociación “Sistemas ( Organizaciones y Administración (0.25, 0.33) “, es interpretada como: “ si materiales en la categoría Sistemas fueron pedidos en una transacción, materiales de Organizaciones y Administración fueron también pedidos en la misma transacción con un soporte de 0.25 y una confianza de 0.33” (Wo, 2004, p.714).
La utilización de cada categoría de material es computada por medio de la expresión:
donde MU es utilización y A una categoría de material representada por su código Dewey
nA: estadística de utilización de la categoría A
nk: estadística de utilización de la k-ésima categoría que puede producir A - esto es k(A
( : intensidad de soporte
soporte: valor de soporte de la regla k(A
( : intensidad de confianza
confianza: valor de confianza de la regla k(A
A partir de los movimientos registrados en el sistema durante un año, y de (1), se calculó la utilización de cada código Dewey en base a su circulación individual y a su circulación conjunta con otros códigos.
Si bien la FCEFN tiene cuatro departamentos académicos: Geofísica-Astronomía, Biología, Informática, y Geología, en particular se seleccionaron los movimientos realizados por socios de la biblioteca vinculados al Departamento de Informática. Como resultado se obtuvieron 8649 registros concernientes a los préstamos, renovaciones, devoluciones y consultas de libros, realizadas por alumnos y docentes del citado departamento.
Se confeccionaron 152 encuestas distintas destinadas a docentes y alumnos del último año de las carreras de cada uno de los 4 departamentos de la FCEFN, las que fueron distribuidas proporcionalmente según el uso que cada departamento realizó de la biblioteca durante un año. Esto llevó a destinar 54 encuestas para Biología, 15 para Geofísica, 40 para Geología y 43 para Informática - Tabla 1.
Asimismo, se consideraron los 302 códigos Dewey presentes en los movimientos registrados en el Sistema de Biblioteca durante el año tratado. A cada encuestado no se le presentaron códigos, sino diversos títulos de bibliografías catalogados bajo esos códigos. Cada encuesta contiene 20 títulos, los que multiplicados por las 152 encuestas permitieron obtener alrededor de 10 respuestas, provenientes de 10 encuestados distintos, por cada uno de los 302 códigos Dewey. Cabe mencionar que tanto la distribución de los títulos entre las encuestas, como de las encuestas entre los referentes de los departamentos, fue aleatoria. En la Figura 1 se muestra una de las encuestas respondida, en esta oportunidad, por un docente.
El procesamiento de las encuestas se realizó por medio de una planilla de cálculo. Las X se reemplazaron por los siguientes valores: columna Pertinencia Total por valor 0,4; columna Pertinencia Alta por valor 0,3; columna Pertinencia Media por valor 0,2; columna Pertinencia Baja por valor 0,1 y columna Pertinencia Nula por valor 0. Dado que diferentes títulos bibliográficos corresponden a un mismo código Dewey, el valor representativo de pertinencia de ese código para un área de conocimiento particular, se obtuvo mediante el cálculo de la mediana desde las respuestas obtenidas de referentes de ese área. Se computa la mediana, por representar los valores numéricos procesados valores semánticos inherentes a las pertinencias brindadas por cada encuestado.
Para el cómputo de la mediana se ordenaron los valores de pertinencia asociados a un código Dewey de mayor a menor, luego se podaron los extremos hasta alcanzar un único resultado representativo de ese código Dewey.
En la Tabla 2 se pueden apreciar las respuesta brindadas, para el Dewey 005.71, por encuestados pertenecientes a diversas áreas de conocimiento respecto de la pertinencia entre el título del libro y las carreras en las que el encuestado trabaja. La columna 2 tiene el número de encuesta en la que se ha obtenido la respuesta considerada, siendo la número 6 la presentada en la Figura 1.
En el caso del Dewey considerado, 005.71, el valor de pertinencia obtenido desde el cálculo de la mediana de las respuestas de referentes del área Informática es 0,3 (Alta).
El valor de estadística de utilización de cada código Dewey surgió de multiplicar la cantidad de veces que dicho código ocurrió en préstamos, renovaciones y consultas, por su fuerza semántica. Se computó nA de (1), pero considerando los códigos Dewey distintos ocurridos en los préstamos, renovaciones y consultas durante el año tratado.
De los códigos analizados, 55 tenían valor cero para estadísticas de utilización. Asimismo cada uno de ellos había ocurrido entre 1 y 887 veces, pero en promedio la presencia de cada código en las solicitudes de libros realizadas en el año fue de 47 veces.
La asociación de utilización de un código Dewey toma en cuenta las reglas de asociación en las que dicho código participa como consecuente.
A partir de (1), la circulación conjunta se evaluó en base a las estadísticas de utilización de los códigos -k-, que pueden producir el código en cuestión -A, esto es reglas de asociación de la forma k(A. La circulación conjunta es la suma de las estadísticas de utilización de todos los códigos k, ponderadas éstas por su soporte -que expresa la probabilidad de ocurrencia de la regla-, y confianza -que refiere a la probabilidad de ocurrencia del código A, habiendo ocurrido k. Si bien en (1) aparecen los factores ( - intensidad de soporte, y ( - intensidad de confianza, éstos refieren a valores establecidos por el usuario de la tecnología en base a su experiencia, pero en este caso ambos fueron omitidos pues no se disponía de información sobre los mismos.
Cada movimiento registrado en el sistema corresponde a un préstamo, renovación, devolución o consulta de un libro por parte de un socio de la biblioteca. Ahora bien, si cada regla de asociación tiene dos códigos Dewey, correspondientes al antecedente y al consecuente, surge entonces el siguiente interrogante ¿Son las dieciséis combinaciones de movimientos de ejemplares, convenientes para el análisis propuesto? , en otras palabras ¿Qué combinaciones de movimientos son significativas al momento de seleccionar pares de códigos Dewey que representen posibles reglas de asociación relevantes? De las dieciséis alternativas posibles de pares, las combinaciones de movimientos relevantes aceptadas en este trabajo para el cómputo de la asociación de utilización son las marcadas con X en la Tabla 3. Esta elección se basó en la observación directa de las acciones concretas que el personal de la biblioteca realiza al atender las solicitudes conjuntas de libros efectuadas por cada socio al momento de asistir a la biblioteca.
La tarea encarada requería no solo reconocer reglas de asociación conformadas por códigos Dewey sino que, además, tanto el antecedente como el consecuente de cada una de las reglas debían estar involucrados en los pares de movimientos de materiales previamente aceptados - Tabla 3-.
Si bien Weka, R y Rapidminer proveen algoritmos de descubrimiento de reglas de asociación, ninguno de ellos contempla esta situación. Es así que, por medio de SQL los 8649 registros almacenados en el sistema se agruparon en 1974 transacciones, a partir de las que se construyeron 5492 reglas de asociación.
Si bien en el sistema de biblioteca estaba registrado el uso de 302 códigos Dewey, solo 164 de ellos correspondían a movimientos realizados por socios pertenecientes al Departamento de Informática. En esta instancia se computó la utilización de esos 164 códigos Dewey, a partir de su estadística de utilización y de su asociación de utilización. La relación entre los valores computados de utilización, estadística de utilización y asociación de utilización, para 53 de los 164 códigos es mostrado en la Figura 2.
Por ejemplo, la estadística de utilización, nA de (1), de los códigos 005.1, 005.133C y 005.43 es 142.8, 354.79 y 152; mientras que su asociación de utilización, nk de (1), es 167.71, 335.22 y 171.93 respectivamente. La descripción de cada código Dewey contenido en la Figura 2 es presentada en la Tabla 4, conjuntamente con su valor de utilización - MU de (1)-, y el porcentaje de asociación de utilización computado.
Los tres códigos con mayor valor de utilización son 005.133C, 005.43 y 005.1, de los cuales los correspondientes a "Programas de sistemas. Sistemas operativos" y "Programación", tienen un porcentaje de asociación de utilización que supera el 50%. Asimismo, de los 53 códigos Dewey presentados, 39 tienen un porcentaje de asociación de utilización de más de 50%.
El cómputo acumulado de utilización de los 164 códigos arrojó el valor 10978. En la Tabla 5 se muestran los 14 códigos Dewey que tienen un porcentaje de utilización que supera el 1% de la utilización total computada. De ellos, 12 presentan un porcentaje de asociación de utilización respecto a su utilización que supera el 40%.
Además se detectó que para 120 de los 164 códigos Dewey ocurridos efectivamente en los movimientos registrados durante el año tratado, la asociación de utilización representó más del 50% de su utilización.
Se evidencia entonces que existen materiales bibliográficos que individualmente no son muy requeridos, sin embargo su uso aumenta al ser solicitados conjuntamente con otros.
Se han empleado esquemas 2D para facilitar al bibliotecario, considerado en esta oportunidad como usuario-beneficiario de la tecnología de descubrimiento de conocimiento a partir de los datos, la detección inmediata de las relaciones existentes entre utilización, estadísticas de utilización y asociación de utilización para las diferentes categorías de libros. Los códigos Dewey que computan mayor valor de utilización presentan altos valores de asociación de utilización, lo que significa que dichos códigos estuvieron asociados con otros en la mayoría de los movimientos de libros registrados en el sistema. Ello implica que la utilización de un código Dewey particular no es totalmente dependiente de su estadística de utilización, sino que también depende de su co-ocurrencia con otros códigos Dewey. Se propone incorporar este conocimiento en instancias de gestión de la biblioteca, en especial al momento de establecer criterios de asignación de presupuesto destinado a la adquisición de nuevos ejemplares. En particular los valores obtenidos de utilización, estadísticas de utilización y asociación de utilización permiten objetivamente distribuir el presupuesto disponible para compras de libros entre distintos códigos Dewey. Esto representa un importante aporte a esta tarea realizada habitualmente por el bibliotecario responsable de la biblioteca de la FCEFN, para la cual frecuentemente recurre a valoraciones subjetivas respecto al uso de los libros por parte de sus socios.
La distribución del material bibliográfico en definidos espacios físicos está expresada también por la codificación Dewey. Lo experimentado en la presente aplicación permitió, en determinados casos, proponer reubicación de material bibliográfico según el perfil propio y característico de la biblioteca de la FCEFN sobre la que se realizó el estudio.
Con la intención de profundizar las tareas de bibliomining y en camino de futuras aplicaciones, en el ámbito de la biblioteca de la FCEFN se está trabajando sobre una propuesta de automatización de obtención de código Dewey referidos a publicaciones en español, generadas en el ámbito de la propia Facultad o de la UNSJ en general. Hasta el momento la tarea de asignar su código Dewey a material bibliográfico que no lo posee, e inclusive escrito en diferentes idiomas, está a cargo de un integrante de la biblioteca de la FCEFN quien desde la lectura del libro o publicación, define su área temática de pertenencia y desde allí su correspondiente numeración. Similar objetivo se pretende, desde la aplicación automática de métricas de minería de texto, determinar la pertenencia y pertinencia de una titulación bibliográfica e índice asociado con los contenidos mínimos abarcados por las diferentes carreras que se dictan en el ámbito de la FCEFN.
Un incipiente trabajo se está llevando adelante en lo referente a la definición y tratamiento de expurgo (no prestable) de material bibliográfico. Mediante la aplicación de algoritmos de segmentación se pretende llegar a determinar qué material bibliográfico está en condiciones de pasar a estado de expurgo y por ende la consideración de establecer por parte de la autoridad bibliotecaria la necesidad o no, de un nuevo lugar de almacenamiento. En el tratamiento de esta problemática también es tenido en cuenta el desarrollo realizado y los resultados obtenidos en el presente trabajo,
CONEAU. (2015). Comisión Nacional de Evaluación y Acreditación Universitaria. http://www.coneau.gov.ar/.
CONEAU. (1997). Lineamientos para la Evaluación Institucional- Aprobado por Resolución Nº 094. http://www.coneau.gov.ar/archivos/482.pdf.
Nicholson, S. (2006). Information Processing & Management. The basis for bibliomining: Frameworks for bringing together usage-based data mining and bibliometrics through data warehousing in digital library services, 42(3), 785-804, http://www.sciencedirect.com/science/article/pii/S0306457305000658.
Resolución CONEAU 315/00. (2015). Comisión Nacional de Evaluación y Acreditación Universitaria. http://www.coneau.edu.ar/archivos/485.pdf.