Proyecto TESORO

(Edición electrónica del Teatro Español del Siglo de Oro para la difusión del español y la formación a distancia)

Universidad Carlos III de Madrid

Ministerio de Ciencia y Tecnología - Programa PROFIT 2000-2003 - FIT-150200-2001-75

Acceso a los documentos del proyecto

Descripción del proyecto


Introducción

Muchos estudios recientes señalan que los principales problemas para el acceso de la población a los servicios de información electrónica son la falta de alfabetización tecnológica, el coste de los equipos informáticos, el coste de las telecomunicaciones y la escasa presencia de contenidos digitales en idioma español. Las últimas estimaciones consideran que en el total de los contenidos en la red Internet, por idiomas, le corresponde al castellano un porcentaje inferior al 4%

Este dato tiene una importancia vital dado que la aparición de Internet y la generalización de su uso en los países desarrollados y en vías de desarrollo gracias a herramientas de fácil uso como la web, ha supuesto una auténtica revolución en las posibilidades de difusión de información, y a través de ésta, de la difusión de las culturas. Lo que podría denominarse "cultura española" tiene una presencia cada vez mayor en la red, pero está aún muy lejos de alcanzar el nivel que debe corresponderle en virtud de su contribución histórica a lo que podríamos llamar la "cultura universal".

La lengua española, vehículo de cultura como todas las lenguas y una de las más habladas del mundo, tiene también una presencia limitada, poco acorde con el número de personas que la tienen como lengua materna. Con pocas excepciones además, los hablantes del español participan de una cultura común que va más allá de la simple adopción de una misma lengua. La creación de contenidos en lengua española en Internet es una necesidad más que una conveniencia para la difusión de la lengua y la cultura españolas.

La literatura, como forma de plasmar modos de entender, sentir y vivir, perdurable a lo largo de los siglos, es una de las vertientes y expresiones más destacadas de una cultura. Las obras literarias son retratos de épocas y lugares, de personajes y sentimientos, de pensamientos y sistemas de valores, unos cambiantes y otros consustanciales a la cultura en su devenir histórico. Un arte que toma la forma de texto es especialmente susceptible de ser transmitido por Internet sin merma de sus cualidades intrínsecas. Difundir la literatura asociada a una lengua como el español es difundir una de las esencias de la cultura española.

El Siglo de Oro, período a caballo entre los siglos XVI y XVII, es una de las etapas de mayor esplendor de la literatura y, en general, de la cultura española; en ella se concentra una sorprendente actividad y creatividad literaria y se acrisola la lengua española de manera definitiva, cambiando de sus formas medievales a su forma moderna. Difundir la literatura del Siglo de Oro constituye una forma idónea de ampliar la difusión de la cultura española por cuanto se facilita el acceso a buena parte de la producción literaria más demandada y estudiada por parte de los hispanistas de otros países y culturas. La asociación a los propios textos de las obras de otros contenidos, como biografías de autores, contextos históricos o culturales, críticas de las obras o bibliografías, permite además el diseño de cursos de formación a distancia para estudiantes españoles o extranjeros sobre este tan destacado período de la literatura española.

Dentro de la producción literaria del Siglo de Oro español, el teatro es seguramente el género más representativo y destacado. Por otro lado, el teatro es un género literario que presenta ciertas peculiaridades: una obra dramática no sólo es susceptible de ser leída, sino, y con ese fin se concibe, de ser representada, interpretada. Difundir a través de Internet una obra de teatro aporta una gama amplísima de posibilidades, por cuanto facilita no ya a lectura, sino incluso la audición (importante para la difusión de la lengua pero necesaria para el acceso de discapacitados visuales) o incluso la visión de una representación teatral de la misma, conjugando los diversos medios de la manera que hoy permite la red.

Objetivos

El proyecto que se presenta tiene como objetivos básicos:

La documentación respecto al propio desarrollo del proyecto servirá de base para la preparación de un curso a distancia abierto y gratuito para profesores sobre el cómo acometer proyectos de digitalización de obras teatrales (know-how) que puedan contribuir en el futuro a mantener y aumentar los contenidos del proyecto. Se pretende con ello aumentar la disponibilidad de cursos para formar a formadores y personal especializado y sentar las bases para el crecimiento del propio proyecto facilitando el conocimiento técnico y un lugar en la red donde almacenar el resultado de dichos proyectos.

Descripción

Una tendencia creciente en nuestros días es la difusión a través de la red Internet de contenidos con valor científico, cultural y educativo por parte de las instituciones que los custodian o procesan. Así, podemos apreciar como aspectos importantes aquellas bibliotecas, archivos, museos e instituciones de carácter científico, tecnológico o docente que están creando en la Web sistemas de información de sus fondos documentales, algunos de los proyectos más significativos serán expuestos con posterioridad. Esta tendencia está incidiendo en la realización de procesos de digitalización masiva de fondos documentales, así como un desarrollo paralelo de metodologías y tecnologías diseñadas específicamente para el cumplimiento de dos objetivos:

Con respecto al primer objetivo, son reseñables los trabajos realizados por instituciones como el Cornell University Preservation & Conservation Department, la Library of Congress, la Digital Imaging Initiative de la Universidad de Urbana, el Reseach Library Group o el IPI (Image Permanence Institute), con el desarrollo de metodologías y directrices encaminadas a garantizar la mayor corrección en cuanto a la selección de la tecnología a emplear en la digitalización, el cálculo de parámetros de captura digital y el control de calidad de los productos digitales resultantes. Con respecto al segundo objetivo, son de destacar las iniciativas auspiciadas por los institutos de Investigación y Conservación del J. Paul Getty Trust, con el desarrollo de herramientas y estándares para la generación de sistemas de información que permitan el mejor acceso al patrimonio histórico-cultural.

En cuanto a proyectos de digitalización de obras literarias accesibles en la Web destacan The Oxford Text Archive de la Oxford University Computing Services y Center for Electronic Text in the Humanities de las universidades norteamericanas de Rutgers y Princenton, citados posteriormente en el apartado del "Marcado de texto". En el caso concreto de digitalización de obras dramáticas de todas las épocas disponibles en la Web sobresale The English Server Drama Collections de la Washington University. Dedicados exclusivamente al tema motivo de este proyecto, obras dramáticas del Siglo de Oro español, nos encontramos con varios recursos en la Web de gran interés, como son:

El proyecto que presentamos integra ambas actuaciones: la digitalización de una selección documental representativa del teatro español del Siglo de Oro, y la integración de diversos recursos de conocimiento en un sistema de información que hará uso de tecnologías avanzadas para la edición y acceso a la información a través de la Web.

Se ha contemplado una fase piloto para la definición de rutinas de trabajo, que permitan optimizar todos los procesos involucrados en la captación de documentos y en su digitalización a través de un protocolo de tareas eficaz y eficiente.

Como aparece desarrollado en el cronograma del proyecto, se han contemplado como primeras fases del proyecto las tareas de definición de parámetros de digitalización, de la estructura hipertextual (XLink y XPointer), de la estructura y de la semántica (DTD XML y metadatos), de las hojas de estilo (CSS y XSL). La primera tarea consistirá en el estudio de la naturaleza formal y física de los originales (tipo y tamaño de fuentes, estado de conservación, legibilidad, información significativa), derivándose de éste la selección de los parámetros de captura digital adecuados para todo el conjunto de documentos que van a ser incorporados al sistema. A través de la segunda tarea definirá la DTD XML para el establecimiento de los elementos de marca semánticos y estructurales a emplear para el marcado de los documentos electrónicos, así como las relaciones en y entre los documentos por medio de XLink y XPointer. La definición de las hojas de estilo establecerá el formato de presentación de los documentos para los diferentes dispositivos de visualización o reproducción susceptibles de ser empleados en el acceso a la información.

Una vez digitalizado cada documento textual se someterá a un proceso de revisión y marcado, necesario en el caso de la aplicación del OCR, pues este sistema no garantiza un reconocimiento del 100% del texto impreso.

La obtención de contenidos adicionales consistirá en la búsqueda, localización y gestión de derechos de autoría de documentos relativos a las biografías de los autores, las representaciones de las obras y aquellos documentos sonoros, gráficos y audiovisuales que aporten datos relevantes para la comprensión de la obra y su trayectoria histórica. Esta información adicional se incorporará a la estructura hipertextual dando como resultado un esquema que podrá repetirse para todas las obras de distintos autores seleccionadas en las sucesivas fases.

La digitalización de los contenidos.

La metodología que se va a seguir para la fase de digitalización hará uso de las directrices y aportaciones desarrolladas por instituciones de reconocida solvencia, como las indicadas anteriormente. Esta fase dará como resultado la conversión de los contenidos disponibles en la forma de documentos en soporte papel o en formato electrónico analógico, a documentos electrónicos en formato digital, procesables por las aplicaciones informáticas que se emplearán para generar y acceder al sistema de información. El formato digital de los documentos electrónicos obtenidos durante esta fase, permitirá las tareas de proceso, presentación, organización y difusión requeridas para el desarrollo del sistema de recuperación de información.

La digitalización de documentos en soporte no electrónico requerirá la aplicación de una cadena de trabajo que deberá ser diferente en función de la naturaleza del documento a procesar. Diferenciamos cinco formatos:

  1. Imagen estática bidimensional (fotografías y otros documentos de naturaleza gráfica tales como dibujos, grabados o pinturas). Para su digitalización se empleará un escáner apto para documentos opacos y para transparencias, con un alto rango dinámico y que posibilite el empleo de una alta resolución espacial de captura. Los documentos gráficos serán muestreados a una alta profundidad de bit -16 bits por cada canal de color RGB- con la intención de poder reproducir con mayor exactitud el margen de densidades de los originales. La salida será remuestreada a 8 bits por canal RGB para las imágenes en color y monocromáticas no neutras, y 8 bits de grises para las imágenes monocromáticas neutras. Los formatos de salida serán compatibles con las herramientas de acceso a través de la Web: JPEG para fotografía, y GIF para otros gráficos. La resolución espacial de captura a aplicar será decidida en función de la naturaleza de cada original. A partir de estas imágenes de alta calidad, se generarán, mediante un proceso automático por lotes, imágenes a menor resolución aptas para su empleo en el sistema de recuperación. En el caso de las imágenes impresas, se aplicarán procesos de destramado, con la intención de evitar la aparición de moires.
  2. Objetos tridimensionales. Este tipo de documentos será digitalizado mediante el empleo de una cámara fotográfica digital con una alta resolución espacial (2048 x 1536 pixels), obteniéndose las calidades y formatos de salida indicadas anteriormente.
  3. Documentos textuales. A los documentos con contenido textual se les aplicará el mismo escáner reseñado anteriormente. En función del formato de los originales, se estudiará la posibilidad de aplicar un alimentador automático, previa facsimilación en papel suelto de los anteriores a través de una copiadora de alto contraste. Se obtendrán dos versiones de cada documento textual: una versión digital facsímil en formato mapa de bits y una versión en formato texto digital. La versión en formato texto, será obtenida de forma automática en los casos de documentos con letra impresa, empleándose para ello un software OCR (Optical Character Recognition). Las versiones textuales serán corregidas y marcadas manualmente. Se aplicarán profundidades de bit y resoluciones espaciales de captura adecuadas a la naturaleza y estado de conservación de los originales. En todo caso se garantizará que todo detalle significativo del original es captado por la imagen digital facsímil.
  4. Documentos videográficos. Para su digitalización se empleará una tarjeta digitalizadora de vídeo, obteniéndose una versión digital completa del original en formato MPEG. De las versiones completas se generarán versiones reducidas de menor duración y resolución, a través de un proceso humano de segmentación de planos de gran duración en unidades más pequeñas y homogéneas. Para ello se empleará un software de edición de vídeo digital.
  5. Documentos sonoros. Para la digitalización de sonido se empleará una tarjeta de sonido, obteniéndose una versión máster digital de cada documento en formato WAV, a partir de cual se generarán versiones reducidas, con una menor frecuencia de muestreo y tamaño de muestra, y con un formato de compresión potente y de amplio uso, como es el MP3.

Se aplicarán los procesos de control de calidad y de edición digital necesarios para la obtención de la mayor fidelidad original-copia digital.

Marcado de texto

La inclusión de marcas dentro del texto de un documento para destacar alguna característica del mismo ha sido una constante por parte del ser humano desde los orígenes de la escritura. El hecho de "señalar" para "distinguir" algo dentro del texto tomó, sin embargo, su verdadera expresión con la invención de la imprenta y, por tanto, de la producción mecánica de los documentos impresos. En este contexto, los correctores debían hacer uso de una serie de marcas o signos de corrección en los manuscritos y en las posteriores pruebas de imprenta para el correcto procesamiento del texto por parte del compositor o cajista de la imprenta. Este conjunto de signos, más o menos normalizado según cada país, región o imprenta, constituían un verdadero lenguaje (si entendemos por tal a todo conjunto de señales que dan a entender algo), de interpretación y uso por parte de la comunidad profesional o gremio de impresores.

La incorporación de los medios electrónicos para la composición y publicación de los textos trajo consigo la necesidad de implementar los mecanismos necesarios para el correcto procesamiento de los mismos. El documento electrónico no es, en principio, más que una secuencia de ceros y unos a los que se le debe añadir información complementaria para su correcta interpretación por parte de las computadoras. El conjunto de reglas y convenciones que establecen el modo en el que un texto electrónico ha de ser procesado (tipo y tamaño de la fuente del texto, palabras en negrita, cursiva, subrayadas, saltos de línea, etc.) constituye el formato de codificación de dicho documento. Esta codificación del texto electrónico está basada en el uso de marcas, o pequeñas cadenas de caracteres especiales que identifican el comienzo y el final de la parte del texto a la cual va a afectar las instrucciones de procesamiento señaladas en la marca. Este modo de operar, conocido bajo el nombre genérico de lenguajes de marcado de formato (también de presentación o de procedimiento) es el que tradicionalmente han venido empleando los programas informáticos para la edición y procesamiento de textos electrónicos, teniendo su máxima expresión en los actuales programas WYSIWYG (What You See Is What You Get). La mayoría de estos procesadores de textos emplean un lenguaje de marcado o codificación propietario lo que implica que para poder manejar uno de estos lenguajes se debe contar con el software apropiado que la compañía propietaria de los derechos haya desarrollado (por ejemplo, formatos PostScript y PDF de la compañía Adobe Systems, formato MS Word de la compañía Microsoft, etc.). Al incidir estos lenguajes en el formato de presentación más que en la descripción de contenidos almacenados, los sistemas electrónicos que las organizaciones y empresas debían implantar para el almacenamiento, gestión y recuperación de estos documentos debían basarse, pues, en la elaboración de otros documentos asociados (o "fichas de control") con los datos característicos de los documentos originales y los punteros o direcciones necesarios para la localización de los mismos.

Frente a este modo de proceder surge en la década de los 70 una nueva corriente de trabajo crítica a este modo de proceder, dando lugar a la denominada codificación genérica y los lenguajes de marcado descriptivo. Este modelo hace uso de las marcas para cualificar y definir cada uno de las piezas u objetos que constituyen el texto electrónico del documento, siendo posible obtener tanto la estructura como las propiedades de dicho texto (la semántica del texto). Esto es, se pone un mayor énfasis en la descripción del propósito del texto de un documento frente a su apariencia física, diferenciando, por tanto, lo que el texto es frente a cómo se ve. Así, cada uno de los bloques estructurales que conforman el texto del documento se marcan identificando su significado y función, su posición y su relación de jerarquía frente al resto de bloques (capítulos, secciones, subsecciones, párrafos, etc.). Esta visión estructural y semántica del contenido del documento electrónico reporta innumerables beneficios para el procesamiento y gestión de dichos documentos entre las que se pueden destacar, por ejemplo, la posibilidad de construir tablas de contenido o índices, numerar de forma automática secciones o notas, ordenar y componer el documento de múltiples maneras, establecer diversos estilos de presentación del documentos sin que haya que cambiar el texto del mismo, enviarlo y compartirlo con otras personas, implementar sistemas de almacenamiento, gestión y recuperación documental directamente sobre estos documentos, etc.

La necesidad de tener un mecanismo robusto, homogéneo, estandarizado e independiente para la definición y construcción de lenguajes de marcado descriptivo dio lugar a mediados de la década de los 80 a la aparición del Standard Generalized Markup Language (SGML) bajo los auspicios de la ISO (estándar internacional ISO 8879:1986). SGML no es en sí un lenguaje de marcado de documentos electrónicos sino, más bien, un metalenguaje; esto es, un lenguaje que permite crear múltiples lenguajes de marcado descriptivo. SGML, como metalenguaje que es, define una sintaxis abstracta para un modelo de lenguaje de marcado generalizado pero, de igual modo, proporciona un mecanismo normalizado para la generación de múltiples lenguajes de marcado descriptivo que pueden ser utilizados para describir la estructura y la semántica de diversos documentos según sea el tipo documental al que se adscribe; este mecanismo es conocido como DTD (Document Type Definition).

Son múltiples los lenguajes descriptivos específicos que se han venido creando desde la aparición de SGML según fuese el tipo de contenido documental a describir (desde partituras musicales a complejas fórmulas matemáticas). Uno de los lenguajes que mayor repercusión ha tenido en todo el mundo por su aceptación y uso ha sido el lenguaje TEI (Text Encoding Initiative, http://www.tei-c.org/). Se trata de una iniciativa puesta en marcha a finales de los 80 por la Association for Computers and the Humanities, la Association for Computational Linguistics y la Association for Literary and Linguistic Humanities y respaldada económicamente por otras prestigiosas instituciones, entre las que destacan la U.S. National Endowment, la DG XIII de la Comisión de las Comunidades Europeas y la Social Science and Humanities Research Council de Canadá. Este lenguaje se orienta a la descripción estructural y semántica de textos lingüísticos y literarios almacenados en formato electrónico y cuyo contenido, principalmente de carácter textual (aunque también se implementan mecanismos para la descripción de las imágenes que pudieran estar asociadas al mismo), ha de ser intercambiado entre instituciones e investigadores de todo el mundo a través de redes informáticas de comunicación. Dado el amplio espectro de tipos documentales que ha de cubrir (desde la traslación a formato electrónico de manuscritos medievales hasta obras literarias contemporáneas en verso o en prosa), este lenguaje se configura como amplio vocabulario de elementos y atributos de propósito múltiple, en el que han venido destacando por su influencia en otros desarrollos futuros de descripción de metadatos, los elementos de la cabecera de los documentos TEI (TEI Header). Dentro de esta cabecera se incluye toda aquella información necesaria para una correcta definición bibliográfica del documento. La definición formal (guidelines) o esquema de este lenguaje de marcado, conocida como TEI P3, fue publicada en mayo de 1994, existiendo una reimpresión revisada a mayo de 1999 (http://www.tei-c.org/P4beta/index.htm). Es de destacar, para los fines y métodos a emplear en este proyecto de investigación, que el punto 10 de estas directrices está dedicado a la descripción y modo de empleo de las etiquetas que se han de incluir para marcar textos dramáticos. Sirva de ejemplo un resumen de algunas de las directrices expuestas en dicho apartado:

Es importante señalar aquí que debido a la amplitud y la complejidad de uso de este lenguaje de marcado descriptivo se vio necesario hacer una adaptación reducida del mismo y que, además, estuviese redactado de forma más amigable para el usuario final, a modo de manual de uso con numerosos ejemplos. Esta reducción o subconjunto del esquema de codificación TEI P3 fue publicado en junio de 1995, y se le conoce internacionalmente bajo el nombre de TEI Lite (oficialmente denominado TEI U5, disponible en http://www.tei-c.org/Lite/, también en formato PDF en http://www.hcu.ox.ac.uk/TEI/Lite/teiu5_en.pdf).

Desde la publicación de este estándar de facto para el marcado de textos electrónicos de contenido humanístico han sido ciertamente numerosos los proyectos que se han desarrollado haciendo uso de sus directrices (http://www.tei-c.org/Applications/index.html), la mayoría de ellos al amparo de instituciones universitarias de todo el mundo. Así, son de destacar dos proyectos de especial relevancia, como son The Oxford Text Archive (http://ota.ahds.ac.uk/), proyecto de ya larga historia puesto en marcha por los servicios informáticos de la Universidad de Oxford con el fin de proporcionar a la comunidad universitaria los textos en formato electrónico de un gran número de obras literarias clásicas en diversos idiomas (en la actualidad cuenta con más de 25.000 obras de 25 lenguas diferentes), y el Center for Electronic Text in the Humanities (CETH, http://www.ceth.rutgers.edu/), proyecto conjunto de las universidades americanas de Rutgers y Princenton, y de similares características al anterior, en donde, además, estos textos electrónicos se encuentran disponibles en formato HTML y XML.

La adopción en 1998 por parte del World Wide Web Consortium (W3C) del metalenguaje XML (Extensible Markup Language) como nuevo modelo para la definición de lenguajes de marcado de documentos electrónicos que han de ser servidos y procesados en la Web supuso, en gran medida, la adaptación de muchos de los desarrollos existentes en SGML a este nuevo modelo. XML permite que, con ligeras modificaciones, los documentos electrónicos elaborados mediante marcado SGML, de los cuales adoptan los mismos beneficios ya expuestos, sean además fácilmente puestos a disposición de la comunidad de usuarios de Internet, siendo ahora, por tanto, su alcance mundial. Así, y dentro del contexto del marcado de textos electrónicos de contenido lingüísitico/literario, fue necesario adaptar de igual modo los lenguajes SGML específicos (las DTDs) que se habían creado, caso de TEI, al mecanismo implantado para XML: desde 1999 fueron diversas las iniciativas propuestas para la construcción de una versión XML de la DTD de TEI (el denominado TEI XML; véase, por ejemplo, la propuesta oficial de C.M. Sperberg-McQueen en http://www.uic.edu/orgs/tei/ed/edw69.html o la de Patricia Bonhomme en http://www.loia.fr/~bonhomme/xml.html, así como la información más completa sobre la adaptación del desarrollo TEI a XML suministrada por Robin Cover en http://xml.coverpages.org/tei.html). En la actualidad existe una versión oficial de la DTD de TEI Lite para XML (TEIxLite DTD), disponible en la dirección http://www.tei-c.org/Lite/DTD/teixlite.dtd.

Gran parte de los proyectos comenzados bajo el marcado TEI de SGML han ido adaptándose a esta nueva especificación del lenguaje XML siendo, por tanto, frecuente encontrarse en los correspondientes sitios Web oficiales documentos electrónicos lingüísticos/literarios marcados con ambos desarrollos. En el caso concreto del marcado de obras dramáticas, éstas se han venido englobando dentro de proyectos que abarcaban todo tipo de géneros literarios dentro de las denominadas Bibliotecas digitales. Sin embargo, y como proyecto específico para el tratamiento de este tipo de obras dramáticas, es de destacar el proyecto SCOPA (http://www.library.yale.edu/scopa/grants/2001pro3.html) de la Biblioteca de la Universidad de Yale, aún en fase de desarrollo. Este interesante proyecto pretende hacer uso de las posibilidades que ofrece el metalenguaje XML para el tratamiento de documentos teatrales de todo tipo (textos, imágenes, secuencias de vídeo, grabaciones sonoras, etc.), a través del estudio y adaptación del lenguaje TEI XML (dado que éste no se amolda bien al trabajo con los actuales documentos multimedia, muchos de ellos de gran complejidad).

El proyecto pretende, de igual modo, hacer uso del metalenguaje XML, analizando la conveniencia en la adopción de la versión TEI Lite para XML para el marcado de los documentos electrónicos de obras teatrales del Siglo de Oro español, pero haciendo uso, además, de tecnologías asociadas a este metalenguaje para el establecimiento de las relaciones hipertextuales entre los documentos (XLink y XPointer), la definición de metainformación asociada a estos documentos (RDF), la búsqueda y recuperación efectiva de información puntual de forma precisa (XML Query) y la presentación formal de los contenidos a diferentes audiencias y en diversos medios (CSS y XSL).

Metadatos

Como se ha dicho en otras partes de esta memoria, mejorar el acceso a la información y al patrimonio cultural español y en español a través de Internet no es sólo una necesidad sino un derecho que tienen todos los ciudadanos a raíz del desarrollo de la Sociedad de la Información. Por ello y porque desde hace algún tiempo, y cada vez más, lo que no está en Internet es como que no existiera, se han adoptado diversas formas para organizar y dar acceso a la información electrónica, que van desde el intento de catalogación de los recursos electrónicos, hasta la organización temática o los motores de búsqueda. Las nuevas formas de registrar el conocimiento que conllevan una explosión inminente de la información electrónica -cuya idiosincrasia difiere de la documentación impresa- y la evidencia de Internet, como fuente, depósito y recurso de información, han puesto en tela de juicio tanto o los métodos tradicionales del procesamiento de la información (fundamentalmente, la catalogación), como las nuevas soluciones exclusivamente automatizadas de recuperación de información (motores de búsqueda).

Los metadatos, en este contexto, constituyen un mecanismo crítico, son elementos o estructuras de organización de la información que, asignados a cada objeto de información Web, la clasifican, categorizan o describen; en definitiva "datos sobre datos", información estructurada sobre la información distribuida, que se muestran como una de las posibilidades para optimizar la recuperación de información en este sentido. Por ello, desde mediados de los 90 las distintas comunidades científicas se han preocupado por desarrollar modelos o estándares de metadatos que permitan distribuir la información descriptiva sus documentos al mismo tiempo que el propio documento. La proliferación de metadatos va desde modelos de propósito general como el Dublin Core (http://dublincore.org), a formatos más específicos como CIMI (http://www.cimi.org, en museos), GILS (http://www.gils.net/, para la descripción de información gubernamental) o CSDGM (http://www.fgdc.gov/metadata/contstan.html, en el ámbito de la información geoespacial) o la propuesta integradora del W3C del estándar RDF (Resource Description Framework). Los metadatos en definitiva consisten en un conjunto de propiedades de un documento electrónico, entendido este como un DLO (Document Like Object), independientemente de que ésta sea textual, imagen, vídeo, etc. Describen tanto información acerca del contenido (autor, título, materia, etc.), como información acerca de cómo se relacionan los documentos con traducciones, versiones, etc., además de información de carácter social como los derechos de distribución o los códigos de privacidad.

En el marco concreto de este proyecto de investigación, que tiene la finalidad de facilitar el acceso a las obras del Teatro del Siglo de Oro español vía Web, la adopción de un sistema de metadatos será fundamental para describir y optimizar la recuperación de la información almacenada. Si lo que diferencia una biblioteca de un conjunto de libros es la descripción y la localización de la información, lo que diferencia a un sistema de información Web de calidad, de un conjunto de enlaces, es justamente eso, la organización y la facilitación del acceso a través de metainformación.

Si bien por un lado el marcado XML puede utilizarse como una forma de metainformación, el hecho de aplicar una cabecera de metadatos a las obras teatrales incluidas en este sistema de información permitirá además:

Para ello, en este proyecto de investigación se planteará la posibilidad de adoptar el estándar de metadatos que mejor se ajuste a los intereses y particularidades de los documentos teatrales del Siglo de Oro español, bien a través de la cabecera TEI (TEI header), bien a través de la codificación RDF del Dublin Core, que son los modelos de metainformación que mejor responden a las necesidades y objetivos del teatro como forma documental, y por ende de este proyecto. Al tratarse de un contexto finito de documentos específicos, la asignación de metadatos es factible, abarcable y necesaria. Por último, el hecho de apostar por el marcado XML implica la necesidad de una restricción estructural para proporcionar métodos inequívocos de expresión semántica y sistemas eficaces de recuperación. RDF no es más que la infraestructura que permite esa restricción gracias a la codificación, intercambio y la reutilización de metadatos estructurados.

Organización hipermedial

El hipermedia se ha convertido en una herramienta que facilita en gran medida el acceso a la información y los procesos comunicativos y formativos en cualquier ámbito de la sociedad. El proyecto derivará en un sistema de recuperación de información de naturaleza hipermedia accesible de forma permanente a través de la red Internet. Se pretende generar una base de conocimiento sobre el teatro español del Siglo de Oro construida a partir de la integración de la tipología de formatos descritos más arriba y con amplias posibilidades de acceso a la información mediante la integración de elementos que permiten: navegación hipertextual, multimedia, recuperación a texto completo, directorios temáticos, índices y mapas.

La naturaleza hipermedial del sistema de acceso a implantar significa que la información se estructura siguiendo los principios del hipertexto. A diferencia de otras estructuras, como la secuencial, el hipertexto organiza la información en forma de red, esto es, de un conjunto de objetos unidos de forma no lineal. La estructura en red aplicada a la información permite que el usuario determine el recorrido de los elementos que contienen la información entre varias posibilidades, gracias a los enlaces que se crean entre éstos; y permite además su organización siguiendo criterios jerárquicos y asociativos. La conjunción del hipertexto con el multimedia (imagen fija, sonido, vídeo, gráficos animados, texto, realidad virtual) es lo que denominamos hipermedia.

Los elementos de información a integrar en el sistema son:

  1. Documentos textuales. Dentro de esta categoría se engloban: las obras teatrales seleccionadas e información textual relativa a éstas que permitan ampliar el conocimiento sobre la obra (autor, sociedad, hechos significativos, comentarios críticos, transcripciones de entrevistas a personas relevantes para el conocimiento de la obra). En el caso de las obras teatrales se ofrecerá el texto completo del documento en formato hipertextual , así como las imágenes facsímiles de los documentos originales, cuando el interés de la edición lo justifique.
  2. Gráficos estáticos. Comprende fotografías relacionadas con las representaciones de la obra, el autor o elementos significativos para el estudio de la obra; carteles, dibujos, bocetos, y cualquier elemento gráfico que aporte información adicional sobre la trayectoria o aspectos relacionados con la obra.
  3. Vídeo y sonido. Como parte de la documentación de entrevistas realizadas a profesionales o estudiosos del teatro; y de las propias representaciones.

Se generará un entorno de recuperación de información potente y flexible con la presencia de:

Una de las bases sobre la que se asienta la eficacia de este tipo de organización de la información es la representación del contenido semántico y estructural de los documentos que se incorporan al sistema. La aplicación de tal representación permitirá el acceso directo a la información a partir de conceptos temáticos, geográficos, cronológicos y formales. La tarea de representación se relega a la etapa de marcado y de introducción de metadatos. Esta fase será precedida de análisis de contenido y de estructura interna de los documentos.

Gracias a la flexibilidad en el acceso a la información que posibilita el sistema de búsqueda descrito, el usuario podrá ampliar sus expectativas sobre la necesidad de información que le lleva a conectarse al sistema, posibilitándosele el descubrimiento de temáticas, puntos de vistas, aspectos relacionados y fuentes de información nuevas que le pueden ser útiles para abordar su investigación o para su proceso de aprendizaje. Se trata, en definitiva, de crear un entorno de investigación y aprendizaje, flexible e interactivo, con grandes posibilidades de acceso y utilización de la información; y que facilite la investigación, la educación a distancia, y la difusión de la cultura en español en el amplio ámbito geográfico abarcado por Internet.

Novedad tecnológica

El proyecto pretende aportar significativas novedades en el uso de tecnologías punta para el tratamiento de documentos electrónicos multimedia accesibles a través del espacio Web de la red Internet para todo tipo de usuarios (profesionales en la materia y estudiosos en general). Para ello se hará uso del metalenguaje XML, analizando la conveniencia en la adopción de la versión TEI Lite para XML para el marcado de los documentos electrónicos de obras teatrales del Siglo de Oro español u otros estándares de similares propósitos, pero haciendo uso, además, de tecnologías asociadas a este metalenguaje para el establecimiento de las relaciones hipertextuales entre los documentos (XLink y XPointer), la definición de metainformación asociada a estos documentos (RDF), la búsqueda y recuperación efectiva de información puntual de forma precisa (XML Query) y la presentación formal de los contenidos a diferentes audiencias y en diversos medios (CSS y XSL).

Alcance previsto

El resultado del proyecto es la generación de un sistema de información en la Web sobre el teatro español del Siglo de Oro. Este sistema será accesible para todos los usuarios de Internet, y será de utilidad para la difusión cultural, la investigación y la docencia en el campo de la literatura española. También es de destacar la creación de una plataforma para la impartición de enseñanza a distancia mediante la creación de cursos interactivos sobre la materia. El proyecto implica asimismo la aplicación de tecnologías avanzadas para la edición electrónica y la difusión y recuperación de información en el entorno de grandes redes telemáticas, como Internet; que se conforma como una de las líneas de trabajo principales del Departamento de Biblioteconomía y Documentación de la Universidad Carlos III de Madrid.

La estrategia de difusión de resultados se basará en los siguientes puntos:

Entidad y participantes

El equipo investigador está dirigido por la Dra. Mercedes Caridad Sebastián, Catedrática del Departamento de Biblioteconomía y Documentación. Desde 1993, la Dra. Caridad ha formado un equipo interdisciplinar con personas provenientes de diferentes áreas temáticas como las ciencias de la información, la lingüística, el derecho, la informática y la historia, todos ellos participando de forma activa en numerosos trabajos sobre las tecnologías de la información.

Aunque en su mayoría los miembros del equipo proceden del campo de las Humanidades y las Ciencias Sociales, su conocimiento y experiencia con las tecnologías de la información es muy alta. Algunos son profesores y reconocidos especialistas en el diseño y uso de bases de datos con amplio conocimiento tanto de las fuentes de información como de algunos lenguajes de programación y de los paquetes de software de recuperación de información que permiten hacer funcionar las distintas bases de datos.

Desde 1993, el equipo viene trabajando en la puesta en marcha de sistemas que permitan mejorar el acceso de los ciudadanos a la información creando sistemas de recuperación de información (motores de búsqueda) y sistemas de navegación hipertextuales aplicando las últimas recomendaciones del Consorcio Web.

Especialmente importante fue el hito logrado en 1998, año en que se publicó un CD-ROM con toda la legislación existente hasta el momento emanada del Mercosur. La versión electrónica se realizó a petición de la empresa Dromi-San Martino, editora de una publicación legislativa muy conocida, el Código del MERCOSUR. La versión electrónica realizada por el equipo investigador tuvo amplia aceptación. En vez de utilizar sistemas de bases de datos tradicionales se decidió implementar toda la legislación en formato hipertexto.

Esta línea de trabajo ha sido la que a finales del año 1999 llevó a este equipo investigador a solicitar una ayuda a la Comunidad de Madrid para intentar construir un sistema parecido con las disposiciones generales de la Comunidad Autónoma. El proyecto ha sido acabado aunque la satisfacción del equipo investigador es menor debido a que los nuevos estándares XML, XSL, XLink, no han podido ser aplicados en toda la extensión que se hubiese deseado debido fundamentalmente a los recortes presupuestarios en la ayuda solicitada. Para dar entrada a dicha tecnología para este tipo de documentación, en fecha reciente ha sido elaborada nuevamente una propuesta de proyecto para la convocatoria de este año por parte de esta institución.

En este afán de promoción y aplicación de las nuevas tecnologías asociadas a la Web ha llevado a este equipo de investigación a introducirse en el marcado de textos electrónicos con otros contenidos disciplinares, siendo una de esas nuevas línea de actuación el tratamiento y difusión de textos literarios españoles en este espacio masivo de información electrónica multimedia en Internet.

Creemos que las líneas de trabajo emprendidas por este equipo están en consonancia con las investigaciones y desarrollos aplicados que se están llevando a cabo en los últimos años por parte de numerosos centros extranjeros de excelencia en I+D, en especial en el ámbito académico universitario, que en el caso del tratamiento de obras literarias en formato digital queda constatado por el gran número de proyectos de similares características al aquí presentado y referenciados a lo largo de este proyecto.

Para la realización y desarrollo de todos los proyectos y líneas de investigación llevadas a cabo por este equipo, se han venido solicitado, y obtenido, diferentes ayudas para infraestructuras. En la actualidad, el departamento dispone de un laboratorio en el que se incluyen cuatro miniordenadores (1 Sun Enterprise 250, 1 Sun Ultra 1, 1 Sun Ultra 2 y 1 IBM Risc 6000) y otros equipamientos informáticos y de comunicaciones (escáners, lectores de CD-ROM, red propia de CD-ROM, red informática propia, conexión propia a Internet, conexión a toda la red informática de la universidad, servidores WWW y de correo electrónico, etc.). De igual modo, el Departamento de Biblioteconomía y Documentación cuenta con un aula informática propia para la impartición de cursos de formación y especialización. Por último, la Facultad de Humanidades, Comunicación y Documentación, en la cual se inscribe el Departamento, cuenta con una sala de vídeo-conferencia para la impartición de cursos y seminarios de formación a distancia, siendo las experiencias piloto llevadas a cabo en este campo ciertamente prometedoras.


ir indices ir buscador

Proyecto TESORO (Dpto. Biblioteconomía y Documentación / Universidad Carlos III de Madrid)

Apache logo Apache logo Valid HTML 4.01! Valid CSS!