Antonio Cartelli - Marco Palma

Jean-Arthur Creff
(capo dell’ufficio per la politica della documentazione della Direzione del libro e della lettura, Parigi)
Quale informatizzazione per il catalogo generale dei manoscritti
delle biblioteche pubbliche di Francia?
(titolo originale: Quelle informatisation pour le catalogue général des manuscrits des bibliothèques
publiques de France?
; "Gazette du livre médiéval", 39 [automne 2001], pp. 42-45)

      La Direzione del libro e della lettura del Ministero francese della Cultura e della comunicazione ha l’intenzione di intraprendere l’informatizzazione del Catalogue général des manuscrits des bibliothèques publiques de France (CGMBPF, contenenti 170.000 descrizioni suddivise in oltre 100 volumi), al fine di poter renderlo, così com’è, disponibile in rete agli studiosi e di assicurarne l’ulteriore aggiornamento e le correzioni di cui necessita. In questa prospettiva la Direzione del libro e della lettura ha commissionato un’indagine di fattibilità a una società di consulting specializzata in problemi bibliotecari, la DoXulting. I primi risultati dello studio sono stati incoraggianti per quel che concerne il processo stesso di informatizzazione, ma il punto essenziale del progetto si è rivelato la scelta del formato. Al riguardo un esame approfondito del catalogo in linea dei manoscritti della British Library, consultabile in rete da due anni (http://molcat.bl.uk/), ci ha consentito di approfondire considerevolmente la nostra riflessione, come si vedrà più oltre.
      L’analisi della DoXulting ci ha prima di tutto dimostrato che è possibile l’informatizzazione del CGMBPF, in base alla conversione in testo delle immagini attraverso un programma di riconoscimento automatico dei caratteri. La qualità della carta è sufficiente per ottenere un’immagine utile e i tipi di caratteri usati possono essere analizzati con un programma specifico. Si evita così il ricorso a operatori, inevitabilmente più oneroso, soprattutto perché richiede ai bibliotecari un grosso sforzo di preparazione prima di affrontare i cataloghi. Anche se le difficoltà non mancheranno, soprattutto a causa dell’imponente massa di materiale da trattare, questa prima tappa dovrebbe permetterci di disporre abbastanza facilmente di un archivio di testi.
      Occorre quindi decidere cosa fare di questo archivio. Nel corso dei colloqui tenuti nel quadro dell’indagine ci siamo potuti accorgere dell’esistenza di diverse scuole di pensiero al riguardo. Alcuni colleghi ritengono infatti che il primo obiettivo da raggiungere sia quello di fornire agli studiosi l’informazione pura e semplice. Secondo costoro la stessa messa a disposizione in rete del catalogo rappresenterebbe già un progresso significativo rispetto alla versione stampata, particolarmente disagevole da usare. Ritengono quindi che sarebbe sufficiente un archivio testuale, da sfruttare con un motore di ricerca del tipo di quello offerto da un programma di trattamento di testi come Word. Si ha infatti a che fare con un pubblico di studiosi esperti, capaci di utilizzare un simile catalogo senza aver bisogno di strumenti di ricerca come authority list di autori o titoli. Questo approccio assai pragmatico permetterebbe di offrire un notevole servizio ai ricercatori senza spendere grandi cifre per creare un apposito strumento di lavoro in linea. Inoltre questo tipo di operazione è semplice da realizzare e non presenta il rischio di richiedere molto tempo prima di produrre risultati tangibili. L’inconveniente del metodo è quello di complicare se non di vietare lo scambio delle descrizioni, anche se questa non è certo l’operazione più importante. Inoltre risulta difficile l’ampliamento del catalogo (l’utilizzazione della procedura di copia-incolla si presta male al trattamento di testi di grandi dimensioni).
      Un’altra scuola di pensiero, totalmente opposta alla precedente, si schiera a favore di una forte strutturazione dei dati, risultante da altre operazioni condotte sul testo informatizzato. Si dovrà quindi suddividere quest’ultimo in campi (autori, titoli, data, supporto, etc.) sulla base di marcatori (segni di punteggiatura e salti di linea) definiti dopo un’analisi della struttura delle descrizioni. Una prima suddivisione può essere realizzata mediante un apposito programma, ma poi si renderà necessario l’intervento di un bibliotecario, poiché i marcatori non possiedono un significato univoco. La strutturazione dei dati comporta dunque un notevole costo supplementare e un non trascurabile rischio di procedere a un’operazione troppo fine, suscettibile di ritardare considerevolmente l’impresa. Tuttavia essa permette un agevole scambio delle descrizioni e soprattutto un più facile aggiornamento della base. Si potrà così recuperare un numero anche cospicuo di descrizioni già strutturate, in particolare a partire dai cataloghi informatizzati delle biblioteche.
      Anche se il pragmatismo della prima soluzione appare attraente, non sembra in realtà possibile fare a meno di una qualsiasi, anche minima, strutturazione, se non altro per separare le descrizioni. Dal momento che il catalogo in linea dei manoscritti della British Library è il punto di riferimento per entrambe le scuole di pensiero (sia per lodarlo che per criticarlo), ci è sembrato opportuno ricavarne qualche ulteriore elemento di riflessione. Abbiamo quindi chiesto informazioni sull’elaborazione di questo catalogo a Rachel Stockdale, responsabile del servizio di catalogazione del dipartimento dei manoscritti della British Library.
      Il catalogo della British Library riprende il contenuto di 70 volumi, per complessive 30.000 pagine e un milione di descrizioni. I volumi sono stati informatizzati trasformando le immagini in testo mediante un programma di riconoscimento automatico dei caratteri. La base è stata quindi indicizzata in base a un altro programma, specificamente concepito e basato sull’analisi della struttura tipografica delle descrizioni, che crea indici di nomi, lingue, date, stato dei documenti. Sono possibili due modalità di interrogazione: una direttamente sul testo, ricercando per parola (come si può fare in Word), l’altra sulla base degli indici, collegati a liste di autorità.
      Sembra quindi che la British Library abbia optato per una soluzione intermedia fra l’assenza totale di strutturazione e una strutturazione complessa. Come spesso accade la scelta è stata imposta da una necessità contingente, quella di procedere a una rapida realizzazione del progetto, finanziato dalla lotteria nazionale britannica (Heritage Lottery Fund), cui si aggiungeva la mancanza all’epoca di un formato specifico per i manoscritti, anche se UK-MARC (come tutti i formati MARC) consente un trattamento accettabile per la semplice segnalazione dei documenti. La scelta si è dimostrata saggia, tanto che il catalogo è disponibile in rete da due anni e viene regolarmente ampliato. Inoltre sono state prese adeguate precauzioni per convertire la base dati in un formato specifico, quando anche per i manoscritti se ne sarà imposto uno.
      A parte le questioni tecniche, come la qualità dell’informatizzazione e il riconoscimento ottico dei caratteri, il problema principale che si è posto ai responsabili del progetto britannico è stato la scelta del formato. Questa è anche la necessità di fronte alla quale ora ci troviamo.
      Sono possibili diverse opzioni:
- nessuna strutturazione dei dati, come detto prima;
- una strutturazione UNIMARC o INTERMARC;
- una strutturazione EAD (Encoded Archival Description), concepita in partenza per gli archivi, con l’obiettivo di descrivere i fondi e i loro livelli piuttosto che i singoli pezzi. Questo formato si adatta particolarmente bene alla rete, perché EAD appartiene alla famiglia DTD (definizione-tipo di documento), specificamente concepita per i dati in rete.
Una volta scelto il tipo di strutturazione, si può modularne il livello, da un grado assai fine a uno più rozzo.
      Dopo aver analizzato gli esperimenti condotti dalla British Library sull’eventuale conversione del proprio catalogo secondo diversi formati (Rachel Stockdale ci ha precisato tuttavia che la Biblioteca sceglierebbe probabilmente il formato EAD se il progetto dovesse partire ora) e aver consultato parecchi colleghi della Bibliothèque nationale de France e di altre biblioteche francesi, ci avviamo a scegliere una strutturazione leggera in quattro o cinque campi, compatibile con EAD e altri tipi di strutturazione. Si tratta di una prima opzione che non pregiudica la scelta definitiva. Per risolvere la questione la Direzione del libro e della lettura si propone di organizzare nel primo semestre del 2002 una tavola rotonda sulla strutturazione dei dati di descrizione e segnalazione dei manoscritti. Chiederemo ai colleghi della British Library di presentarci il loro notevole lavoro e faremo intervenire ampiamente gli studiosi, per i quali soprattutto questi strumenti sono concepiti. Speriamo che i lettori della Gazette du livre médiéval vogliano partecipare al dibattito.

Alcuni elementi di riflessione

- i cataloghi della Bibliothèque nationale de France:
http://catalogue.bnf.fr/ per BN-OPALE PLUS
http://www.bnf.fr/web-bnf/catalog/opaline.htm per BN-OPALINE (catalogo dei dipartimenti specializzati)

- le basi dati del Ministero della Cultura e della comunicazione e quelle delle istituzioni connesse:
http://www.culture.gouv.fr/culture/bdd/index.html

- a livello europeo sono in corso di attuazione due progetti di ricerca:
la base Malvine, che ha per obiettivo lo sviluppo di DTD EAD (http://www.malvine.org/);
MASTER, che ha per obiettivo lo sviluppo di DTD TEI (http://www.cordis.lu/ libraries/en/projects/master.html#top)

- l’agenzia che cura EAD:
http://www.lcweb.loc.gov/ead/
Informazioni sulle iniziative francesi si possono trovare all’indirizzo: http://www.archivesdefrance.culture.gouv.fr/fr/archivistique/DAFlangage.html
Al riguardo è anche ricco di insegnamenti il lavoro di Fabienne Queyroux, conservatrice alla Bibliothèque de l’Institut, L’informatisation des catalogues de manuscrits: rapport à la suite d’un voyage d’étude dans cinq bibliothèques nord-américaines: septembre-octobre 1998 (dicembre 1999)

- il gruppo responsabile di TEI (Text Encoding Initiative), un’altra DTD concepita per la descrizione di documenti:
http://www.uic.edu:80/orgs/tei/

- i diversi formati UNIMARC:
http://www.ifla.org/VI/3/ubcim.htm

  Cliccare per inviare un messaggio al docente
© 2001 del sito web A. Cartelli