|
Jean-Arthur Creff
(capo dellufficio per la politica della documentazione
della Direzione del libro e della lettura, Parigi)
Quale informatizzazione per il catalogo generale dei
manoscritti
delle biblioteche pubbliche di Francia?
(titolo originale: Quelle informatisation pour le
catalogue général des manuscrits des bibliothèques
publiques de France?; "Gazette du livre
médiéval", 39 [automne 2001], pp. 42-45)
La Direzione del libro e della lettura del Ministero francese
della Cultura e della comunicazione ha lintenzione di
intraprendere linformatizzazione del Catalogue général
des manuscrits des bibliothèques publiques de France (CGMBPF,
contenenti 170.000 descrizioni suddivise in oltre 100 volumi), al
fine di poter renderlo, così comè, disponibile in rete
agli studiosi e di assicurarne lulteriore aggiornamento e
le correzioni di cui necessita. In questa prospettiva la
Direzione del libro e della lettura ha commissionato
unindagine di fattibilità a una società di consulting
specializzata in problemi bibliotecari, la DoXulting. I
primi risultati dello studio sono stati incoraggianti per quel
che concerne il processo stesso di informatizzazione, ma il punto
essenziale del progetto si è rivelato la scelta del formato. Al
riguardo un esame approfondito del catalogo in linea dei
manoscritti della British Library, consultabile in rete da due
anni (http://molcat.bl.uk/), ci ha consentito di approfondire
considerevolmente la nostra riflessione, come si vedrà più
oltre.
Lanalisi della DoXulting ci ha prima di tutto
dimostrato che è possibile linformatizzazione del CGMBPF,
in base alla conversione in testo delle immagini attraverso un
programma di riconoscimento automatico dei caratteri. La qualità
della carta è sufficiente per ottenere unimmagine utile e
i tipi di caratteri usati possono essere analizzati con un
programma specifico. Si evita così il ricorso a operatori,
inevitabilmente più oneroso, soprattutto perché richiede ai
bibliotecari un grosso sforzo di preparazione prima di affrontare
i cataloghi. Anche se le difficoltà non mancheranno, soprattutto
a causa dellimponente massa di materiale da trattare,
questa prima tappa dovrebbe permetterci di disporre abbastanza
facilmente di un archivio di testi.
Occorre quindi decidere cosa fare di questo archivio. Nel corso
dei colloqui tenuti nel quadro dellindagine ci siamo potuti
accorgere dellesistenza di diverse scuole di pensiero al
riguardo. Alcuni colleghi ritengono infatti che il primo
obiettivo da raggiungere sia quello di fornire agli studiosi
linformazione pura e semplice. Secondo costoro la stessa
messa a disposizione in rete del catalogo rappresenterebbe già
un progresso significativo rispetto alla versione stampata,
particolarmente disagevole da usare. Ritengono quindi che sarebbe
sufficiente un archivio testuale, da sfruttare con un motore di
ricerca del tipo di quello offerto da un programma di trattamento
di testi come Word. Si ha infatti a che fare con un pubblico di
studiosi esperti, capaci di utilizzare un simile catalogo senza
aver bisogno di strumenti di ricerca come authority list
di autori o titoli. Questo approccio assai pragmatico
permetterebbe di offrire un notevole servizio ai ricercatori
senza spendere grandi cifre per creare un apposito strumento di
lavoro in linea. Inoltre questo tipo di operazione è semplice da
realizzare e non presenta il rischio di richiedere molto tempo
prima di produrre risultati tangibili. Linconveniente del
metodo è quello di complicare se non di vietare lo scambio delle
descrizioni, anche se questa non è certo loperazione più
importante. Inoltre risulta difficile lampliamento del
catalogo (lutilizzazione della procedura di copia-incolla
si presta male al trattamento di testi di grandi dimensioni).
Unaltra scuola di pensiero, totalmente opposta alla
precedente, si schiera a favore di una forte strutturazione dei
dati, risultante da altre operazioni condotte sul testo
informatizzato. Si dovrà quindi suddividere questultimo in
campi (autori, titoli, data, supporto, etc.) sulla base di
marcatori (segni di punteggiatura e salti di linea) definiti dopo
unanalisi della struttura delle descrizioni. Una prima
suddivisione può essere realizzata mediante un apposito
programma, ma poi si renderà necessario lintervento di un
bibliotecario, poiché i marcatori non possiedono un significato
univoco. La strutturazione dei dati comporta dunque un notevole
costo supplementare e un non trascurabile rischio di procedere a
unoperazione troppo fine, suscettibile di ritardare
considerevolmente limpresa. Tuttavia essa permette un
agevole scambio delle descrizioni e soprattutto un più facile
aggiornamento della base. Si potrà così recuperare un numero
anche cospicuo di descrizioni già strutturate, in particolare a
partire dai cataloghi informatizzati delle biblioteche.
Anche se il pragmatismo della prima soluzione appare attraente,
non sembra in realtà possibile fare a meno di una qualsiasi,
anche minima, strutturazione, se non altro per separare le
descrizioni. Dal momento che il catalogo in linea dei manoscritti
della British Library è il punto di riferimento per entrambe le
scuole di pensiero (sia per lodarlo che per criticarlo), ci è
sembrato opportuno ricavarne qualche ulteriore elemento di
riflessione. Abbiamo quindi chiesto informazioni
sullelaborazione di questo catalogo a Rachel Stockdale,
responsabile del servizio di catalogazione del dipartimento dei
manoscritti della British Library.
Il catalogo della British Library riprende il contenuto di 70
volumi, per complessive 30.000 pagine e un milione di
descrizioni. I volumi sono stati informatizzati trasformando le
immagini in testo mediante un programma di riconoscimento
automatico dei caratteri. La base è stata quindi indicizzata in
base a un altro programma, specificamente concepito e basato
sullanalisi della struttura tipografica delle descrizioni,
che crea indici di nomi, lingue, date, stato dei documenti. Sono
possibili due modalità di interrogazione: una direttamente sul
testo, ricercando per parola (come si può fare in Word),
laltra sulla base degli indici, collegati a liste di
autorità.
Sembra quindi che la British Library abbia optato per una
soluzione intermedia fra lassenza totale di strutturazione
e una strutturazione complessa. Come spesso accade la scelta è
stata imposta da una necessità contingente, quella di procedere
a una rapida realizzazione del progetto, finanziato dalla
lotteria nazionale britannica (Heritage Lottery Fund), cui
si aggiungeva la mancanza allepoca di un formato specifico
per i manoscritti, anche se UK-MARC (come tutti i formati MARC)
consente un trattamento accettabile per la semplice segnalazione
dei documenti. La scelta si è dimostrata saggia, tanto che il
catalogo è disponibile in rete da due anni e viene regolarmente
ampliato. Inoltre sono state prese adeguate precauzioni per
convertire la base dati in un formato specifico, quando anche per
i manoscritti se ne sarà imposto uno.
A parte le questioni tecniche, come la qualità
dellinformatizzazione e il riconoscimento ottico dei
caratteri, il problema principale che si è posto ai responsabili
del progetto britannico è stato la scelta del formato. Questa è
anche la necessità di fronte alla quale ora ci troviamo.
Sono possibili diverse opzioni:
- nessuna strutturazione dei dati, come detto prima;
- una strutturazione UNIMARC o INTERMARC;
- una strutturazione EAD (Encoded Archival Description),
concepita in partenza per gli archivi, con lobiettivo di
descrivere i fondi e i loro livelli piuttosto che i singoli
pezzi. Questo formato si adatta particolarmente bene alla rete,
perché EAD appartiene alla famiglia DTD (definizione-tipo di
documento), specificamente concepita per i dati in rete.
Una volta scelto il tipo di strutturazione, si può modularne il
livello, da un grado assai fine a uno più rozzo.
Dopo aver analizzato gli esperimenti condotti dalla British
Library sulleventuale conversione del proprio catalogo
secondo diversi formati (Rachel Stockdale ci ha precisato
tuttavia che la Biblioteca sceglierebbe probabilmente il formato
EAD se il progetto dovesse partire ora) e aver consultato
parecchi colleghi della Bibliothèque nationale de France e di
altre biblioteche francesi, ci avviamo a scegliere una
strutturazione leggera in quattro o cinque campi, compatibile con
EAD e altri tipi di strutturazione. Si tratta di una prima
opzione che non pregiudica la scelta definitiva. Per risolvere la
questione la Direzione del libro e della lettura si propone di
organizzare nel primo semestre del 2002 una tavola rotonda sulla
strutturazione dei dati di descrizione e segnalazione dei
manoscritti. Chiederemo ai colleghi della British Library di
presentarci il loro notevole lavoro e faremo intervenire
ampiamente gli studiosi, per i quali soprattutto questi strumenti
sono concepiti. Speriamo che i lettori della Gazette du livre
médiéval vogliano partecipare al dibattito.
Alcuni elementi di riflessione
- i cataloghi della Bibliothèque nationale de France:
http://catalogue.bnf.fr/ per BN-OPALE PLUS
http://www.bnf.fr/web-bnf/catalog/opaline.htm per BN-OPALINE
(catalogo dei dipartimenti specializzati)
- le basi dati del Ministero della Cultura e della
comunicazione e quelle delle istituzioni connesse:
http://www.culture.gouv.fr/culture/bdd/index.html
- a livello europeo sono in corso di attuazione due progetti
di ricerca:
la base Malvine, che ha per obiettivo lo sviluppo di DTD EAD
(http://www.malvine.org/);
MASTER, che ha per obiettivo lo sviluppo di DTD TEI
(http://www.cordis.lu/ libraries/en/projects/master.html#top)
- lagenzia che cura EAD:
http://www.lcweb.loc.gov/ead/
Informazioni sulle iniziative francesi si possono trovare
allindirizzo: http://www.archivesdefrance.culture.gouv.fr/fr/archivistique/DAFlangage.html
Al riguardo è anche ricco di insegnamenti il lavoro di Fabienne
Queyroux, conservatrice alla Bibliothèque de lInstitut, Linformatisation
des catalogues de manuscrits: rapport à la suite dun
voyage détude dans cinq bibliothèques nord-américaines:
septembre-octobre 1998 (dicembre 1999)
- il gruppo responsabile di TEI (Text Encoding Initiative),
unaltra DTD concepita per la descrizione di documenti:
http://www.uic.edu:80/orgs/tei/
- i diversi formati UNIMARC:
http://www.ifla.org/VI/3/ubcim.htm
|