15/09/2012 ore 09:01
Preservare il passato con la tecnologia: i manoscritti di una biblioteca
Stupisce scoprire che le grandi biblioteche internazionali, la Bilioteca Vaticana al primo posto, sono la seconda tipologia di enti per richiesta di potenza di elaborazione via sistemi di calcolo dopo gli istituti bancari. Del resto basti pensare ai dati contenuti nelle grandi biblioteche mondiali e al quantitativo di ricerche che vengono su questi fatte ogni giorno per poter quantomeno immaginare la mole di dati che sono memorizzati negli archivi di questi istituti.
Durante l'E4 HPC Workshop 2012, tenutosi in questi giorni a Bologna quale evento incentrato sulle tecnologie di calcolo parallelo e sulle loro differenti implementazioni in svariati ambiti, abbiamo raccolto alcuni interessanti dati sulla infrastruttura alla base del sistema di archiviazione e catalogazione della Biblioteca Vaticana, alle problematiche incontrate nel cercare di preservare in formato digitale tutti i contenuti cartacei presenti e nel dimensionare correttamente l'infrastruttura di calcolo necessaria a questo scopo.
La Biblioteca Apostolica Vaticana è dotata di circa 80.000 manoscritti, compresi nel periodo tra il 400 dopo Cristo e il tardo medioevo. Il piano di conversione in digitale di questi manoscritti, ciascuno indicativamente con 500 pagine in media, stima che i dati raccolti arriveranno ai 45 Petabytes totali, con un peso di 200 Mbytes per ognuna delle pagine convertite in digitale. E' evidente come archiviare dati di questo tipo, sia per tipologia che per quantità, richieda strutture di calcolo e di storage molto elevate.
Nella Biblioteca Apostolica Vaticana viene utilizzato, per l'archiviazione delle immagini dei documenti, il formato F.I.T.S. (Flexible Image Transport System), sviluppato originariamente dalla NASA negli anni '70 per la conservazione delle immagini lunari. Una scelta di questo tipo è dettata dalla necessità di mantenere nel corso del tempo i dati conservati in modo tale che siano accessibili anche dopo svariati anni.

Pensando alla scansione di documenti si può portare a ritenere che i vari standard attualmente presenti sul mercato possano essere più che adatti. L'utilizzo dello standard TIFF, quello più adottato nelle scansioni tradizionali, non è di certo la scelta ideale in quanto si tratta di un formato proprietario di Adobe e con alcune limitazioni in termini di dimensione massima delle immagini e della precisione. L'utilizzo di TIFF è attualmente gratuito ma in teoria non è detto che nei prossimi anni Adobe non possa scegliere di richiedere una anche seppur piccola royalty per il suo utilizzo: considerando la mole di documenti scansionati le ripercussioni economiche sarebbero ben gravi.
Da questo la scelta del formato F.I.T.S., presente sul mercato da lungo tempo e soprattutto soggetto ad un processo di revisione e aggiornamento costante nel corso degli anni. Trattandosi di uno standard aperto nato per esigenze dell'industria aerospaziale la Biblioteca Vaticana ritiene che questa scelta permetterà di avere compatibilità futura anche tra molti anni a venire, senza per questo trascurare i vantaggi qualitativi e di dettaglio delle informazioni messi a disposizione da F.I.T.S. rispetto al formato TIFF.
Un'analisi di questo tipo, partita dalla esigenza di preservare documenti cartacei e quindi quella che è la nostra storia del passato, passa velocemente a considerazioni di monopolio sugli standard per la scansione di immagini e sui formati finali con i quali i dati vengono archiviati. Considerazioni simili possono essere fatte per i documenti cartacei: la propensione attuale ad utilizzare il pdf come standard anche da un punto di vista legale si scontra con il dato di fatto che questo sia un formato estremamente diffuso, ma proprietario di una singola azienda: sempre l'americana Adobe.








