Preservare il passato con la tecnologia: i manoscritti di una biblioteca 15/09/2012 ore 09:01

Preservare il passato con la tecnologia: i manoscritti di una biblioteca

Autore: Paolo Corsini Categoria: Scienza e tecnologia
La scansione dei manoscritti della Biblioteca Vaticana apre una riflessione sul ruolo dei formati di salvataggio che siano aperti, a contrasto con quanto è attualmente utilizzato nella maggior parte dei casi ma che non sembra poter essere garanzia per il futuro

Stupisce scoprire che le grandi biblioteche internazionali, la Bilioteca Vaticana al primo posto, sono la seconda tipologia di enti per richiesta di potenza di elaborazione via sistemi di calcolo dopo gli istituti bancari. Del resto basti pensare ai dati contenuti nelle grandi biblioteche mondiali e al quantitativo di ricerche che vengono su questi fatte ogni giorno per poter quantomeno immaginare la mole di dati che sono memorizzati negli archivi di questi istituti.

Durante l'E4 HPC Workshop 2012, tenutosi in questi giorni a Bologna quale evento incentrato sulle tecnologie di calcolo parallelo e sulle loro differenti implementazioni in svariati ambiti, abbiamo raccolto alcuni interessanti dati sulla infrastruttura alla base del sistema di archiviazione e catalogazione della Biblioteca Vaticana, alle problematiche incontrate nel cercare di preservare in formato digitale tutti i contenuti cartacei presenti e nel dimensionare correttamente l'infrastruttura di calcolo necessaria a questo scopo.

La Biblioteca Apostolica Vaticana è dotata di circa 80.000 manoscritti, compresi nel periodo tra il 400 dopo Cristo e il tardo medioevo. Il piano  di conversione in digitale di questi manoscritti, ciascuno indicativamente con 500 pagine in media, stima che i dati raccolti arriveranno ai 45 Petabytes totali, con un peso di 200 Mbytes per ognuna delle pagine convertite in digitale. E' evidente come archiviare dati di questo tipo, sia per tipologia che per quantità, richieda strutture di calcolo e di storage molto elevate.

Nella Biblioteca Apostolica Vaticana viene utilizzato, per l'archiviazione delle immagini dei documenti, il formato F.I.T.S. (Flexible Image Transport System), sviluppato originariamente dalla NASA negli anni '70 per la conservazione delle immagini lunari. Una scelta di questo tipo è dettata dalla necessità di mantenere nel corso del tempo i dati conservati in modo tale che siano accessibili anche dopo svariati anni.

bv.jpg (155045 bytes)

Pensando alla scansione di documenti si può portare a ritenere che i vari standard attualmente presenti sul mercato possano essere più che adatti. L'utilizzo dello standard TIFF, quello più adottato nelle scansioni tradizionali, non è di certo la scelta ideale in quanto si tratta di un formato proprietario di Adobe e con alcune limitazioni in termini di dimensione massima delle immagini e della precisione. L'utilizzo di TIFF è attualmente gratuito ma in teoria non è detto che nei prossimi anni Adobe non possa scegliere di richiedere una anche seppur piccola royalty per il suo utilizzo: considerando la mole di documenti scansionati le ripercussioni economiche sarebbero ben gravi.

Da questo la scelta del formato F.I.T.S., presente sul mercato da lungo tempo e soprattutto soggetto ad un processo di revisione e aggiornamento costante nel corso degli anni. Trattandosi di uno standard aperto nato per esigenze dell'industria aerospaziale la Biblioteca Vaticana ritiene che questa scelta permetterà di avere compatibilità futura anche tra molti anni a venire, senza per questo trascurare i vantaggi qualitativi e di dettaglio delle informazioni messi a disposizione da F.I.T.S. rispetto al formato TIFF.

Un'analisi di questo tipo, partita dalla esigenza di preservare documenti cartacei e quindi quella che è la nostra storia del passato, passa velocemente a considerazioni di monopolio sugli standard per la scansione di immagini e sui formati finali con i quali i dati vengono archiviati. Considerazioni simili possono essere fatte per i documenti cartacei: la propensione attuale ad utilizzare il pdf come standard anche da un punto di vista legale si scontra con il dato di fatto che questo sia un formato estremamente diffuso, ma proprietario di una singola azienda: sempre l'americana Adobe.

Commenti (11) 

Gli autori dei commenti, e non la redazione, sono responsabili dei contenuti da loro inseriti - Info
Per contattare l'autore del pezzo, così da avere una risposta rapida, si prega di utilizzare l'email personale (vedere in alto sotto il titolo). Non è detto che una domanda diretta inserita nei commenti venga verificata in tempi rapidi. In alternativa contattare la redazione a questo indirizzo email.
Commento # 1 di: Chelidon pubblicato il 15 Settembre 2012, 10:53
Non conoscevo questo formato, immagino sarà molto particolare e offrirà certe garanzie, ma senza arrivare al PDF o al TIFF c'è da parecchio tempo un formato molto più intelligente come strategia di compressione (divide lo sfondo dal testo e permette di arrivare a qualche decina di kb per pagina con la stessa qualità del PDF) che è il DJVU.

Per i libri o le riviste scansionate è molto più adatto, soprattutto se c'è molto testo rispetto alle immagini, del PDF che peserebbero assurdamente per non dare niente di più (non parliamo del TIFF). Forse è un po' meno conosciuto, ma è molto più adeguato. C'è da dire che il PDF deve molto del suo successo al fatto che è nato per i file generati elettronicamente da stampare su più piattaforme e poi è stato molto spinto da Adobe per favorire i suoi prodotti a pagamento di modifica come altri loro formati pubblici che usano come "testa di ponte" per vendere i loro prodotti.
Commento # 2 di: total9999 pubblicato il 15 Settembre 2012, 13:17
Originariamente inviato da: Chelidon
Non conoscevo questo formato, immagino sarà molto particolare e offrirà certe garanzie, ma senza arrivare al PDF o al TIFF c'è da parecchio tempo un formato molto più intelligente come strategia di compressione (divide lo sfondo dal testo e permette di arrivare a qualche decina di kb per pagina con la stessa qualità del PDF) che è il DJVU.

Per i libri o le riviste scansionate è molto più adatto, soprattutto se c'è molto testo rispetto alle immagini, del PDF che peserebbero assurdamente per non dare niente di più (non parliamo del TIFF). Forse è un po' meno conosciuto, ma è molto più adeguato. C'è da dire che il PDF deve molto del suo successo al fatto che è nato per i file generati elettronicamente da stampare su più piattaforme e poi è stato molto spinto da Adobe per favorire i suoi prodotti a pagamento di modifica come altri loro formati pubblici che usano come "testa di ponte" per vendere i loro prodotti.

Io invece non avevo mai sentito parlare di questo DJVU, sembra interessante e utile.
Commento # 3 di: Chelidon pubblicato il 15 Settembre 2012, 13:32
Molto utile il fatto che ci siano i programmi per produrre da sé i DJVU a partire dalle scansioni fra l'altro..

Forse è poco conosciuto effettivamente al pubblico ampio, ma se si cercano vecchie scansioni è di solito abbastanza facile trovarlo.. (e tra l'altro è supportato da tutti i visualizzatori/impaginatori almeno quelli liberi su linux, ovvio non da Acrobat :asd
Però è un peccato che non sia molto comune nelle pagine web visto che lì avrebbe la superiorità eccezionale rispetto al PDF di accelerare di molto la consultazione di pagine e lo scambio dei dati...
Commento # 4 di: Rubberick pubblicato il 15 Settembre 2012, 16:03
si ma il DjVu è lossy? in tal caso certamente non è paragonabile ai formati lossless
Commento # 5 di: Chelidon pubblicato il 15 Settembre 2012, 20:51
Quali formati il TIFF? Ovvio che DJVU è lossy, non potrebbe essere così fruibile altrimenti (una pagina poche decine di kb) ma è fatto in modo che il layer del testo (o delle figure) è compresso diversamente dallo sfondo, che non contiene solitamente informazioni importanti, ma solo polvere e difetti delle pagine che possono perdersi e non necessitano di una compressione di qualità.

Nel caso di scansioni comunque anche il PDF è lossy (in genere sono praticamente JPEG incorporati come pagine), infatti resta migliore per documenti prodotti elettronicamente (cioè come testo+font), mentre è nel caso delle scansioni che è molto superiore la qualità di un DJVU e soprattutto il peso irrisorio.

Se devi archiviare una gran mole di dati come le immagini di un testo scansito, comunque non ti conviene certo farlo in TIFF per quanto non sia lossy, comunque oltre un certo dettaglio non ha più senso registrare informazioni inutili che aumentano solo la dimensione dei file in maniera spropositata.
Commento # 6 di: eeetc pubblicato il 16 Settembre 2012, 15:28
Originariamente inviato da: Chelidon
Non conoscevo questo formato, immagino sarà molto particolare e offrirà certe garanzie, ma senza arrivare al PDF o al TIFF c'è da parecchio tempo un formato molto più intelligente come strategia di compressione (divide lo sfondo dal testo e permette di arrivare a qualche decina di kb per pagina con la stessa qualità del PDF) che è il DJVU.

Da quanto ho letto esiste un'implementazione libera di DjVU su Sourceforge, ma nasce ed esiste anche come software commerciale, e non essendo forse chiaro se in futuro possono nascere conflitti tra le porzioni free e quelle closed, agli occhi dei legali del Vaticano ha fatto la differenza indirizzandosi verso FITS, che nascendo in ambito governativo USA in quanto tale è sicuramente libero da copyright e royalty.
Commento # 7 di: Elettrocinghia pubblicato il 17 Settembre 2012, 10:12
Le scansioni di questo tipo non possono essere lossy, perchè lo sfondo è tutt'altro che povero di informazioni: la maggior parte dei manoscritti sono miniati e ricchissimi di informazioni: sono dei veri e propri capolavori e l'Italia è da sempre maestra in queste cose.
Tale ricchezza di dettagli non può venire compressa con perdita di qualità, anche perchè questa conservazione in forma elettronica deve essere in grado di riprodurre fedelmente l'originale in caso di deterioramento di quest'ultimo.
Commento # 8 di: Gannjunior pubblicato il 17 Settembre 2012, 18:17
Ho cercato info sul FITS

http://fits.gsfc.nasa.gov/fits_standard.html

ma mi pare che non sia aggiornato da parecchio tempo ormai...
Commento # 9 di: Chelidon pubblicato il 17 Settembre 2012, 22:45
La qualità alta la puoi ottenere anche con la compressione del DJVU usando probabilmente dei profili diversi, certo è nato per rendere fruibili testi scansiti più che per l'archiviazione a lungo termine.

In questo secondo caso, penso che la scelta del formato dipenda anche molto dalla "stabilità" nel futuro. Nel senso che se archivi qualcosa oggi devi essere certo di poterla aprire anche tra 50 anni (e non è cosa banale i formati cambiano ed evolvono e uno non può riconvertire ogni volta da capo), probabilmente sotto questo aspetto un formato usato dalla NASA dà ovviamente più garanzie.

Originariamente inviato da: eeetc
Da quanto ho letto esiste un'implementazione libera di DjVU su Sourceforge, ma nasce ed esiste anche come software commerciale
Non è che esiste da quanto hai letto, esistono e funzionano sia per leggere che per esportare nel formato soluzioni open-source, così come esistono anche i programmi commerciali che ovviamente permettono più funzioni e possibilità d'azione. Ciò non toglie che questo c'entra poco col fatto che il formato sia aperto e quindi quando hai il tuo file non devi più rendere conto a nessuno.
Commento # 10 di: eeetc pubblicato il 18 Settembre 2012, 21:06
Originariamente inviato da: Chelidon
Non è che esiste da quanto hai letto, esistono e funzionano sia per leggere che per esportare nel formato soluzioni open-source, così come esistono anche i programmi commerciali che ovviamente permettono più funzioni e possibilità d'azione. Ciò non toglie che questo c'entra poco col fatto che il formato sia aperto e quindi quando hai il tuo file non devi più rendere conto a nessuno.

Non è così semplice e lineare, leggendo la versione inglese della pagina su Wikipedia si capisce meglio: esiste l'implementazione free, ma sul codice originale ci sono copyright, una situazione simile a quella dell'MP3.
Il codice originale ha dei copyright, ma esiste l'implementazione libera di LAME.
Sinceramente pensando anche a esempi passati su queste questioni direi che hanno fatto benissimo ad andare con i piedi di piombo e scegliere un formato sul quale sicuramente non sorgeranno dispute, patent trolling o reclami vari...
Totale commenti: 11 « Pagina Precedente | Pag 1 di 2 | Pagina Successiva »

Lascia il tuo commento

Windows Server 2012

Notizie

24.05.2013

Nel 2018 una persona su due sarà coperta da connettività LTE

Secondo ABI Research nel giro di 5 anni la connettività 4G/LTE si diffonderà al punto da coprire il 50% della popolazione

24.05.2013

Olympus abbandona il mercato delle compatte di fascia bassa?

Olympus ha dichiarato al Wall Street Journal di voler abbandonare la gamma di compatte entry level V per concentrarsi sui segmenti superiori

23.05.2013

Intel, le prime disposizioni del nuovo CEO Brian Krzanich

A pochi giorni dall'insediamento, il nuovo CEO di Intel dispone una riogranizzazione interna e istituisce la nuova divisione New Devices Group

23.05.2013

Samsung SM843T, ampliamento di gamma per la serie SSD enterprise

Un aggiornamento di gamma per gli SSD Samsung enterprise SM843T porta il taglio a ben 960GB, offrendosi così a una clientela sempre più alla ricerca di...

23.05.2013

Intel, più ricerca e più varia oltre i 10 nanometri

Il futuro oltre i 10 nanometri è nebuloso: Intel avverte che è necessario differenziare la ricerca, per poter portare avanti parallelamente più strade...

22.05.2013

Places2Be, progetto europeo per il supporto a FDSOI

Un fondo di 360 milioni di euro per supportare lo sviluppo delle tecnologie di processo FDSOI. 19 le realtà coinvolte, tra cui STMicroelectronics, Globalfoundries...

22.05.2013

Sony valuta lo spin-off della divisione entertainment

L'azienda giapponese potrebbe decidere di cedere la divisione che comprende Sony Pictures e Sony Music Entertainment per recuperare risorse da incanalare...

22.05.2013

IBM Watson, presto utilizzata da terzi per i servizi ai clienti

La tecnologia Watson, sviluppata da IBM e capace di comprendere e rispondere a domande poste in linguaggio naturale, verrà impiegata per supportare i servizi...

22.05.2013

Microdroni con sistemi visivi ispirati all'occhio composto degli insetti

Ancora una volta la tecnologia si ispira al mondo della natura: due progetti di ricerca distinti stanno portando avanti la realizzazione di sistemi visivi...

21.05.2013

Elusione fiscale, Apple si prepara a testimoniare al Senato USA

La Mela è pronta a comparire dinnanzi al Senato USA per chiarire la propria posizione. Apple si autodefinisce il maggior contribuente USA per redditi d'impresa,...

21.05.2013

Cloud in azienda: il 66% dei dipendenti lo usa senza autorizzazione

Una ricerca VMware mette in luce come i servizi cloud siano richiesti dai dipendenti dell'azienda a tal punto da spingerli ad aggirare i dettami del dipartimento...

20.05.2013

STM, memorie a cambiamento di fase per i microcontroller

ST Microelectronics annuncia la volontà di sostituire le memorie NOR flash nei microcontroller embedded, utilizzando le nuove memorie a cambiamento di...

20.05.2013

Lotus XT Glass, nuovo substrato da Corning per pannelli ad alte prestazioni

Corning, azienda nota per la produzione di substrati per display tra cui il celebre Gorilla Glass, annuncia il nuovo vetro Lotus XT Glass per pannelli...

20.05.2013

Vendite di ICT in Italia in calo del 3,4% nei primi 3 mesi dell'anno

Nei primi 3 mesi dell'anno le vendite nel settore dell'ICT in Italia hanno registrato un calo del 3,4%, risultato allineato a quello di 1 anno fa. Crisi...