DjVu

DjVu ( / ˌ d eɪ ʒ ɑ v U / GIORNO -zhah- VOO , come l’inglese ” déjà vu ” [3] ) è un computer di formato di file progettato principalmente per archiviare i documenti acquisiti , in particolare quelli contenenti una combinazione di testo, disegni , immagini a colori indicizzati e fotografie. Utilizza tecnologie come la separazione del livello dell’immagine di testo e sfondo / immagini, caricamento progressivo , codifica aritmetica e compressione con perdita per bitonale ( monocromatico) immagini. Ciò consente di memorizzare immagini di alta qualità e leggibili in un minimo di spazio, in modo che possano essere rese disponibili sul web .

DjVu è stato promosso come alternativa al PDF , promettendo file più piccoli di PDF per la maggior parte dei documenti scansionati. [4] Gli sviluppatori di DjVu riportano che le pagine di riviste a colori si comprimono a 40-70 kB, i documenti tecnici in bianco e nero si comprimono a 15-40 kB e i manoscritti antichi si comprimono a circa 100 kB; un’immagine JPEGsoddisfacente richiede in genere 500 kB. [5] Come PDF, DjVu può contenere un livello di testo OCR , facilitando l’esecuzione di operazioni di copia e incolla e ricerca testo.

I plug-in del browser e i visualizzatori desktop di diversi sviluppatori sono disponibili sul sito Web djvu.org . DjVu è supportato da numerosi visualizzatori di documenti multiformato e software di lettura di e-book su Linux ( Okular , Evince ) e Windows ( SumatraPDF ).

Nonostante i suoi vantaggi, DjVu non è ampiamente supportato dal software di scansione e visualizzazione.

Storia

La tecnologia DjVu è stata originariamente sviluppata [5] da Yann LeCun , Léon Bottou , Patrick Haffner e Paul G. Howard presso AT & T Labs dal 1996 al 2001.

Grazie al rapporto di compressione più alto dichiarato (e quindi alle dimensioni del file più piccole) e alla facilità di conversione di grandi volumi di testo in formato DjVu e in quanto formato di file aperto , è stato considerato superiore a PDF . Il tecnologo indipendente Brewster Kahle in un discorso del 2004 su IT Conversations ha discusso i vantaggi di consentire un accesso più facile ai file DjVu. [6] [7]

La libreria DjVu distribuita come parte del pacchetto open-source DjVuLibre è diventata l’implementazione di riferimento per il formato DjVu. DjVuLibre è stato mantenuto e aggiornato dagli sviluppatori originali di DjVu dal 2002. [8]

Le specifiche del formato di file DjVu hanno subito una serie di revisioni:

Cronologia delle revisioni
Stato di supporto Versione Data di rilascio Gli appunti
non supportato 1-19 [1] 1996-1999 Versioni di sviluppo dei laboratori AT & T che precedono la vendita del formato a LizardTech .
non supportato Versione 20 [1] Aprile 1999 DjVu versione 3. DjVu è cambiato da un formato a pagina singola a un formato a più pagine.
Più vecchio, ancora supportato Versione 21 [1] Settembre 1999 Sostituito il formato di archiviazione indiretto. Il livello di testo ricercabile è stato aggiunto.
Più vecchio, ancora supportato Versione 22 [1] Aprile 2001 Orientamento della pagina, colore JB2
non supportato Versione 23 [1] Luglio 2002 Pezzo CID
non supportato Versione 24 [1] Febbraio 2003 Pezzo LTAnno
Più vecchio, ancora supportato Versione 25 [1] Maggio 2003 Pezzo di NAVM. È stato aggiunto il supporto per i segnalibri DjVu (contorni). Le modifiche apportate dalle versioni 23 e 24 sono state rese obsolete.
attuale Versione 26 [1] Aprile 2005 Annotazioni di testo / linea

Panoramica tecnica

Struttura del file

Il formato file DjVu è basato sul formato file Interchange ed è composto da blocchi organizzati gerarchicamente. La struttura IFF è preceduta da un AT&T numero magico di 4 byte . Di seguito è riportato un singolo FORMblocco con un identificatore secondario di uno DJVUDJVMper una singola pagina o un documento di più pagine, rispettivamente.

Tipi di chunk

Identificatore del chunk Contenuto da Descrizione
MODULO: DJVU MODULO: DJVM Descrive una singola pagina. Può essere alla radice di un documento ed essere un documento a pagina singola o riferito da un DIRMblocco.
MODULO: DJVM N / A Descrive un documento di più pagine. È il pezzo principale del documento.
MODULO: DJVI MODULO: DJVM Contiene dati condivisi da più pagine.
MODULO: THUM MODULO: DJVM Contiene miniature.
INFORMAZIONI MODULO: DJVU Deve essere il primo pezzo. Descrive la larghezza della pagina, l’altezza, la versione del formato, la risoluzione , la gamma e la rotazione.
dirm MODULO: DJVM Deve essere il primo pezzo. Riferimenti altri FORMblocchi. Questi blocchi possono seguire questo blocco all’interno del FORM:DJVMblocco o essere contenuti in file esterni. Questi tipi di documenti sono indicati come raggruppati o indiretti , rispettivamente.
NAVM MODULO: DJVM Se presente, deve seguire immediatamente il DIRMblocco. Contiene un contorno compresso BZZ del documento.

Compressione

DjVu divide una singola immagine in molte immagini diverse, quindi le comprime separatamente. Per creare un file DjVu, l’immagine iniziale viene prima divisa in tre immagini: un’immagine di sfondo, un’immagine in primo piano e un’immagine di maschera. Le immagini di sfondo e in primo piano sono in genere immagini a colori a risoluzione inferiore (ad esempio, 100 dpi); l’immagine della maschera è un’immagine bilevel ad alta risoluzione (ad esempio, 300 dpi) ed è in genere in cui il testo è memorizzato. Le immagini di sfondo e in primo piano vengono quindi compresse utilizzando un algoritmo di compressione basato su wavelet denominato IW44. [5] L’immagine della maschera viene compressa usando un metodo chiamato JB2 (simile a JBIG2). Il metodo di codifica JB2 identifica forme quasi identiche sulla pagina, come ad esempio più occorrenze di un particolare carattere in un dato font, stile e dimensione. Comprime separatamente la bitmap di ogni forma univoca e quindi codifica le posizioni in cui ogni forma viene visualizzata nella pagina. Pertanto, invece di comprimere una lettera “e” in un determinato font più volte, comprime la lettera “e” una volta (come un’immagine bit compressa) e quindi registra ogni posizione sulla pagina che si verifica.

Facoltativamente, queste forme possono essere associate ai codici UTF-8 (a mano o potenzialmente tramite un sistema di riconoscimento del testo ) e memorizzate nel file DjVu. Se questa mappatura esiste, è possibile selezionare e copiare il testo.

Poiché JBIG2 era basato su JB2, entrambi i metodi di compressione presentano gli stessi problemi quando si esegue una compressione con perdita. I numeri possono essere sostituiti con numeri simili (come la sostituzione di 6 con 8) se il testo è stato scansionato a bassa risoluzione prima della compressione con perdita.

Formato licenza

DjVu è un formato di file aperto con brevetti. [4] Vengono pubblicate le specifiche del formato file e il codice sorgente per la libreria di riferimento. [4] Gli autori originali distribuiscono un’implementazione open-source denominata ” DjVuLibre ” sotto la GNU General Public License . I diritti allo sviluppo commerciale del software di codifica sono stati trasferiti a diverse società nel corso degli anni, tra cui AT & T Corporation , LizardTech , Celartem e Cuminas .

Supporto

Nonostante i suoi vantaggi, DjVu non è ampiamente supportato dal software di scansione e visualizzazione. [9] Mentre gli spettatori possono essere scaricati, l’apertura dei file DjVu non è implementata nella maggior parte dei sistemi operativi per impostazione predefinita. [10]

SumatraPDF (Windows), tra gli altri, può manipolare i file DjVu.

Nel 2002, il formato file DjVu è stato scelto da Internet Archive come formato in cui il suo Million Book Project fornisce libri di dominio pubblico digitalizzati online (insieme a TIFF e PDF). [11]

Wikimedia Commons , un archivio multimediale utilizzato da Wikipedia, tra l’altro, consente in modo condizionato file multimediali PDF e DjVu. [12]

Vedi anche

  • JBIG2
  • Confronto dei formati di e-book

Riferimenti

  1. ^ Salta a:i Versione del formato file DjVu , di Jim Rile, pubblicato il: 23 febbraio 2007, 1:08, PlanetDjVu
  2. Salta su^ “Licenza DjVu” . DjVu Sourceforge page . Sourceforge.net. 2011-08-17 . Retrieved 2011-09-21 .
  3. Salta su^ “DjVu.org – il menu principale per risorse djvu” . djvu.org . Estratto il 2017-07-02 .
  4. ^ Salta a:c “Cos’è DjVu – DjVu.org” . DjVu.org . Estratto il 2009-03-05 .
  5. ^ Salta fino a:c Léon Bottou; Patrick Haffner; Paul G. Howard; Patrice Simard; Yoshua Bengio; Yann Le Cun (1998). “Compressione dell’immagine del documento di alta qualità con DjVu, 7 (3): 410-425” (PDF) . Journal of Electronic Imaging.
  6. Salta su^ Brewster Kahle (16 dicembre 2004). “Accesso universale a tutta la conoscenza” (Audio; Discorso a 1h: 31m: 20s) . Rete di conversazioni
  7. Salta su^ “LizardTech per aprire Source A DjVu Java Viewer” . Connessione ECM . 7 dicembre 2004 . Estratto il 18 agosto 2017 .
  8. Salta su^ http://djvu.sourceforge.net/
  9. Salta su^ Manuale per Xerox / Visioneer OneTouch, software di scansione ampiamente utilizzato per uso aziendale e domestico, che mostra il supporto per diversi formati di file, ma non DjVu.
  10. Salta su^ Un file DjVu di prova. Fare clic sull’immagine nella pagina per aprire il file su un computer con supporto per il formato .djvu.
  11. Salta su^ “Formati di file immagine – OLPC” . Wiki.laptop.org . Estratto il 09-09-2009 .
  12. Salta su^ Wikimedia Commons. Scopo del progetto: PDF e DjVu.