La formalizzazione dell`informazione

Transcript La formalizzazione dell`informazione

La formalizzazione dell’informazione

Il concetto di Informazione e come descrivere le informazioni ad un esecutore automatico

L’informatica è la scienza che studia l’informazione, o più precisamente è la scienza della rappresentazione e dell’elaborazione (e archiviazione e trasmissione a distanza) delle informazioni . Da questa definizione, e da altre simili, emerge l’impor tanza del concetto di informazione e delle modalità con cui essa viene rappresentata, per poi essere elaborata, nel sistema di elaborazione.

Per capire la rivoluzione in atto nel mondo dei media, e per rendersi conto delle ragioni che hanno reso il computer lo strumento per eccellenza nella gestio ne di informazione di ogni genere, occorre innanzitutto comprendere un concetto fondamentale: quello di informazione in formato digitale .

Si tratta sicuramente di uno dei concetti-chiave del nostro tempo (non a caso si parla spesso di digital revolution , rivoluzione digitale, e di digital culture , cultura digitale). Eppure molto spesso l’idea che se ne ha è estremamente vaga: l’infor mazione in formato digitale è quella che può essere manipolata da un computer.

Al più - magari ricordando che gli orologi digitali sono quelli nei quali l’ora viene direttamente indicata attraverso numeri anziché attraverso la posizione delle lan cette sul quadrante - ci si spinge a collegare il concetto di digitale al termine inglese digit (cifra o numero), compiendo il passo ulteriore di identificare l’informazione in formato digitale con l’informazione in formato numerico.

Ma perché la traduzione dell’informazione in formato numerico è tanto importan te? Come avviene questa conversione? E, innanzitutto, cos’è questa informazione che vogliamo convertire in formato digitale?

La risposta a questi interrogativi non richiede affatto, come si potrebbe pensare, competenze tecniche o specialistiche. Al contrario, i concetti di base del mondo del digitale sono assolutamente elementari, alla portata di tutti. E se si vuole capire la portata della rivoluzione che stiamo vivendo (e quella che abbiamo vissuto), è bene cominciare proprio da qui.

informatica informazione digitale

Introduzione al concetto di informazione

Partiamo dunque dal concetto di utilizzare il termine informazione in un senso molto generale: facciamo così, ad esempio, quando parliamo di informazione giornalistica o radiotelevisiva, o quando chiediamo una informazione informazione a qualcuno.

. Normalmente, tendiamo ad In generale un’informazione ha valore in quanto potenzialmente utile al fruitore per i suoi molteplici scopi: nell’informazione infatti è spesso contenuta conoscen za o esperienza di fatti reali vissuti da altri soggetti e che possono risultare utili 1

2 La formalizzazione dell’informazione senza dover necessariamente attendere di sperimentare ognuno ogni determinata situazione.

Col progredire delle conoscenze umane il concetto di informazione si è evoluto divenendo via via più vasto e differenziato: informazione è in generale qualunque notizia o racconto, inoltre qualunque comunicazione scritta o orale contiene infor mazione. I dati in un archivio sono informazioni, ma anche la configurazione degli atomi di un gas può venire considerata informazione. L’informazione può essere quindi misurata come le altre entità fisiche ed è sempre esistita, anche se la sua importanza è stata riconosciuta solo nel XX secolo.

Sarebbe difficile definire in maniera rigorosa questo concetto generico di infor mazione. A ben guardare, vi si confondono diversi significati: l’azione di comunicare una notizia, il contenuto della comunicazione (che a sua volta potrebbe essere di stinto nel suo aspetto materiale - ad esempio una successione di caratteri - e nel suo aspetto significativo), le caratteristiche del mezzo di comunicazione usato.

È possibile, tuttavia, provare a definire un concetto specifico di informazione, e vedere poi se, e in che misura, il concetto così definito può essere usato, almeno in alcuni casi, anche per capire di cosa parliamo quando parliamo di informazione in senso più generale.

Consideriamo allora una situazione molto semplice (e probabilmente molto fre quente): è estate, fa caldo, stiamo tornando a casa dopo una giornata faticosa, e non vediamo l’ora di infilarci sotto la doccia. Nell’aprire la porta di casa, tuttavia, un dubbio ci assale: siamo sicuri di aver lasciato lo scaldabagno acceso? Nonostante il caldo, la prospettiva di una doccia ghiacciata non ci attrae particolarmente: e se lo scaldabagno è spento, dovremo aspettare almeno un’ora per avere l’acqua a una temperatura accettabile. Ci affrettiamo a controllare: naturalmente, lo scaldabagno è spento.

Riflettiamo un secondo sulla situazione appena considerata. Nel momento di entrare in casa, ci manca una informazione: l’informazione relativa allo stato dello scaldabagno. Sappiamo che lo scaldabagno può trovarsi in uno fra due stati possibili: acceso, o spento. Ma non sappiamo (è questa l’informazione che ci manca) in quale stato esso si trovi effettivamente.

Una situazione di questo genere ci presenta una scelta fra due alternative (detta spesso scelta binaria). Per controllare lo stato dello scaldabagno, daremo probabil mente un’occhiata alla posizione del suo interruttore: sappiamo infatti che quando l’interruttore è premuto verso l’alto lo scaldabagno è acceso, e quando è premuto verso il basso lo scaldabagno è spento. L’interruttore, oltre ad avere la funzione (se lo premiamo) di cambiare lo stato dello scaldabagno, ha anche la funzione di rappre sentare lo stato in cui lo scaldabagno si trova in un determinato momento. Proprio per questo, uno sguardo all’interruttore ci fornisce l’informazione che ci mancava.

Al posto dell’interruttore, potremmo in questo caso usare una lampadina accesa o spenta - potremmo in realtà usare qualunque tipo di rappresentazione che ci metta a disposizione due simboli: uno per lo stato acceso , e uno per lo stato spento .

1 Potremmo anche usare dei numeri? Certamente: lo scaldabagno potrebbe ad esempio essere dotato di un piccolo display, una finestrella in cui compare il numero se lo scaldabagno è acceso, e il numero 0 se è spento.

La formalizzazione dell’informazione 3 Ebbene, quell’1 e quello 0 sono già una forma di codifica numerica (digita le) di una informazione. Ma questa relativa allo scaldabagno era un’informazione semplicissima, c’erano solo due alternative a disposizione.

Prima di prendere in considerazione situazioni più complicate, tuttavia, riflet tiamo un momento su questo esempio. Proprio perché semplicissimo, potrà forse aiutarci a capire qualcosa di più sul concetto di informazione.

Innanzitutto, nel caso che abbiamo descritto l’informazione che ci interessava era collegata a una scelta fra più alternative (nel caso specifico, fra due alternative).

Non sarà forse possibile estendere questa idea anche ad informazioni di altro tipo?

Ci serve il numero di telefono di un’amica. L’amica abita a Roma, quindi sap piamo che le prime cifre saranno 06. Ma ci mancano le altre. Probabilmente, basandoci sulla normale lunghezza dei numeri telefonici di Roma, ci mancano 7 o 8 cifre. Potremmo provare a comporre, una dopo l’altra, tutte le possibili combi nazioni, fino ad arrivare a quella giusta? In teoria sì, in pratica però non lo faremo mai: le combinazioni possibili sono moltissime, provarle tutte sarebbe troppo lungo (e troppo costoso!). Anche in questo caso, l’informazione che ci serve corrisponde alla scelta fra diverse alternative: solo che le alternative possibili sono molte di più.

Supponiamo adesso di considerare un’informazione di tipo un po’ diverso: stiamo risolvendo uno schema di parole crociate, e troviamo fra le definizioni l’autore di Ossi di seppia . Questa volta, dunque, abbiamo a che fare con un nome. Guardando lo schema, vediamo che deve essere lungo sette lettere. C’entra ancora la nostra idea di scelta fra diverse possibili alternative? A ben guardare, sì: in ognuna delle sette caselline dello schema corrispondenti alla nostra definizione dovrà andare una lettera dell’alfabeto. Tutto sta nello scegliere le lettere giuste. Anche qui, dal punto di vista puramente combinatorio le alternative possibili sono numerosissime, da ’Aaaaaaa’ a ’Zzzzzzz’ (due nomi piuttosto improbabili). E anche qui l’informazione che ci interessa - il nome Montale - corrisponde alla scelta di una fra tali alternative.

Se nello schema di parole crociate alcune caselle della definizione che ci interessa (ad esempio la ’M’ iniziale e la ’È finale) sono già riempite, le alternative a nostra disposizione diminuiscono, e diventa più facile individuare la parola cercata.

Sulla base di questi esempi, possiamo dire che, almeno in alcuni casi, tipi diversi di informazione hanno a che fare con un meccanismo di base simile: una situazione di scelta fra più alternative in informazione numerica.

. Più numerose saranno le alternative a nostra disposizione, maggiore sarà il contenuto informativo della nostra scelta.

Ma non sappiamo ancora se, e come, questo meccanismo possa operare nel caso di informazioni che non siano numeriche o testuali - ad esempio nel caso di informazioni visive o sonore. Inoltre, non sappiamo ancora se, e come, una informazione di tipo testuale (ad esempio il nome Montale) possa essere trasformata contenuto informativo

Rappresentazione dell’informazione

L’informazione in genere è rappresentata da dati, accompagnati dal significato che ad essi attribuiamo. I termini dati e informazione vengono spesso usati come sinonimi ma tra essi esiste una sottile differenze che deve comunque essere chiarita: dati e informazione

4 La formalizzazione dell’informazione codifica binaria bit di informazione numeri binari supporto fisico una informazione è qualcosa che permette di accrescere la conoscenza su un qualche fatto, oggetto o più in generale su una qualche entità anche astratta; un dato è la parte costitutiva di una informazione ma da solo non permette di accrescere la conoscenza di alcunché. a meno che non si sia a conoscenza del suo significato.

L’informazione relativa allo stato dello scaldabagno, abbiamo visto, può essere immediatamente rappresentata attraverso un dato numerico: un 1 può indicare lo scaldabagno acceso, uno 0 lo scaldabagno spento. La rappresentazione attraverso 0 e 1 (attraverso cioè un sistema di codifica binaria, che utilizzi due sole cifre) ha un importante vantaggio: i dati binari sono facilmente rappresentabili (e manipolabili) all’interno di un computer. Possiamo così pensare a un computer che, ad esempio, controlli lo stato del nostro scaldabagno, rappresentandolo attraverso una celletta di memoria: la celletta conterrà un 1 se lo scaldabagno è acceso, e uno 0 se è spento.

Questa celletta corrisponde a un bit di informazione.

Incontriamo così uno dei termini-chiave dell’universo digitale, il termine bit. Un bit, infatti, non è altro che la quantità di informazione fornita dalla scelta fra due alternative diverse, considerate come egualmente probabili.

In effetti, l’uso in campo informatico del termine digitale non si riferisce di norma solo al fatto che l’informazione è rappresentata in forma numerica, ma al fatto che è rappresentata in forma numerica sulla base di una codifica binaria, e dunque attraverso bit (il termine bit corrisponde alla contrazione dell’inglese binary digit , numero binario).

Rappresentare in forma binaria una qualsiasi informazione numerica (come il numero di telefono del nostro secondo esempio) è compito relativamente facile. È vero che in genere siamo abituati a utilizzare un sistema di numerazione decimale (i numeri sono costruiti utilizzando le dieci cifre 0,1,2,3,4,5,6,7,8,9). Sappiamo però che ogni numero decimale può essere trasformato in un numero binario (costruito usando solo lo ’0’ e l”1’). Come?

Ebbene, lo 0 e l’1 resteranno uguali, ma il 2 sarà rappresentato dalla combina zione 10, il 3 da 11, il 4 da 100, il 5 da 101, il 6 da 110, il 7 da 111, l8 da 1000 e così via: la nostra rappresentazione dei numeri superiori a 2 sarà cioè ottenuta combinando fra loro (in maniera ordinata) un numero via via maggiore di 0 e di 1, proprio come nel nostro familiare sistema decimale i numeri superiori al 9 vengono costruiti combinando fra loro (in maniera ordinata) le dieci cifre che abbiamo a disposizione.

L’informazione richiede un supporto fisico per essere rappresentata, trasmessa, archiviata; essa però non coincide con il supporto, non è un’entità fisica ma logica e si può creare e distruggere (contrariamente al supporto fisico che è soggetto al ben noto principio di conservazione della materia-energia).

Il supporto fisico deve poter assumere configurazioni diverse per essere in grado di rappresentare informazioni; se infatti la configurazione fosse sempre la stessa, non avremmo alcuna informazione dalla sua osservazione.

In termini più formali possiamo dire che: tanto minore è la probabilità che si presenti una configurazione, tanto maggiore è l’informazione che essa porta (quindi una configurazione certa, cioè con probabilità 1, non porta alcuna informazione).

Il concetto può essere espresso anche con una formula che permette di ottenere la misura dell’informazione veicolata da un supporto o da un messaggio che prevede

La formalizzazione dell’informazione 5 N diverse configurazioni equiprobabili con probabilità P = 1 /N (Shannon 1948): I = log 2 !

1 P " = log 2 !

1 1 /N " = log 2 ( N ) La formula conferma che se la probabilità della configurazione è 1 la quantità di informazione è nulla.

Nel caso del sistema di elaborazione le informazioni sono memorizzate su supporti in grado di assumere due configurazioni con probabilità 1/2 ciascuna; in questo caso quindi l’unità di misura dell’informazione è: I = log 2 (2) = 1 Se consideriamo il sistema di numerazione decimale possiamo calcolare la quantità di informazione di ogni cifra (che ha probabilità 1/10): I = log 2 (10) = 3 , 32 e concludere quindi che per rappresentare una cifra decimale occorre un numero di bit pari a 4 (intero superiore a 3 .

32 ). Analogamente possiamo anche affermare che per rappresentare un giorno della settimana (tra i possibili 7 giorni) abbiamo bisogno di 3 bit, dato che 3 è il numero intero più piccolo il cui valore è superiore a log 2 (7) .

Conversione numerica Nel nostro sistema di numerazione naturale, quello decimale, un numero è formato da una sequenza di simboli numerici scelti tra 10 possibili valori (da 0 a 9).

Se guardiamo un numero decimale, come 451287 , la cifra in posizione n (partendo da destra) si considera moltiplicata per 10 ( n − 1) . Quindi il valore della sequenza 451287 in base 10 è 4 × 10 5 + 5 × 10 4 + 1 × 10 3 + 2 × 10 2 + 8 × 10 1 + 7 × 10 0 = 451287 10 dove il pedice 10 indica che il numero è interpretato in base 10 .

Il sistema numerico binario è un sistema numerico posizionale in base 2 , cioè che utilizza 2 simboli, tipicamente 0 e 1, invece dei 10 del sistema numerico decimale tradizionale. Di conseguenza, la cifra in posizione n (da destra) si considera mol tiplicata per 2 ( n − 1) anziché per 10 ( n − 1) come avviene nella numerazione decimale.

La sequenza di simboli 1011001 2 viene interpretata come 1 × 2 6 + 0 × 2 5 + 1 × 2 4 + 1 × 2 3 + 0 × 2 2 + 0 × 2 1 + 1 × 2 0 = 89 10 Si noti come sia possibile interpretare una sequenza numerica come un numero in una generica base b , a patto che tutti i numeri contenuti all’interno della sequenza numerica abbiano dei valori compresi tra 0 e b − 1 . Ad esempio la sequenza 1101 può essere interpretata con un numero in base 2 : 1101 2 = 1 × 2 3 + 1 × 2 2 + 0 × 2 1 + 1 × 2 0 = 13 10 sistema decimale sistema binario

6 La formalizzazione dell’informazione ma potrebbe essere interpretata come un numero in base 3 nel seguente modo 1101 3 = 1 × 3 3 + 1 × 3 2 + 0 × 3 1 + 1 × 3 0 = 37 10 La conversione inversa, da un numero in base naria, può essere effettuata facilmente utilizzando un semplice algoritmo di conver sione. In particolare si effettuano ripetute divisioni del valore per razione non è 0 costituisce la rappresentazione binaria del numero originale.

Ad esempio per convertire il numero 89 10 10 alla sua rappresentazione bi 2 e si calcolano i resti di tale divisione. Si continua con tali divisioni fino a che il risultato dell’ope . La sequenza dei resti di tali divisioni (etti da destra verso sinistra) in binario si procede come mostrato di seguito: 89 / 2 = 44 con resto 1 44 / 2 = 22 22 / 2 = 11 con resto con resto 0 0 11 / 2 = 5 5 / 2 = 2 2 / 2 1 / 2 = 1 = 0 con resto con resto con resto con resto 1 1 0 1 Per cui la rappresentazione binaria di 89 10 è 1011001 2 .

analogico e digitale

Digitalizzazione dell’informazione

In linea generale, la differenza fra analogico e digitale corrisponde alla differenza fra una rappresentazione continua e una rappresentazione discreta di determinate grandezze; una rappresentazione continua o analogica è ad esempio quella fornita da una lancetta che si sposta sul quadrante di uno strumento, una rappresentazione digitale avviene tipicamente attraverso numeri.

Così, un termometro analogico mostra la temperatura attraverso l’altezza del la colonnina di mercurio, e quest’altezza varia in modo continuo col variare della temperatura; un termometro digitale mostra invece la temperatura attraverso dei numeri su uno schermo, e la temperatura indicata varia in modo discontinuo (se il termometro ha, ad esempio, la precisione di una cifra decimale, potrà mostrare la differenza fra 37,5 e 37,6 gradi, ma non le temperature intermedie: la cifra sullo schermo ’scatta’ da 37,5 a 37,6 senza poterle rappresentare). Analogamente, un orologio analogico mostra l’ora attraverso la posizione delle sue lancette, mentre un orologio digitale mostra l’ora attraverso numeri, e una bilancia analogica mostra il peso attraverso il movimento dell’ago sul quadrante, mentre una bilancia digitale mostra il peso attraverso numeri.

A prima vista, una rappresentazione analogica sembra rispondere meglio alla natura continua della maggior parte dei fenomeni che vogliamo misurare; d’altro canto, la nostra capacità di discriminare fra rappresentazioni analogiche di valori molto vicini attraverso l’uso di strumentazioni meccaniche convenzionali è in genere minore di quella offerta da uno strumento digitale sufficientemente preciso, e la costruzione di apparecchiature meccaniche in grado di rendere leggibile in maniera analogica la differenza fra valori molto vicini è spesso assai complessa.

La formalizzazione dell’informazione 7 La progressiva sostituzione di strumentazioni elettroniche - che privilegiano la rappresentazione digitale - alle strumentazioni meccaniche, ha permesso quindi in molti casi un progresso nella precisione della misurazione; lo sviluppo del computer, nato per lavorare su informazione in formato digitale, ha ulteriormente favorito il pro cesso di traduzione in termini digitali di grandezze e fenomeni che tradizionalmente non erano rappresentati attraverso numeri.

La digitalizzazione è il processo di conversione, che applicato alla misurazione di un fenomeno fisico ne determina il passaggio dal campo dei valori continui a quello dei valori discreti, viene oggi comunemente sintetizzata nei termini di un passaggio dall’analogico al digitale.

La misurazione della temperatura tramite un termometro o la rappresentazio ne di un suono tramite il tracciamento di onde sono esempi di grandezze di tipo analogico, in quanto i valori che possono essere assunti sono infiniti.

Quanto la misura o la grandezza viene rapportata a dei valori medi o comunque predeterminati, e quindi lo spettro dei possibili valori non è più infinito, si è operata una conversione della grandezza dal campo del analogico-continuo a quello del digitale-discreto; in altre parole si è digitalizzato (dall’inglese digit-cifra) la misura.

In effetti l’operazione comporta una perdita di informazioni, che però in alcuni casi è accettabile in quanto si guadagna in semplicità di rappresentazione o in altri non è comunque percepita.

Quando si misura una grandezza, l’insieme di valori che essa può assumere in natura è un insieme continuo e composto da infiniti punti.

A volte però nelle comunicazioni di tipo numerico o digitali il valore della grandezza in questione deve essere convertito in formato discreto. Ciò avviene preventivamente grazie ad un processo di campionamento in ascissa (tempo).

Perché una grandezza sia trasmissibile e codificabile con un numero finito di bit ovvero in forma numerica, è però necessario che essa possa assumere solo un numero finito di valori di codominio discreti; ciò avviene tramite un successivo processo di quantizzazione del valore in ordinata della grandezza in questione.

Per ottenere ciò i valori possibili della grandezza in questione vengono innanzitut to limitati tra un massimo ed un minimo intorno a dei valori discreti preventivamente definiti definendo così le relative regioni di decisione e la dinamica del quantizzatore stesso: in tal modo il valore analogico della grandezza originaria, in corrispondenza del valore campionato in ascisssa, verrà ricondotto al più prossimo dei valori discreti preventivamente definiti tramite il processo di decisione.

Con la quantizzazione vengono però introdotti degli errori detti errori di quan tizzazione pari alla differenza tra il valore quantizzato e il suo valore reale nel campo continuo. L’errore massimo possibile che potrà essere introdotto volta per volta sa rà quindi pari alla metà dell’intervallo discreto discriminabile o regione di decisione, nel caso limite in cui il valore di ingresso si collochi esattamente a metà tra due valori discreti di uscita ovvero sulla frontiera di due regioni di decisione contigue.

L’insieme di questi errori conduce al rumore di quantizzazione. Il Signal to Noise Quantization Ratio (SQR) misura la bontà del processo di quantizzazione ed è il parametro che più influisce sulla qualità del segnale digitalizzato.

Nella conversione analogico-digitale al processo di quantizzazione segue quello di codifica del valore discreto in ordinata.

digitalizzazione quantizzazione

8 La formalizzazione dell’informazione campionamento frequenza di campiona mento Nella teoria dei segnali il campionamento è una tecnica che consiste nel conver tire un segnale continuo nel tempo in un segnale discreto, valutandone l’ampiezza a intervalli di tempo regolari. In questo modo, a seguito di una successiva operazione di quantizzazione e conversione, è possibile ottenere una stringa digitale (discreta nel tempo e nell’ampiezza) che approssimi quella continua originaria.

In parole povere il campionamento consiste nell’andare a sentire (misurare, re gistare) il valore del segnale analogico in diversi istanti di tempo.

Il tempo T che intercorre tra una valutazione e l’altra si chiama periodo di campionamen to. La frequenza di campionamento F = 1 /T è invece l’inverso del periodo di campionamento.

alphabeto codifica ASCII ISO LAtin

Codifica dell’informazione testuale

La codifica dell’informazione consiste nel trasformare un’informazione generi ca in un’informazione comprensibile da un dispositivo o che sia adatta alla suc cessiva elaborazione. Il primo problema da affrontare nei processi di elaborazione dell’informazione è la rappresentazione dell’informazione.

Nel caso dei numeri, dunque, non dobbiamo fare altro che passare da una nota zione all’altra. Ma come fare per codificare in formato binario una informazione di tipo testuale? Basterà pensare al fatto che un testo non è altro che una successione di caratteri, e che i caratteri di base - quelli compresi nell’alfabeto della lingua usata - sono in un numero che varia col variare delle lingue, ma che è comunque - almeno per le lingue basate sull’alfabeto latino - finito e piuttosto ristretto.

Il nostro compito consisterà allora nello stabilire una tabella di corrispondenza fra caratteri da un lato e numeri binari dall’altro. Dovremo ricordarci di includere fra i caratteri da codificare tutti quelli che vogliamo effettivamente differenziare in un testo scritto: se vogliamo poter distinguere fra lettere maiuscole e minuscole do vremo dunque inserirvi l’intero alfabeto sia maiuscolo che minuscolo. Se vogliamo poter inserire nei nostri testi anche dei numeri decimali dovremo inserire le dieci cifre (0,1,2,3,4,5,6,7,8,9). Se vogliamo poter utilizzare segni di interpunzione (pun to, virgola, punto e virgola....) dovremo inserire i caratteri corrispondenti, e così via... senza dimenticare naturalmente di includere lo spazio per separare una parola dall’altra!

Una tabella di questo tipo si chiama tabella di codifica dei caratteri. Per molto tempo, la codifica di riferimento è stata la cosiddetta codifica ASCII (American Standard Code for Information Interchange; attenzione: si scrive ASCII ma si legge con la ’c’ dura: ’aski’). La codifica ASCII originaria (ASCII stretto) utilizzava 7 bit per ogni singolo carttere e quindi permetteva di distinguere 128 caratteri diversi; La tabella di caratteri attualmente più usata, denominata ISO Latin 1 (o tabella ASCII estesa), distingue 256 caratteri, dove i primi 128 dei quali sono ereditati dal l’ASCII stretto. L’indicazione ISO indica l’approvazione da parte dell’International Standardization Organization, mentre Latin 1 indica che si tratta della tabella di riferimento per gli alfabeti di tipo latino. È questa la codifica di caratteri utilizzata fino a poco tempo fa dalla maggior parte dei sistemi operativi.

Come ogni tabella di codifica dei caratteri, anche la tabella ISO Latin 1 codifica i caratteri da essa previsti (che come si è accennato sono 256) facendo corrispondere

La formalizzazione dell’informazione 9 a ciascuno un numero binario. Il primo di questi caratteri corrisponderà al numero binario 00000000, il secondo al numero binario 00000001, il terzo al numero bina rio 00000010, e così via, fino al duecentocinquantaseiesimo, che corrisponderà al numero binario 11111111. Se contate, vi accorgerete che questi numeri sono tutti espressi attraverso una notazione lunga , che utilizza esattamente otto cifre binarie, ovvero 8 bit.

Quindi 8 bit possono differenziare fra 256 combinazioni diverse, e dunque una parola lunga 8 bit (otto cellette) può rappresentare, attraverso la sua particolare combinazione di 0 e 1, uno qualunque dei 256 caratteri della nostra tavola di codifica.

Per convenzione, una parola lunga 8 bit è chiamata byte .

Il byte è dunque una unità di misura dell’informazione, e indica la quantità di informazione corrispondente alla scelta fra 256 alternative diverse. Se adottiamo come base per la nostra codifica dei testi una tavola comprendente 256 caratteri, ogni carattere del nostro testo richiederà un byte per essere codificato.

La codifica binaria di un testo avviene dunque seguendo lo schema seguente: Sullo schermo, ad esempio utilizzando un programma di videoscrittura, l’utente scriverà (e leggerà) la stringa di testo oggi piove ; il computer, dal canto suo, lavorerà invece con la rappresentazione binaria di quella stringa. In generale, tutte le volte che utilizzate un computer per visualizzare un testo scritto o per lavorarvi sopra, lo schermo vi presenterà il testo nella familiare forma alfabetica, ma il computer lavorerà in effetti su quel testo in forma binaria: la tavola di conversione lo aiuterà a tradurre i caratteri alfabetici nella relativa codifica binaria, e viceversa.

Tuttavia i 256 diversi caratteri codificati dalla tabella ASCII non sono in grado di coprire tutti i caratteri delle lingue europee. Se pensiamo infatti alle lettere dell’alfabeto greco, di quello scandinavo e di quello cirillico ci rendiamo subito conto che abbiamo bisogno di una tabella molto più grande.

Unicode è un sistema di codifica che assegna un numero univoco ad ogni ca rattere usato per la scrittura di testi, in maniera indipendente dalla lingua, dalla piattaforma informatica e dal programma utilizzato. Unicode è stato compilato e viene aggiornato e pubblicizzato dall’ in lingue diverse.

di segni utilizzati.

Unicode Consortium , un consorzio internazio nale di aziende interessate alla interoperabilità nel trattamento informatico dei testi Unicode era stato originariamente pensato come una codifica a 16 bit (quattro cifre esadecimali) che dava la possibilità di codificare 65.536 caratteri. Tanto si riteneva essere sufficiente per rappresentare i caratteri impiegati in tutte le lingue scritte del mondo. Ora invece lo standard Unicode prevede una codifica fino a 21 bit e supporta un repertorio di codici numerici che possono rappresentare circa un milione di caratteri. Ciò appare sufficiente a coprire anche i fabbisogni di codifica di scritti del patrimonio storico dell’umanità, nelle diverse lingue e negli svariati sistemi La codifica UTF-8 (Unicode Transformation Format, 8 bit) è una codifica dei caratteri Unicode in sequenze di lunghezza variabile di byte, creata da Rob Pike e Ken Thompson. UTF-8 usa gruppi di byte per rappresentare i caratteri Unicode, ed è particolarmente utile per il trasferimento tramite sistemi di posta elettronica a 8 bit (che richiedono quindi un minor spazio di rappresentazione al fine di velocizzare la comunicazione di rete).

byte codifica di un testo Unicode UTF-8

10 La formalizzazione dell’informazione UTF-8 usa da 1 a 4 byte per rappresentare un carattere Unicode. Per esempio un solo byte è necessario per rappresentare i 128 caratteri della tabella ASCII. I caratteri più rari e statisticamente meno utilizzati in un testo possono richiedere anche 4 byte (32 bit) per la loro rappresentazione.

compressione tasso di compressione lossless lossy

Compressione dati

Con il termine compressione dati si indica la tecnica di elaborazione dati che, attuata a mezzo di opportuni algoritmi, permette la riduzione della quantitá di bit necessari alla rappresentazione in forma digitale di un’informazione.

La compressione dati viene utilizzata sia per ridurre le dimensioni di un file, e quindi lo spazio necessario per la sua memorizzazione, sia per ridurre l’occupazione di banda necessaria in una generica trasmissione dati digitale come ad esempio una trasmissione televisiva digitale. Nelle trasmissioni digitali tale compressione dell’in formazione é operata all’interno della cosiddetta codifica di sorgente in modo da eliminare la ridondanza e ottenere un’alta efficienza del codice di sorgente. L’impor tanza della compressione dati sta nel fatto che in sua assenza non sarebbe possibile usufruire di tutta una vasta collezione di contenuti informativi attraverso la rete Internet per limitatezza della banda disponibile dei mezzi trasmissivi.

Le varie tecniche di compressione organizzano in modo piú efficiente i dati, spesso perdendo una parte dell’informazione originale, al fine di ottenere una rap presentazione dell’informazione piú compatta quindi comportante minori risorse per la sua memorizzazione e trasmissione. Come controparte la compressione dati neces sita peró di potenza di calcolo per le operazioni di compressione e decompressione, spesso anche elevata se tali operazioni devono essere eseguite in tempo reale.

Il parametro di qualitá che valuta l’efficienza della compressione é il rapporto o tasso di compressione.

Le tecniche di compressione dati si dividono in due grandi categorie, la compres sione dati lossy mentre la comprime i dati attraverso un processo con perdita d’informazione, compressione dati lossless comprime i dati attraverso un processo senza perdita d’informazione.

Le tecniche senza perdita (lossless) consentono di preservare l’informazione ori ginale in ogni sua parte. É l’unica via possibile quando si devono comprimere file di testo, programmi, documenti, database, schemi elettrici ecc. Due esempi sono il formato ZIP o il formato RAR, i quali consentono di archiviare o trasmettere uno o piú file risparmiando sulle risorse necessarie (spazio su disco o tempo di trasmissio ne). Al momento in cui vengono recuperati i file dallo ZIP o RAR (decompressione) questi risultano indistinguibili dagli originali.

Un altro esempio di caso in cui viene usata la compressione senza perdita é quello delle immagini non fotografiche, come gli schemi, i disegni o le icone. Per questo scopo esistono formati come il GIF o il piú recente PNG. L’immagine compressa con uno di questi formati mantiene esattamente l’aspetto originale fino al dettaglio piú insignificante. Le prestazioni di questo tipo di compressione dati sono tipicamente piú contenute e limitate.

D’altro canto, le tecniche con perdita di informazione (lossy) permettono anche

La formalizzazione dell’informazione 11 delle compressioni molto spinte, quindi un grande risparmio di risorse, a discapito peró della qualitá dell’immagine o dell’audio che si é voluto comprimere. General mente queste tecniche si usano per comprimere i file multimediali. Pur mantenendo minima la perdita di qualitá, il risparmio rispetto ad una compressione lossless sulla stessa informazione é sempre decisamente apprezzabile.

Le informazioni multimediali come audio o video, in origine sono infatti troppo grandi per essere agevolmente trasmesse o memorizzate, quindi si preferisce avere una piccola riduzione della qualitá (o distorsione del contenuto), ma nel contempo file molto piú leggeri. Alcuni esempi sono: la compressione di immagini in forma to JPEG, largamente usata in fotografia digitale e sul Web, la compressione video in formato DivX oppure la compressione audio in formato MP3. Infine, é impor tante puntualizzare che nel caso di compressione lossy di contenuti multimediali (es. MPEG), gli algoritmi di compressione di uso comune sono stati concepiti per minimizzare la distorsione percepita dall’utente in modo da rendere accettabile la degradazione del contenuto multimediale risultante.

Codifica dell’informazione grafica

Nei paragrafi precedenti, siamo riusciti a rappresentare in formato digitale (a trasformare cioè in lunghe sequenze di 0 e 1, che il computer è in grado di gestire e manipolare) un testo scritto. Ma come la mettiamo con le immagini e i suoni?

In effetti, in questi casi la situazione sembra del tutto diversa. In fondo, il testo scritto è già costruito combinando fra loro unità discrete (i singoli caratteri) scelte all’interno di un alfabeto abbastanza limitato. Ma immagini e suoni sono fenomeni che sembrano intrinsecamente analogici, nei quali cioè abbiamo a che fare con sfumature continue (di colori, di tonalità, di frequenza...).

Se si ha a che fare con un numero finito, prefissato e non troppo grande di entità discrete, la codifica numerica è in fondo facile: basta contare le diverse entità discrete che possono presentarsi, e attribuire a ciascuna un numero che la rappre senti nella codifica. Ma come la mettiamo con le infinite differenze e sfumature di un’immagine o di un suono?

Per capire in che modo il problema sia stato risolto, partiamo da un’osserva zione pratica. Abbiamo tutti familiarità con la televisione, che è uno strumento per visualizzare immagini in movimento (per adesso, mettiamo da parte i suoni).

Quando guardiamo la televisione, le immagini che vediamo ci appaiono di norma ab bastanza facili da interpretare: possiamo identificare forme e strutture, e ad esempio riconoscere il volto di un attore o di un’attrice.

Se ci avviciniamo molto allo schermo, tuttavia, noteremo che quella che a una certa distanza ci era apparsa come un’immagine ben definita e continua si sgrana in piccoli puntini luminosi e colorati (i cosiddetti pixel - termine inglese corrispondente alla contrazione di picture elements ). L’immagine che vediamo è in realtà il risultato dell’integrazione dei tanti singoli segnali luminosi emessi da ciascuno dei singoli pixel.

La griglia di pixel è talmente fitta da darci un’impressione di continuità.

Per digitalizzare un’immagine, il primo passo è proprio quello di sovrapporre al l’immagine analogica (ad esempio una fotografia) una griglia fittissima di minuscole pixel

12 La formalizzazione dell’informazione profondità qualità cellette. Ogni celletta sarà considerata come un punto dell’immagine, come un pi xel. Naturalmente, a parità di immagine, più fitta è la griglia, più piccole saranno le cellette, e migliore sarà l’illusione di un’immagine continua.

In questo modo, abbiamo sostanzialmente scomposto l’immagine in tanti pun tini. Ma non abbiamo ancora risolto il problema della nostra codifica digitale. Per farlo, occorre un passo ulteriore: rappresentare i puntini attraverso numeri. Come procedere? L’idea di base è semplice: utilizzare anche qui una tavola di corrispon denza, che però questa volta, anziché far corrispondere numeri a caratteri, faccia corrispondere numeri a colori diversi, o a sfumature diverse di colore.

I primi personal computer con capacità grafiche, all’inizio degli anni ’80, utiliz zavano griglie molto larghe (i pixel sullo schermo del computer più che a minuscoli puntini corrispondevano a grossi quadrati) e i colori codificati erano molto pochi (solo il bianco e nero, o al più 8 o 16 colori diversi). L’effetto non era un granché, ma i bit utilizzati per rappresentare l’immagine non erano troppo numerosi.

Ad esempio, una griglia di 80 colonne per 60 righe (ancora utilizzata in alcuni piccoli videogiochi portatili con schermo a cristalli liquidi) comprende ben poco definita.

immagini a 256 colori o a 8 bit 80 x 60 = 4800 pixel, e se ci limitiamo a due colori (bianco e nero) possiamo rappresentare ogni pixel attraverso un solo bit: l’1 potrà rappresentare il nero e lo 0 il bianco. Con 4800 bit avremo dunque codificato un’immagine, anche se solo in bianco e nero, e Se abbiamo a disposizione un numero maggiore di bit, potremo rendere più fine la griglia, oppure aumentare il numero dei colori, o magari (se possiamo permettercelo) fare tutte e due le cose insieme. Così, se ad esempio per ogni celletta decidiamo di spendere 8 bit (e dunque 1 byte) anziché 1 bit soltanto, anziché usare solo il bianco e nero potremo codificare 256 colori diversi (giacché come abbiamo visto le possibili combinazioni di 0 e 1 nelle nostre 8 cellette sono proprio 256; quando si parla di ci si riferisce proprio a un’immagine la cui palette di colori - ovvero l’insieme dei colori utilizzati - è codificata in questo modo).

La quantità di bit spesi per rappresentare un singolo pixel si definisce profondità dell’immagine. Se di bit ne possiamo spendere 16, avremo a disposizione 65.536

colori diversi, e così via. Certo, con l’aumento della risoluzione e la crescita del numero dei colori codificati, il numero di bit necessario a rappresentare la nostra immagine sale molto.

Supponiamo di voler utilizzare una griglia di 800 colonne per 600 righe (è una risoluzione assai diffusa per i personal computer), e di destinare a ogni celletta, a ogni pixel, 24 bit (il che ci consentirà di distinguere la bellezza di oltre 16 milioni di sfumature di colore). I bit necessari per rappresentare una singola immagine diventano 800 x 600 x 24 = 11 .

520 .

000 bit (più di 11 MB).

Il numero di pixel in un’immagine determina la quantità dei dettagli che possono essere rappresentati. Sebbene il concetto di pixel si applichi in tutti i contesti con il medesimo significato, per l’indicazione del numero di pixel da cui è costituita una immagine sono in uso diverse convenzioni per diverse tecnologie specifiche. Per esempio, il numero di pixel di cui è costituita l’immagine prodotta da una fotocamera digitale viene espresso come un singolo valore, in megapixel (milioni di pixel), mentre il numero di pixel di un display viene in genere espresso come un prodotto (pixel in altezza per pixel in larghezza), per esempio 640 × 480 .

La formalizzazione dell’informazione 13 La qualità dell’immagine si esprime in ppi (pixel per inch). Volendo quindi esprimere la qualità di un’immagine fisicamente riprodotta, o scansionata, occorre sempre riferirsi alla dimensione fisica lineare dello schermo o del supporto cartaceo, o, ancora, del sensore dello scanner.

La risoluzione indica il grado di qualità di un’immagine. Generalmente si usa questo termine riguardo immagini digitali, ma anche una qualunque fotografia ha una certa risoluzione.

Nelle immagini su computer, la risoluzione indica la densità dei punti dot ele mentari, che formano l’immagine rapportata ad una dimensione lineare (ad esempio punti/cm o punti/pollice). Lo schermo di un computer non può mostrare linee o disegni, ma soltanto punti; se questi sono sufficientemente piccoli, tali da essere più piccoli della risoluzione percepita dall’occhio umano, l’osservatore ha l’impressione di vedere linee anziché punti allineati, e disegni anziché ammassi di puntini distinti.

La risoluzione, quindi, essendo una misura della densità dei punti di immagine rappresentati su un supporto (carta o monitor), si misura in punti per unità di lunghezza, dove quest’ultima di solito è il pollice (dpi, dot per inch).

Tuttavia, il progresso tecnologico ci ha portato da una situazione in cui il ri sparmio di ogni singolo bit costituiva una priorità essenziale a una situazione in cui i bit sono sempre più economici. I computer delle nuove generazioni dispongono così di veri e propri sottosistemi interamente dedicati alla gestione della grafica, dotati di una memoria indipendente (in modo che la rappresentazione delle imma gini non sottragga troppe risorse agli altri compiti nei quali il computer può essere impegnato) e man mano sempre più larga.

ppi risoluzione dot dpi

Formati Grafici Raster

La grafica bitmap, o grafica raster è una tecnica utilizzata per descrivere un’im magine in formato digitale. Un’immagine descritta con questo tipo di grafica è chiamata immagine bitmap o immagine raster.

Il termine raster (trama, reticolo, griglia) ha origine nella tecnologia televisiva analogica, ovvero dal termine che indica le righe orizzontali dei televisori o dei monitor). In computer grafica, indica la griglia ortogonale di punti che costituisce un’immagine raster. Nella grafica raster l’immagine viene vista come una scacchiera e ad ogni elemento della scacchiera, chiamato pixel, viene associato uno specifico colore.

Come accennato precedentemente un’immagine bitmap è caratterizzata da due proprietà: la sua risoluzione e la sua profondità.

I dati raster possono essere memorizzati attraverso tipologie di file che sfrutta no algoritmi di compressione diversi, gravando in modo differente sul supporto di memorizzazione. In questo paragrafo descriviamo brevemente i principali formati raster.

Windows bitmap è un formato dati utilizzato per la rappresentazione di immagini raster introdotto con Windows 3.0 nel 1990. Le bitmap, come sono comunemente chiamati i file d’immagine di questo tipo, hanno generalmente l’estensione .bmp.

Questo formato ha richieste di elaborazione minima, non essendo necessari algoritmi di compressione (in fase di scrittura) e decompressione (in fase di lettura). Tuttavia, bitmap

14 La formalizzazione dell’informazione gif mancando di compressione, risultano particolarmente voluminosi, in termini di spazio occupato su disco, rispetto agli altri formati.

Le immagini salvate con un algoritmo di compressione dati lossless occupano invece meno spazio nei dispositivi di memorizzazione, mantenendo inalterata tutta l’informazione originale.

Il GIF (Graphics Interchange Format) è un formato per immagini digitali di tipo interlacciamento bitmap molto utilizzato nel World Wide Web, l’estensione GIF viene usata per i file di grafica memorizzati secondo uno standard definito da CompuServe e ora divenuto molto diffuso grazie a Internet. Il numero massimo di colori visualizzabili è 256 ma tra i punti di forza di questo formato vi sono la possibilità di creare immagini animate. Molto spesso infatti viene usato per le animazioni e in secondo piano per le immagini fisse.

Il termine GIF spesso è pronunciato all’inglese con la g dura (GHIF), ma la pronuncia definita dai suoi creatori nella documentazione ufficiale è con la g dolce (JIF). È stato introdotto nel 1987 da CompuServe per fornire un formato adatto alle immagini a colori, rimpiazzando il precedente formato RLE solo in bianco e nero. Il formato GIF si diffuse perché utilizzava l’algoritmo non distruttivo di compressione LZW, molto più efficiente dell’RLE.

Anche la caratteristica opzionale di interlacciamento, che memorizza le linee palette png canale alpha in un ordine tale da rendere riconoscibile un’immagine solo parzialmente scaricata, contribuì ad incrementare la popolarità del GIF, permettendo agli utilizzatori di riconoscere anzitempo gli scaricamenti errati.

Il formato GIF prevede l’utilizzo di un numero massimo di 256 colori essendo basato sull’uso della tavolozza (palette) VGA. Ogni colore all’interno della tavolozza è definito da una terna di valori (RGB: rosso, verde, blu) delle dimensioni di un byte (quindi di valore compreso tra 0 e 255) consentendo quindi di definire, per ogni colore, 256 × 256 ogni singolo pixel.

× 256 sfumature, ovvero circa 16,8 milioni di colori distinti. La tavolozza, in questo caso, consta quindi di 256 colori, scelti tra i 16,8 milioni di colori distinti, i quali vengono appunto numerati da 0 a 255; ciò permette di rappresentare ogni singolo pixel con un solo byte che fa riferimento alla posizione del colore nella tavolozza. Al contrario, altri formati grafici, utilizzano una terna di valori RGB per Il formato raster PNG è stato creato nel 1995 da un gruppo di autori indipenden ti ed approvato nel 1996. L’ideazione del PNG avvenne in seguito all’introduzione del pagamento di royalty dell’allora popolarissimo e usatissimo formato GIF. Infatti nel 1994 i detentori del brevetto GIF decisero improvvisamente di chiedere un paga mento per ogni programma che utilizzasse il loro formato. La prima reazione della comunità informatica a tale improvviso cambiamento fu la sorpresa, a cui seguì la scelta di indirizzarsi verso lo sviluppo di un’alternativa.

Il formato PNG è superficialmente simile al GIF, in quanto è capace di imma gazzinare immagini in modo lossless, ossia senza perdere alcuna informazione, ed è più efficiente con immagini non fotorealistiche (che contengono troppi dettagli per essere compresse in poco spazio).

Essendo stato sviluppato molto tempo dopo, non ha molte delle limitazioni tecniche del formato GIF: può memorizzare immagini in colori reali (mentre il GIF era limitato a 256 colori), ha un canale dedicato per la trasparenza (canale alfa).

La formalizzazione dell’informazione 15 Il Tagged Image File Format, detto anche TIFF, è un formato immagine di tipo raster sviluppato da Aldus e piuttosto diffuso. Le specifiche del formato TIFF per mettono una notevole flessibilità. Questo è un vantaggio di per sé, ma rende difficile scrivere un interprete pienamente conforme alle specifiche. Il TIFF è largamente uti lizzato per lo scambio di immagini raster fra stampanti e scanner perché permette di specificare numerose indicazioni aggiuntive come informazioni sulla calibratura del colore. Il TIFF quindi è utilizzato per far comunicare più macchine all’interno dello stesso studio fotografico o di editing che hanno la stessa calibratura. Inoltre un file TIFF può contenere immagini divise su più pagine: ad esempio, si possono inserire in un unico file tutte le pagine che compongono un fax.

A differenza dei formati grafici visti fin’ora le immagini memorizzate con formati che usano un algoritmo di compressione lossy subiscono una perdita di informazione.

Tali formati sono particolarmente indicati per la trasmissione di immagini o per ridurre le dimensioni di un’applicazione o di un prodotto da distribuire.

Quando la risoluzione delle immagini raster dimiuniusce sensibilmente si ha un effetto chiamato aliasing (in italiano, scalettatura, gradinatura o scalettamento).

La quadrettatura dell’immagine è più evidente riducendo la qualità dell’immgaine.

In questi casi viene applicata una tecnica (o filtro) chiamata base ai colori dei poligoni.

anti-aliasing . Tale tecnica consiste nel ridurre l’effetto aliasing quando un segnale a bassa risoluzione viene mostrato ad alta risoluzione. L’anti-aliasing ammorbidisce le linee smussan done i bordi e migliorando l’immagine. Tale metodo agisce sui bordi dei poligoni, e l’effetto aliasing viene eliminato tramite un filtro di bilanciamento dei colori: se due (o più) poligoni giacciono sullo stesso pixel, il colore del pixel viene determinato in JPEG (acronimo di Joint Photographic Experts Group) è un diffusissimo for mato di compressione a perdita di informazioni e attualmente è lo standard di compressione delle immagini fotografiche più utilizzato.

Essenzialmente il JPEG applica una quantizzazione effettuata tramite opportune matrici, che solitamente, pesano i coefficienti di ordine più basso (rappresentano le basse frequenza spaziali) in maniera più decisa, in quanto sono più importanti ai fini della sintesi dell’immagine. Questo perché il sistema visivo umano percepisce maggiormente le basse frequenze spaziali rispetto alle alte frequenze, risulta quindi necessario dare maggior importanza alle basse frequenze spaziali.

Il fattore di compressione che si può raggiungere è determinato essenzialmente da un parametro di scalature per le matrici di quantizzazione, tanto più piccolo è questo parametro, tanto peggiore è la qualità. Si può ottenere un fattore di compressione 15:1 senza alterare visibilmente la qualità dell’immagine.

tiff anti-aliasing jpeg

Formati Grafici Vettoriali

Nella grafica vettoriale un’immagine è descritta mediante un insieme di primitive geometriche che definiscono punti, linee, curve e poligoni ai quali possono essere attribuiti colori e anche sfumature. È radicalmente diversa dalla grafica raster in quanto nella grafica raster le immagini vengono descritte come una griglia di pixel opportunamente colorati.

I principali vantaggi della grafica vettoriale rispetto alla grafica raster sono i vantaggi

16 La formalizzazione dell’informazione svantaggi applicazioni seguenti: • possibilità di esprimere i dati in una forma direttamente comprensibile ad un essere umano (es. lo standard SVG); • possibilità di esprimere i dati in un formato che occupi (molto) meno spazio rispetto all’equivalente raster; • possibilità di ingrandire l’immagine arbitrariamente, senza che si verifichi una perdita di risoluzione dell’immagine stessa.

Il primo punto si traduce nella possibilità, per una persona, di intervenire diret tamente sull’immagine anche senza fare uso di programmi di grafica o addirittura senza conoscenze approfondite in merito. Ad esempio, per tradurre il testo presen te in un’immagine SVG, spesso è sufficiente aprire il file con un editor di testo e modificare le stringhe lette nel file.

Tale sistema di descrizione delle informazioni grafiche presenta inoltre l’indubbio vantaggio di una maggiore compressione dei dati: in pratica una immagine vetto riale occuperà molto meno spazio rispetto ad una corrispondente raster, con una riduzione dell’occupazione di RAM e memoria di massa, principalmente nelle forme geometriche o nei riempimenti a tinta piatta.

Risulta, inoltre, più facile da gestire e da modificare, essendo minore la quan tità di dati coinvolti in ogni singola operazione di aggiornamento. Questo rende il vettoriale particolarmente adatto per gestire grandi quantità di dati come quelli cartografici che sono tipicamente gestiti in modalità vettoriale; infine l’ingrandimen to o la riduzione delle misure e proporzioni del soggetto prodotto in vettoriale non incide in maniera significativa sul peso dell’immagine stessa, il riempimento di for me con tinte piatte è generato da semplici funzioni matematiche e risulta, quindi, estremamente leggero in termini di memoria utilizzata.

Il principale svantaggio della grafica vettoriale rispetto alla grafica raster è che la realizzazione di immagini vettoriali non è una attività intuitiva come nel caso delle immagini raster. I programmi vettoriali dispongono di molti strumenti che, per essere sfruttati pienamente, richiedono svariate conoscenze. Un altro difetto è legato alle risorse richieste per trattare le immagini vettoriali: una immagine vettoriale molto complessa può essere molto corposa e richiedere l’impiego di un computer molto potente per essere elaborata. Inoltre, le risorse richieste per trattare l’immagine non sono definibili a priori e quindi ci si potrebbe trovare nell’impossibilità di elaborare un’immagine per la mancanza di risorse sufficienti. Nel caso di un’immagine raster, invece, una volta definita la risoluzione ed il numero di colori, è abbastanza semplice definire le risorse massime necessarie per trattare l’immagine stessa; al contrario di quanto accade con le tinte piatte, i riempimenti sfumati o complessi generati in vettoriale comportano un alto impiego di risorse.

La grafica vettoriale ha un notevole utilizzo nell’editoria, nell’architettura, nel l’ingegneria e nella grafica realizzata al computer. Tutti i programmi di grafica tridimensionale salvano i lavori definendo gli oggetti come aggregati di primitive matematiche. Nei personal computer l’uso più evidente è la definizione dei font.

La formalizzazione dell’informazione 17 Quasi tutti i font utilizzati dai personal computer vengono realizzati in modo vet toriale, per consentire all’utente di variare la dimensione dei caratteri senza perdita di definizione.

I principali formati grafici vettoriali sono il PostScript (ps), il Portable Document Format (pdf), il formato Corel Draw (cdr), il formato AutoCAD (dwg) e lo standard SVG (Scalable Vector Graphics).

Codifica dell’informazione audio

Abbiamo dunque risolto il problema della rappresentazione binaria delle imma gini. Ma come la mettiamo con i suoni? In questo caso, la trasformazione del dato analogico in dato digitale si basa su un processo di funzione.

segmentazione ( campionamento ) - il più raffinata possibile - dell’onda sonora di partenza. È possibile rappresentare in molti modi un’onda sonora, ma la rappresentazione più comoda è attraverso una Con un procedimento non troppo dissimile da quello già considerato a proposito della grigliatura in pixel di una immagine, questa funzione può essere come rappresentarli attraverso una codifica binaria.

zioni sullo spettro delle frequenze considerate e sulla corrispondenti agli altoparlanti di destra e di sinistra.

segmentata in regioni abbastanza piccole da poter essere considerate come se si trattasse di singoli punti. Ognuno di questi punti sarà identificato dai suoi valori sugli assi del piano cartesiano, e questi valori, naturalmente, sono dei numeri: sappiamo dunque bene Ecco allora che la successione di questi valori (assieme alle necessarie informa un peggioramento della qualità sonora.

frequenza di campionatura to è accurata la nostra segmentazione della funzione d’onda, ovvero quanto fitta Nel campo dei suoni, la qualità ottenibile attraverso la digitalizzazione è già qualità (la copia è perfettamente uguale all’originale, dato che i dati numerici che vi I programmi o i dispositivi elettronici sviluppati per descrivere ovvero codificare , che ci dicono in sostanza quanto è esteso lo spettro sonoro considerato e quan è la nostra griglia) ci fornisce quella rappresentazione numerica, e dunque quella digitalizzazione dell’onda sonora, che stavamo cercando. Naturalmente, un sonoro stereofonico ci imporrà di considerare separatamente le onde sonore dei due canali molto alta, tanto che ormai la resa audio dei Compact Disc musicali (che conten gono informazione in formato digitale) ha superato quella dei vecchi dischi di vinile (nei quali l’informazione sonora era registrata in formato analogico). Inoltre, la pro duzione di nuove copie di un brano in formato digitale non implica una perdita di sono codificati sono esattamente gli stessi), mentre sappiamo che nel campo dell’a nalogico ogni passaggio di copiatura introduce disturbi e distorsioni che comportano un flusso audio sotto forma di dati numerici adatti ad essere memorizzati su un supporto digitale o trasmessi su un canale di comunicazione digitale prendono il nome di codec audio I codec audio possono effettuare anche una compressione dei dati in modo da ridurre la quantità di dati che compone un flusso audio. I codec possono effettuare una compressione senza perdita di informazioni o con perdita di informazioni. Nel caso di compressioni senza perdita di informazioni (lossless) si possono ottenere dei codec audio

18 La formalizzazione dell’informazione wav flac Dolby Digital mp3 bit rate fattori di compressione del 50% o meno mentre se si utilizzano compressioni con perdita di informazione (lossy) si possono ottenere compressioni anche del 500% con qualità accettabile.

I dati prodotti dai sistemi audio sono relativamente pochi rispetto a quelli pro dotti da un flusso video e difatti esistono codec audio non compressi mentre i codec video non compressi sono riservati ad applicazioni professionali e non sono diffusi tra i personal computer. Comunque la maggior parte dei codec audio adottano tecniche di compressione a perdita di informazione dato che la diffusione di internet ha reso necessario ridurre al minimo i dati trasmessi mentre la potenza di calcolo necessaria per decodificare i flussi audio compressi non costituisce di fatto un problema per gli attuali computer.

Il formato WAV (o WAVE), contrazione di WAVEform audio file format (formato audio per la forma d’onda) è un formato audio di codifica digitale sviluppato da Microsoft e IBM per personal computer IBM compatibile. Con la diffusione del file sharing su internet il formato WAV ha perso popolarità. Essendo un formato non compresso genera dei file molto grandi e quindi sulle reti telematiche si preferisce utilizzare formati compressi.

Tra questi il Free Lossless Audio Codec (FLAC) è un diffuso codec audio libero di tipo lossless, cioè senza perdita di qualità. A differenza delle codifiche lossy, questo tipo di compressione non rimuove informazioni dal flusso audio, risultando quindi adatto sia all’ascolto con lettori di musica digitale, sia all’archiviazione su memorie di massa. Il formato FLAC è attualmente supportato da una buona parte dei software audio.

Il Dolby Digital è invece un sistema di codifica cosiddetto lossy, ovvero in cui la codifica audio avviene con perdita di informazioni. Il sistema prende in input segnali audio digitali, codificati a 48.000 Hz di frequenza di campionamento e 16 bit di risoluzione, li trasforma analizzandoli nel dominio della frequenza, per poi scartare parte dei dati riducendone la risoluzione effettiva ed innalzando il livello del rumore digitale. Tutta l’operazione viene eseguita cercando il più possibile di mantenere la soglia del rumore (di quantizzazione) al di sotto del livello udibile, utilizzando metodi di analisi di tipo psicoacustico.

L’idea è che la risoluzione effettiva con cui l’apparato uditivo umano è in gra do di percepire uno o più suoni, varia dinamicamente con il contenuto del segnale (musicale) composto. Un tono perfettamente udibile come tono puro, può essere completamente inudibile se mascherato da un tono vicino, magari di intensità supe riore. Il sistema di compressione psicoacustica utilizzato dal Dolby Digital si chiama AC3 Anche l’MP3 (per esteso Moving Picture Expert Group-1/2 Audio Layer 3) è un algoritmo di compressione audio di tipo lossy, sviluppato dal gruppo MPEG, in grado di ridurre drasticamente la quantità di dati richiesti per memorizzare un suono, rimanendo comunque una riproduzione accettabilmente fedele del file originale non compresso.

L’efficienza di un algoritmo di compressione è tipicamente giudicata dal bit rate finale che riesce a ottenere. Il bit rate è il numero di unità binarie che fluiscono al secondo ed è variabile per i file MP3. La regola generale è che maggiore è il bit rate, più informazione è possibile includere dall’originale, maggiore è la qualità del

La formalizzazione dell’informazione 19 file audio compresso. Attualmente per le codifiche dei file MP3 fissano un tasso di compressione equivalente per tutto il file audio.

È opinione diffusa che, per una resa soddisfacente dell’MP3, il bit rate deve essere almeno di 128 kbps; la qualità di un MP3 compresso a questo bit-rate, tuttavia, non si avvicina a quella di un CD-Audio, pur garantendo delle discrete prestazioni con dimensioni del file molto ridotte. Questo bit rate è il risultato di un tasso di compressione che si avvicina al rapporto di 11:1 per brani musicali con voce maschile mentre, in caso di voce femminile (notoriamente più acuta e difficilmente comprimibile) il rapporto diviene circa 10:1 . Test di ascolto mostrano che, attraverso un po’ di pratica, molti sono in grado di distinguere un formato MP3 a 128 kbit/s da un CD originale. Per molti altri, 128 kbit/s è una qualità di ascolto bassa, da un’analisi condotta dalla rivista SUONO, l’opinione dei conduttori al termine della prova, risulta che solo ad almeno 256 kbit/s si può parlare di alta fedeltà.

SILK (Super Wideband Audio Codec) è un codec audio di proprietà di Skype rilasciato sotto la licenza royalty free (di libero utilizzo gratuito). Questo codec è stato creato principalmente per Skype 4 di Windows ed è attualmente in uso.

Il codec è pensato per la comunicazione Skype-Skype con una buona efficienza, sfruttando al meglio la banda disponibile; è stato rilasciato gratuitamente per faci litare la diffusione di Skype anche su dispositivi di terzi (come cellulari o consolle), ed è un evidente tentativo di imporre un unico standard per le chiamate VoIP.

Secondo quanto comunicato da Skype, il nuovo codec gestisce principalmente la voce umana compresa tra gli 8 kHz e i 12 kHz.

Il sistema dovrebbe essere abbastanza elastico da sopportare bruschi rallenta menti di banda senza degradare troppo la qualità della chiamata, e riuscire a bilan ciare il volume della voce con il rumore di fondo, in modo da rendere meno fastidiosa la presenza di altri suoni durante la chiamata.

silk

Codifica dell’informazione video

Armati dei risultati conseguiti con suoni e immagini, possiamo affrontare ades so il problema della digitalizzazione dei filmati, ovvero di immagini in movimento con accompagnamento sonoro. Se pensiamo a come è fatta una vecchia pellicola cinematografica, ci risulterà chiaro che un filmato altro non è se non una successio ne di fotogrammi (ciascuno dei quali corrisponde a un’immagine statica), accom pagnata da una banda sonora. Ma a questo punto sappiamo come digitalizzare tanto le immagini che corrispondono ai singoli fotogrammi, quanto il sonoro che le accompagna.

Certo il numero di bit impiegati nell’operazione aumenta vorticosamente. Per essere esatti, aumenta in funzione di almeno cinque fattori: il numero di bit neces sari alla codifica sarà infatti tanto maggiore quanto più lungo è il filmato, quanto maggiore è la sua risoluzione grafica (e cioè quanto più fitta è la griglia che usiamo per digitalizzare i singoli fotogrammi), quanto più ampia è la palette di colori utiliz zata, quanto maggiore è il numero di fotogrammi (o frame) per secondo, e quanto migliore è la qualità del sonoro (ovvero la frequenza di campionatura).

20 La formalizzazione dell’informazione Una bassa risoluzione grafica rende il filmato quadrettato e indistinto, una palet te troppo ristretta rende poco realistici i colori visualizzati, un numero troppo basso di frame per secondo produce un filmato campionatura audio troppo bassa pregiudica la qualità del sonoro. Come si vede, i fattori da considerare sono davvero tanti: per quanto la nostra disponibilità di bit sia notevolmente aumentata col tempo, e nonostante il fatto che proprio nel campo delle immagini in movimento le tecniche di compressione abbiano fatto passi da gigante, il cosiddetto singolo CD.

full motion video a scatti e poco fluido, e una frequenza di digitale (la capacità cioè di rappresentare a pieno schermo immagini in movimento, con una risoluzione e con una fluidità simile o migliore rispetto a quelle televisive) è un traguardo raggiunto solo di recente, e non in tutti i casi. Ad esempio, i video tratti dalle videocassette di questo corso sono presenti anche sul CD-ROM, solo in forma molto compressa e di bassa qualità, altrimenti occuperebbe molto più ’spazio’, molti più bit, di quello disponibile su un Per quanto riguarda il video digitale, dunque, gli ulteriori prevedibili progressi nelle capacità di memoria e nella velocità di elaborazione dei computer potranno ancora portare a un significativo miglioramento della qualità.