rappresentazione dei dati

rappresentazione dati

numeri (naturali, interi, frazionari)
caratteri, file di testo
immagini, audio e video
…

numeri

base 10 ⇒ base 2 ⇒ vero o falso

0	falso
1	vero

caratteri

carattere ⇒ numero ⇒ base 2 ⇒ true/false

a	⇒	97	⇒	1100001
b	⇒	98	⇒	1100010
c	⇒	99	⇒	1100011

trovare il numero di un carattere

programma C
%c stampa come carattere
%d stampa come intero

caratteri.c

#include <stdlib.h>
#include <stdio.h>

int main() {
	char x, y, z;

	x = 'a';
	y = 'b';
	z = 'c';

	printf("stampati come caratteri:\n");
	printf("%c\n", x);
	printf("%c\n", y);
	printf("%c\n", z);

	printf("stampati come interi:\n");
	printf("%d\n", x);
	printf("%d\n", y);
	printf("%d\n", z);

	return EXIT_SUCCESS;
}

altri linguaggi

C: caratteri.c
Java: Caratteri.java
Python: caratteri.py
lua: caratteri.lua
postscript: caratteri.ps

ASCII

carattere → sette bit

oppure: otto bit con il primo sempre zero

quindi: numeri 0—127

tabella dei caratteri ASCII

ASCII

0:	NUL	SOH	STX	ETX	EOT	ENQ	ACK	BEL	BS	HT
10:	LF	VT	FF	CR	SO	SI	DLE	DC1	DC2	DC3
20:	DC4	NAK	SYN	ETB	CAN	EM	SUB	ESC	FS	GS
30:	RS	US	SP	!	"	#	$	%	&	'
40:	(	)	*	+	,	-	.	/	0	1
50:	2	3	4	5	6	7	8	9	:	;
60:	<	=	>	?	@	A	B	C	D	E
70:	F	G	H	I	J	K	L	M	N	O
80:	P	Q	R	S	T	U	V	W	X	Y
90:	Z	[	\	]	^	_	`	a	b	c
100:	d	e	f	g	h	i	j	k	l	m
110:	n	o	p	q	r	s	t	u	v	w
120:	x	y	z	{	\|	}	~	DEL

caratteri speciali

alcuni numeri non sono veri caratteri

12: ritorno a capo
8: cursore indietro di un carattere
7: beep!
19: richiesta sospensione trasmissione
17: richiesta ripresa trasmissione
…

alcuni sono ancora usati, altri sono storici

17 e 19 servivano per la trasmissione
era lo scopo principale della codifica ASCII:

This International Standard specifies a set of 128 characters, (control characters and graphic characters such as letters, digits and symbols) with their coded representation. […] This character set is primarily intended for the interchange of information among data processing systems and associated equipment, and within data communication systems.

lettere accentate, simboli, altri alfabeti

sette bit = 128 caratteri

non bastano per tutte le lettere accentate (à, è, ò)
i simboli (es. €, ¢)
i caratteri in altri alfabeti (es. Θ, Ђ, ב)

estensioni: ISO-8859-1, unicode

ISO-8859-1

ogni carattere otto bit

il primo può essere uno
invece che sempre zero come in ASCII

otto bit = 256 numeri

primi 0—127 uguali ad ASCII
(inclusi quelli speciali)

altri:

lettere accentate (es. ò)
lettere straniere (es. ñ, å)
centesimo ¢
virgolette caporali « »
altri simboli

tabella iso-8859-1

prima metà uguale ad ASCII

seconda metà: altri caratteri

0:	NUL	SOH	STX	ETX	EOT	ENQ	ACK	BEL	BS	HT
10:	LF	VT	FF	CR	SO	SI	DLE	DC1	DC2	DC3
20:	DC4	NAK	SYN	ETB	CAN	EM	SUB	ESC	FS	GS
30:	RS	US	SP	!	"	#	$	%	&	'
40:	(	)	*	+	,	-	.	/	0	1
50:	2	3	4	5	6	7	8	9	:	;
60:	<	=	>	?	@	A	B	C	D	E
70:	F	G	H	I	J	K	L	M	N	O
80:	P	Q	R	S	T	U	V	W	X	Y
90:	Z	[	\	]	^	_	`	a	b	c
100:	d	e	f	g	h	i	j	k	l	m
110:	n	o	p	q	r	s	t	u	v	w
120:	x	y	z	{	\|	}	~	DEL
130:
140:
150:
160:		¡	¢	£	¤	¥	¦	§	¨	©
170:	ª	«	¬		®	¯	°	±	²	³
180:	´	µ	¶	·	¸	¹	º	»	¼	½
190:	¾	¿	À	Á	Â	Ã	Ä	Å	Æ	Ç
200:	È	É	Ê	Ë	Ì	Í	Î	Ï	Ð	Ñ
210:	Ò	Ó	Ô	Õ	Ö	×	Ø	Ù	Ú	Û
220:	Ü	Ý	Þ	ß	à	á	â	ã	ä	å
230:	æ	ç	è	é	ê	ë	ì	í	î	ï
240:	ð	ñ	ò	ó	ô	õ	ö	÷	ø	ù
250:	ú	û	ü	ý	þ	ÿ

problema di iso-8859-1

va bene per alcune lingue:

italiano
inglese
spagnolo
norvegese
…

solo in parte per altre
(es. manca la i senza il punto del turco: "ı")

per niente per altre ancora
ebraico, cinese, …

altri iso-8859-x

altre lingue: ISO-8859-2, ISO-8859-2, …

sempre 0—127 come ASCII

ma 128—255 diversi

es. in ISO-8859-9 253 = i senza punto "ı"
(in ISO-8859-1 lo stesso numero era la y con accento acuto)

problemi con ISO-8859

bisogna specificare quale ISO-8859-x si sta usando
no testi in più lingue insieme
alcune lingue hanno più di 255 caratteri

unicode

più di otto bit per ogni carattere

ogni carattere = trentadue bit
esempio: ı = 0x0131 = 00000000 000000000 00000001 00110001

due modi diversi per memorizzare questi 32:

ucs32: un singolo numero a trentadue bit
o quattro numeri a otto bit
utf-8: vari numeri a otto bit, da uno a sette

utf-8

usato in pratica nei programmi moderni

es: "t", "å", "ı", "੆"

i caratteri sono sequenze di numeri a otto bit

lunghezza della sequenza: da uno a sette numeri

rappresentazione delle stringhe

sono sequenze di caratteri

ogni carattere è un numero

vengono memorizzati in sequenza

99 105 97 111 32 116 117 116 116 105 33 0

99=c, 105=i, 97=a, …

spazio=32

fine stringa=0

`0` non è `'0'`

carattere '0' = numero 48

terminatore di stringa = numero 0

esempio: stringa 'da 0 a 5':

ritorno a capo

numero 10
sequenza 10 13

originariamente, comandi per le stampanti:

10 = avanzamento di una linea della carta
(line feed, lett. "mangiare una linea")
13 = ritorno del carrello a inizio linea
(carriage return, "ritorno del carrello")

stringhe: alternative

all'inizio si specifica quanti caratteri ci sono:
```
11 99 105 97 111 32 116 117 116 116 105 33
```
strutture "ad albero"
facile inserire o togliere caratteri in mezzo

suoni

sono onde di pressione dell'aria

rappresentazione numerica:

misurata a intervalli regolari (es. 48000 volte al secondo)
valore rappresentato in binario (es. a 16 bit)

suono = sequenza di questi valori

approssimazioni

non è uguale all'originale:

variazioni fra una misurazione all'altra non vengono rilevate
la pressione è un valore continuo
numero prefissato di bit = approssimarlo

fedeltà all'originale = alta frequenza di campionamento + alto numero di bit

MIDI

indica come generare i suoni (strumenti)

colori

basata su un fatto:

la maggior parte dei colori visibili all'occhio umano si possono considerare un miscuglio di quantità variabili di rosso, verde e blu

esempio:

massimo di rosso, mezzo verde e niente blu

immagini

immagine = griglia di quadrettini (pixel)

ogni pixel viene considerato di un colore solo
(= quantità di rosso, verde, blu)

rappresentazione delle immagini

esempio, nel formato ppm:

Immagine (ingrandita)				Rappresentazione
				P3 3 3 255 0 0 0 0 255 0 0 0 255 0 255 0 0 0 0 0 0 255 0 0 0 0 0 0 0 0 100

parte iniziale: identificativo del formato (P3)
larghezza e altezza dell'immagine (3×3)
massima intensità di colore (255)
matrice: i colori dei pixel, in sequenza
esempio: 0 255 0 = niente rosso, max verde, niente blu

approssimazioni

pixel di un solo colore
numeri rappresentati con numero fisso di bit
colori non rappresentabili come una terna

immagini vettoriali

invece dei pixel:

figure geometriche elementari

immagini vettoriali: esempio

Immagine		Rappresentazione
		<?xml version="1.0" standalone="no"?> <!DOCTYPE svg PUBLIC "-//W3C//DTD SVG 1.1//EN" "http://www.w3.org/Graphics/SVG/1.1/DTD/svg11.dtd"> <svg xmlns="http://www.w3.org/2000/svg"> <g style="stroke:#000000;fill:none;"> <polyline points="0,0 100,100" /> <circle cx="80" cy="80" r="40" /> <text x="20" y="80" stroke="#FF0000">abcd</text> </g> </svg>

Immagine

Rappresentazione

<?xml version="1.0" standalone="no"?>
<!DOCTYPE svg PUBLIC "-//W3C//DTD SVG 1.1//EN"
  "http://www.w3.org/Graphics/SVG/1.1/DTD/svg11.dtd">
<svg xmlns="http://www.w3.org/2000/svg">
  <g style="stroke:#000000;fill:none;">
    <polyline points="0,0 100,100" />
    <circle cx="80" cy="80" r="40" />
    <text x="20" y="80" stroke="#FF0000">abcd</text>
  </g>
</svg>

immagini vettoriali: tag

<polyline points="0,0 100,100" />: segmento da coordinata 0,0 a 100,100
<circle cx="80" cy="80" r="40" />: cerchio
<text x="20" y="80" stroke="#FF0000">abcd</text>: scritta abcd in rosso

origine: in alto a sinistra

rappresentazione dati

numeri

caratteri

trovare il numero di un carattere

altri linguaggi

ASCII

tabella dei caratteri ASCII

caratteri speciali

lettere accentate, simboli, altri alfabeti

ISO-8859-1

tabella iso-8859-1

problema di iso-8859-1

altri iso-8859-x

problemi con ISO-8859

unicode

utf-8

rappresentazione delle stringhe

0 non è '0'

ritorno a capo

suoni

approssimazioni

MIDI

colori

immagini

rappresentazione delle immagini

approssimazioni

immagini vettoriali

immagini vettoriali: esempio

immagini vettoriali: tag

`0` non è `'0'`