Teorema de codificação da fonte

Fonte: testwiki
Saltar para a navegação Saltar para a pesquisa

Predefinição:Multitag

Codificação de Fonte

Codificar uma fonte de informação envolve representá-la, para fins de transmissão e armazenamento, de tal forma a usar a menor quantidade de símbolos médios possível, pois a eficiência do codificador está ligada à quantidade de dígitos que foram utilizados para essa nova representação. Temos então que, quanto menor for a quantidade de dígitos empregado, mais eficiente será esse codificador. Pode-se dizer então que o processo de codificação de fonte eficiente tem como objetivo retirar redundâncias que estão presentes naquela fonte. Nesse, sentido Shannon provou que a informação emitida por uma fonte discreta sem memória pode ser comprimida a uma taxa de codificação R>H(S), onde H(S) é a entropia associada à fonte. Essa idéia é parte do conceito do conhecido Teorema de codificação da fonte, a ser discutido a seguir.

Teorema de Codificação da Fonte para uma Mensagem Aleatória

O teorema enuncia que existe um código binário livre de prefixo ótimo, por exemplo, um código de Huffman, de uma mensagem aleatória U com r possíveis valores, onde o comprimento médio das palavras-código obedece satisfaz:

H(U) bitsLavH(U)+1 bits,

em que

Lav=i=1rpili

é o comprimento médio associado à mensagem U, pi é a probabilidade associada ao i-ésimo possível valor, de comprimento li dígitos binários.[1]

Note que a igualdade ocorre se, e somente se, pié uma potência negativa inteira de 2 para todo i. Vale ressaltar que, embora não seja um código ótimo, o teorema também é válido para o código de Fano.

Codificando uma Fonte de Informação

Considere agora que há um fluxo de mensagens, a ser continuamente codificadas. Para essa situação vamos considerar que cada símbolo emitido pela fonte seja independente dos anteriormente enviados, ou seja, temos uma fonte discreta e sem memória (DMS, Discrete Memoryless Source), gerando uma sequência de mensagens aleatórias independentes U1,U2,U3,..., onde cada mensagem Ui pode assumir r valores com probabilidades p1,p2,...,pr.

É mais eficiente combinar duas ou mais mensagens (Ul,Ul+1,...,Ul+v) para a construção de um código, e assim podemos chamá-la de mensagem vetorial aleatória. Matematicamente, uma mensagem vetorial aleatória V=(U1,U2,...,Uv) não é diferente de uma mensagem aleatória convencional, pois ela pode assumir um número limitado de valores com probabilidades associadas. Então, se Ul é r-ária, V terá rv possíveis símbolos. É possível expressar H(V) em termos de H(U). Considerando qj a probabilidade do j-ésimo símbolo de V, temos que as mensagens Ul são mutuamente independentes, então:

qj=pi1pi2piv

Onde pil indica a probabilidade do il -ésimo símbolo de Ui. Logo:

H(V)=j=1rvqjlog2qj

H(V)=il=1r...iv=1r(pi1.pi2...piv)log2(pi1.pi2...piv)

H(V)=il=1r...iv=1r(pi1.pi2...piv)(log2pil+...+log2piv)

H(V)=il=1r...iv=1rpi1.pi2...piv.log2pil...i1=1r...iv=1rpi1.pi2...piv.log2piv

H(V)=(i1=1rpi1log2pi1).(i2=1rpi2)...(iv=1rpiv)...(i1=1rpi1)...(iv1=1rpiv1).(iv=1rpivlog2piv)

H(V)=(il=1rpillog2pil)...(iv=1rpivlog2piv)

H(V)=H(Ul)+...+H(Uv)=vH(U)

Isso quer dizer que se V consiste de ν mensagens aleatórias independentes, sua incerteza é ν vezes a incerteza média de U. Se usarmos um código ótimo, como o de Huffman, e sabendo do Teorema de Codificação para uma Mensagem Aleatória: H(V) bitsLav<H(V)+1 bits, temos que um valor ν maior produzirá Lav também maior, o que impede comparações justas entre sistemas de compressão distintos. Por isso, devemos computar o comprimento médio necessário para descrever um símbolo da fonte por vez, ou seja:

H(V)vLavv<H(V)v+1v bits

Sabendo que H(V)=vH(U), temos:

vH(U)vLavv<vH(U)v+1v bits

E por fim chegamos ao Teorema de Codificação de Fonte de Shannon:

H(U)Lavv<H(U)+1v bits

Teorema de Codificação de Fonte de Shannon

Existe um código binário livre de prefixo para mensagens em blocos de ν dígitos, de uma fonte discreta sem-memória, tal que o número médio Lav/v de dígitos de código binário por símbolo da fonte satisfaz:

Lavv<H(U)+1v bits

Onde H (U) é a entropia do símbolo medida em bits. De forma contrária, para todo código binário de mensagens em blocos de ν dígitos

LavvH(U) bits

Consequentemente, o teorema mostra que é possível, com um código adequado, atingir um grau de compressão tão próximo à quantidade de informação emitida pela fonte.

Referências

  1. Moser,Stefan M. Chen,Po-Ning. A Student's Guide to Coding and Information Theory. National Chiao Tung University (NCTU), Hsinchu, Taiwan.