Entropia cruzada

Fonte: testwiki
Revisão em 04h31min de 19 de dezembro de 2021 por imported>Gremista.32 (Veja também)
(dif) ← Revisão anterior | Revisão atual (dif) | Revisão seguinte → (dif)
Saltar para a navegação Saltar para a pesquisa

Predefinição:Mais fontes

Na teoria da informação, a entropia cruzada se refere à diferença entre duas distribuições de probabilidade p (verdadeira) e q (estimada) sobre o mesmo conjunto de eventos. Na prática, a entropia cruzada mede o número médio de bits necessários para identificar um evento , se a codificação utilizada for otimizada para a distribuição de probabilidade estimada q, em vez de otimizada para a distribuição de probabilidade verdadeira p .

Definição

A entropia cruzada da distribuição q em relação a uma distribuição p sobre um determinado conjunto é definido da seguinte maneira:

H(p,q)=Ep[logq] .

A definição pode ser formulada usando a divergência Kullback – Leibler DKL(pq) do p a partir de q (também conhecida como entropia relativa de q em relação a p )

H(p,q)=H(p)+DKL(pq) ,

Onde H(p) é a entropia de p .

Para distribuições de probabilidade discretas p e q com o mesmo suporte 𝒳, isso significa queː Predefinição:NumBlkA situação para distribuições contínuas é análoga. Temos que assumir que p e q são absolutamente contínuos em relação a alguma medida de referência r (usualmente r é uma medida de Lebesgue em uma σ-álgebra de Borel ). Deixe P e Q serem funções densidade de probabilidade de p e q em relação a r . Entãoː

𝒳P(x)logQ(x)dr(x)=Ep[logQ]

e, portantoː Predefinição:NumBlkNota: A notação H(p,q) também é usado para um conceito diferente, a entropia conjunta de p e q .

Motivação

Na teoria da informação, o teorema de Kraft – McMillan estabelece que qualquer esquema diretamente decodificável que codifique uma mensagem capaz de identificar um valor xi ( de um conjunto de possibilidades {x1,...,xn} ) pode ser visto como representando uma distribuição implícita de probabilidade q(xi)=(12)li sobre {x1,...,xn}, onde li é o comprimento do código para xi em bits. Portanto, a entropia cruzada pode ser interpretada como o comprimento esperado da mensagem por cada dado quando a distribuição incorreta q é assumida, enquanto, na verdade, os dados seguem a distribuição correta p . É por isso que a expectativa (E) é assumida sobre a distribuição de probabilidade p e não q . De fato, o tamanho esperado da mensagem sob a verdadeira distribuição p é,

Ep[l]=Ep[lnq(x)ln(2)]=Ep[log2q(x)]=xip(xi)log2q(xi)=xp(x)log2q(x)=H(p,q)

Estimativa

Existem muitas situações em que precisamos medir a entropia cruazada, mas não sabemos a distribuição real p É. Um exemplo é a modelagem de linguagem, na qual um modelo é criado com base no conjunto de treinamento T e sua entropia cruzada é medida em um conjunto de testes para avaliar a precisão. Neste exemplo, p é a verdadeira distribuição das palavras em qualquer corpus, e q é a distribuição de palavras conforme previsto pelo modelo. Como a distribuição verdadeira é desconhecida, a entropia cruzada não pode ser calculada diretamente. Nesses casos, uma estimativa da entropia cruzada é calculada usando a seguinte fórmula:

H(T,q)=i=1N1Nlog2q(xi)

onde N é o tamanho do conjunto de teste e q(x) é a probabilidade de evento x estimado a partir do conjunto de treinamento. A soma é calculada sobre N . Essa é uma estimativa de Monte Carlo da verdadeira entropia cruzada, na qual o conjunto de testes é tratado como amostras de p(x)  .

Relação com log-verossimilhança

Nos problemas de classificação, queremos estimar a probabilidade de resultados diferentes. Se a probabilidade estimada de resultado i é qi, a frequência (probabilidade empírica) de i no conjunto de treinamento é pi e há N amostras de treinamento, a verossimilhança do conjunto de treinamento é

iqiNpi

portanto, a log-verossimilhança, dividida por N é

1NlogiqiNpi=ipilogqi=H(p,q)

de modo que maximizar a verossimilhança é o mesmo que minimizar a entropia cruzada.

Minimização de entropia cruzada

A minimização de entropia cruzada é freqüentemente usada na otimização e na estimativa da probabilidade de eventos raros.

Ao comparar uma distribuição q contra uma distribuição de referência fixa p, entropia cruzada e divergência KL são idênticas até uma constante aditiva (já que p é fixo): ambos assumem seus valores mínimos quando p=q, atingindo 0 para a divergência KL e H(p) para a entropia cruzada.[1] Na literatura de engenharia, o princípio de minimizar a divergência KL (" Princípio da informação mínima sobre discriminação " de Kullback) é freqüentemente chamado de Princípio da entropia cruzada mínima (MCE), ou Minxent .

Entretanto, conforme discutido no artigo Divergência de Kullback-Leibler, às vezes a distribuição q é a distribuição de referência prévia fixa e a distribuição p é otimizado para ficar o mais próximo possível q quanto possível, sujeito a alguma restrição. Nesse caso, as duas minimizações não são equivalentes. Isso levou a alguma ambiguidade na literatura, com alguns autores tentando resolver a inconsistência redefinindo a entropia cruzada para ser DKL(pq), ao invés de H(p,q) .

Função de perda de entropia cruzada e regressão logística

A entropia cruzada pode ser usada para definir uma função de perda no aprendizado de máquina e otimização . A verdadeira probabilidade pi é o rótulo verdadeiro e a distribuição fornecida qi é o valor previsto do modelo atual.

Mais especificamente, considere a regressão logística, que (entre outras coisas) pode ser usada para classificar observações em duas classes possíveis (geralmente simplesmente rotuladas 0 e 1 ) A saída do modelo para uma observação, dado um vetor de entrada x, pode ser interpretado como uma probabilidade, que serve como base para classificar a observação. A probabilidade é modelada usando a função logística g(z)=1/(1+ez) Onde z é alguma função do vetor de entrada x, geralmente apenas uma função linear. A probabilidade de saída y=1 É dado por

qy=1 = y^  g(𝐰𝐱) =1/(1+e𝐰𝐱),

onde o vetor de pesos 𝐰 é otimizado através de algum algoritmo apropriado, como descida de gradiente. Da mesma forma, a probabilidade complementar de encontrar a saída y=0 é simplesmente dado por

qy=0 = 1y^

Tendo criado nossa notação, p{y,1y} e q{y^,1y^}, podemos usar entropia cruzada para obter uma medida de dissimilaridade entre p e q :

H(p,q) = ipilogqi = ylogy^(1y)log(1y^)

A função de perda típica que se usa na regressão logística é calculada pela média de todas as entropias cruzadas na amostra. Por exemplo, suponha que tenhamos N amostras com cada amostra indexada por n=1,,N . A função de perda é então dada por:

J(𝐰) = 1Nn=1NH(pn,qn) = 1Nn=1N [ynlogy^n+(1yn)log(1y^n)],

Onde y^ng(𝐰𝐱n)=1/(1+e𝐰𝐱n) com g(z) a função logística como antes.

A perda logística é às vezes chamada de perda de entropia cruzada. Também é conhecido como perda de log (log loss) (nesse caso, o rótulo binário é frequentemente indicado por {-1, + 1}).[2]

Ver também

Predefinição:Referências

Ligações externas

  1. Ian Goodfellow, Yoshua Bengio, and Aaron Courville (2016). Deep Learning. MIT Press. Online
  2. Predefinição:Citar livro