Cadeias estocásticas com memória de alcance variável

Fonte: testwiki
Revisão em 01h54min de 30 de junho de 2022 por imported>Dorito voador20 (growthexperiments-addlink-summary-summary:3|0|0)
(dif) ← Revisão anterior | Revisão atual (dif) | Revisão seguinte → (dif)
Saltar para a navegação Saltar para a pesquisa

Cadeias estocásticas com memória de alcance variável constituem uma família de cadeias estocásticas de ordem finita em um alfabeto finito. A ideia é que, para cada passado, apenas um sufixo finito do passado, chamado contexto, é suficiente para predizer o próximo símbolo. Esses modelos foram introduzidos na literatura da teoria da informação por Jorma Rissanen, em 1983, [1] como uma ferramenta universal para a compressão de dados. Recentemente, elas têm sido usadas para modelar dados em diferente áreas, como biologia,[2] linguística,[3] e música.[4]

Definicão

Uma cadeia com memória de alcance variável é uma cadeia estocástica (Xn)nZ, tomando valores em um alfabeto finito A e caracterizada por uma árvore probabilística de contextos (τ,p) , tal que

  1. τ é o conjunto de todos os contextos. Um contexto Xnl,,Xn1, sendo l o tamanho do contexto, é uma porção finita do passado X,,Xn1 que é relevante para predizer o próximo símbolo Xn;
  2. p é uma família de probabilidade de transição associada a cada contexto.

História

A classe das cadeias estocásticas com memória de alcance variável foi introduzida em 1983 por Jorma Rissanen, no artigo A universal system for data compression system.[1] Essa classe de cadeias estocásticas foi popularizada na comunidade estatística e probabilística por P. Bühlmann e A. J. Wyner, em 1999, no artigo Variable Length Markov Chains. Chamadas por Bühlmann e Wyner de “cadeias de Markov de alcance variável" (em inglês, VLMC, sigla de "Variable length Markov chains"), essas cadeias também são conhecidas por "Modelos de Markov de ordem variável" (em inglês, VOM, da sigla de "Variable order Markov Models"), “Árvores probabilísticas de sufixos” [2] e “Modelos gerados por árvores de contexto”[5] (Em inglês, “Context tree models”`). A designação “Cadeias estocásticas com memória de alcance variável” parece ter sido introduzida por Galves e Löcherbach, em 2008, no artigo Stochastic chains with memory of variable length.[6]

Exemplos

Fonte de Luz Interrompida

Considere um sistema composto por uma lâmpada, um observador e uma porta entre ambos. A lâmpada possui dois estados possíveis: acesa, representada por 1, ou apagada, representada por zero. Quando a lâmpada está acesa, o observador pode receber a luz emitida através da porta, que também pode se encontrar em dois estados: aberta, 1, ou fechada, 0. Estes estados independem do estado original da lâmpada.

Seja (Xn)n0 uma cadeia de Markov que represente o estado da lâmpada, com valores em A=0,1 e com uma matriz de probabilidade de transição p. Seja também (ξn)n0 uma sequência de variáveis aleatórias independentes que represente o estado da porta, também assumindo valores em A, independente da cadeia (Xn)n0 e tal que

(ξn=1)=1ϵ

onde 0<ϵ<1. Define-se uma nova sequência (Zn)n0 tal que

Zn=Xnξn para todo (Zn)n0.

Para descobrir o último instante em que o observador conseguiu ver a lâmpada acesa, isto é, identificar o menor instante k, com k<n tal que Zk=1.

Utilizando uma árvore de contextos é possível representar os estados passados da sequência, mostrando qual é relevante para identificar o próximo estado.

A cadeia estocástica (Zn)n é, então, uma cadeia com memória de alcance variável, assumindo valores em A e compatível com uma árvore probabilística de contextos (τ,p), onde

τ={1,10,100,}{0}.

Propriedades probabilísticas

Existência

Simulação perfeita

Inferência em cadeias com memória de alcance variável

Dada uma amostra Xl,,Xn, como encontrar a árvore de contexto adequada? Os principais algoritmos já formulados para a solução desse problema são apresentados a seguir.

O algoritmo contexto

No artigo A Universal Data Compression System,[1] Rissanen introduziu um algoritmo consistente para estimar a árvore probabilística de contextos finita geradora dos dados. O modo como tal algoritmo funciona pode ser sumarizado em dois passos:

  1. Dada um amostra produzida por uma cadeia com memória de alcance variável, começamos com a árvore máxima cujos ramos são todos os candidatos à contextos para a amostra;
  2. Os ramos dessa árvore são então podados até se obter a menor árvore que esteja bem adaptada aos dados. A decisão por encurtar ou não o contexto se dá por meio de uma dada função de ganho, como por exemplo, a razão do logaritmo das verossimilhanças.

Vamos à descrição mais formal do algoritmo. Seja X0,,Xn1 uma amostra de uma árvore probabilística finita (τ,p). Para qualquer sequência xj1 com jn, denotamos por Nn(xj1) o número de ocorrências da sequência na amostra, isto é,

Nn(xj1)=t=0nj𝟏{Xtt+j1=xj1}

Rissanen primeiramente construiu um candidato máximo de contexto, dado por XnK(n)n1, onde K(n)=Clogn e C uma constante positiva arbitrária. A razão intuitiva para a escolha de Clogn decorre da impossibilidade de estimar as probabilidades de sequência de comprimento maior que logn baseado em uma amostra de tamanho n.

A partir daí, Rissanen encurta o candidato máximo à contexto por meio de sucessivas podas dos ramos de acordo com uma sequência de testes baseados na estatística de razão de verossimilhanças. Para uma definição mais formal, se bANn(xk1b)>0 defina o estimador da probabilidade de transição p por

p^n(a|xk1)=Nn(xk1a)bANn(xk1b)

onde xj1a=(xj,,x1,a). Caso bANn(xk1b)=0, defina p^n(a|xk1)=1/|A|.

Para i1 definimos

Λn(xi1)=2yAaANn(yxi1a)log[p^n(a|xi1y)p^n(a|xi1)]

onde yxi1=(y,xi,,x1) e

p^n(a|xi1y)=Nn(yxi1a)bANn(yxi1b).

Note que Λn(xi1) é a razão do logaritmo das verossimilhanças para testar a consistência da amostra com a árvore probabilística de contextos (τ,p) contra a alternativa que é consistente com (τ,p), onde τ e τ diferem apenas por um conjunto de nós irmãos.

O comprimento do atual contexto estimado é então definido por

^n(X0n1)=max{i=1,,K(n):Λn(Xnin1)>Clogn}

onde C é qualquer constante positiva. Por fim, por Rissanen(1983)[1] temos o seguinte resultado. Dada uma realização X0,,Xn1 de uma árvore probabilística de contextos (τ,p) finita, então

P(^n(X0n1)(X0n1))0,

quando n.

Critério de informação Bayesiana (BIC)

O estimador da árvore de contexto pelo BIC com constante penalizadora c>0 é definido como

τ^BIC=argmaxτ𝒯n{logLτ(X1n)cdf(τ)logn}

Critério do menor maximizador (SMC)

O critério do menor maximizador [3] se dá ao selecionar a menor árvore τ^ de um conjunto de árvores C tal que

limnlogLτ(X1n)logLτ^(X1n)n=0

Ver também

Predefinição:Referências

Predefinição:Processos estocásticos