Teorema da enumeração de Chomsky - Schützenberger

Fonte: testwiki
Saltar para a navegação Saltar para a pesquisa

Em teoria da linguagem formal, o teorema da enumeração de Chomsky-Schützenberger é um teorema derivado por Noam Chomsky e Marcel-Paul Schützenberger sobre o número de palavras de um determinado comprimento gerada por uma gramática livre de contexto inequívoca. O teorema fornece uma ligação inesperada entre a teoria das linguagens formais e álgebra abstrata.

Enunciado

A fim de indicar o teorema, são necessárias algumas noções de álgebra e teoria da linguagem formal.

Uma série de potência sobre é uma série infinita de forma

f=f(x)=k=0akxk=a0+a1x1+a2x2+a3x3+

com coeficientes ak em . A multiplicação de duas séries de potência f e g é definida de forma esperada como sendo a convolução de duas sequencias an e bn:

f(x)g(x)=k=0(i=0kaibki)xk.


Em particular, nós escrevemos f2=f(x)f(x), f3=f(x)f(x)f(x), e assim por diante. Em analogia aos números algébricos, uma série de potência f(x) é chamada algébrica sobre (x), se existe um conjunto finito de polinômios p0(x),p1(x),p2(x),,pn(x) cada qual com coeficientes de número racional tais como

p0(x)+p1(x)f+p2(x)f2++pn(x)fn=0.

Uma gramática livre-do-contexto é dita ser não-ambígua se toda palavra gerada pela gramática admite uma única árvore sintática, ou, equivalentemente, uma única derivação mais à esquerda.

Tendo estabelecido as noções necessárias, o teorema é enunciado como segue:

Teorema de Chomsky–Schützenberger. Se L é uma linguagem livre de contexto admitindo uma gramática livre de contexto inequívoca, e ak:=|L Σk| é o número de palavras de tamanho k em L, então G(x)=k=0akxk é uma série de potência sobre que é algébrica sobre (x).

Provas deste teorema são dadas por Kuich & Salomaa (1985), e por Panholzer (2005).

Usos

Estimativas assintóticas

O teorema pode ser usado em combinatórias analíticas para estimar o número de palavras de comprimento n gerados por uma determinada gramática livre de contexto inequívoca, como n cresce expansivamente. O exemplo a seguir é dado por Gruber, Lee & Shallit (2012): a gramática livre de contexto G inequívoca sobre o alfabeto {0,1} tem símbolo inicial S e as seguintes regras:

S → M | U
M → 0M1M | ε
U → 0S | 0M1U

Para se obter uma representação algébrica das séries de potência G(x) associadas com uma dada gramática livre de contexto G, esta representação transforma a gramática em um sistema de equações. Isto é conseguido através da substituição de cada ocorrência de um símbolo de terminal por 'x', cada ocorrência de 'ε' pelo inteiro "1", cada ocorrência de '→' por '=', e cada ocorrência de '|' por '+ ', respectivamente. A operação de concatenação para a caso do lado direito de cada regra corresponde à operação de multiplicação nas equações assim obtidos. Isso produz o seguinte sistema de equações:

S = M + U
M = M²x² + 1
U = Sx + MUx²

Neste sistema de equações, S, M, e L são funções de x, de modo que também se poderia escrever S (x), M (x), e L (x). O sistema de equações pode ser resolvido depois de S, resultando em uma única equação algébrica:

x(2x-1)S^2 + (2x-1)S +1 = 0.

Esta equação quadrática possui duas soluções para S, uma das quais é a série de potência algébrica L (x). Através da aplicação de métodos de análise complexa a esta equação, o número an de palavras de comprimento n gerado por G pode ser estimado, à medida que n cresce largamente. Neste caso, obtém-se que anO(2+ϵ)n mas anO(2ϵ)n para cada ϵ>0.

Ver Predefinição:Harv para uma exposição detalhada.

Ambiguidade Inerente

Em teoria da linguagem formal clássica, o teorema pode ser usado para provar que certas linguagens livres de contexto são inerentemente ambíguas. Por exemplo, a linguagem Goldstine LG sobre o alfabeto {a,b} consiste das palavras an1ban2banpb com p1, ni>0 para i{1,2,,p}, e njj para algum j{1,2,,p}.

É comparavelmente fácil mostrar que a linguagem LG é livre-do-contexto Predefinição:Harv. A parte mais difícil é mostrar que não há nenhuma gramática não-ambígua que gera LG. Isto pode ser provado como segue:

Se gk denota o número de palavras de tamanho k em LG, então para as séries de potência associadas assegura-se:G(x)=k=0gkxk=1x12x1xk1xk(k+1)/21. Usando métodos de análise complexa, este pode provar que esta função é não-algébrica sobre (x). Pelo teorema de Chomsky-Schützenberger, podemos concluir que LG não admite uma gramática livre-do-contexto não-ambígua. Ver Predefinição:Harv para mais detalhes.

Referencias

Predefinição:Refbegin

Predefinição:Citar livro
Predefinição:Citar livro
Predefinição:Citar livro
Predefinição:Citar arXiv
Predefinição:Citar livro
Predefinição:Citar periódico

Predefinição:Refend