Método NM

Fonte: testwiki
Saltar para a navegação Saltar para a pesquisa
NM-method
Método NM

O método NM ou método Naszodi-Mendonça é uma operação que pode ser aplicada em estatística, econometria, economia, sociologia e demografia para construir tabelas de contingência contrafactuais . O método produz uma matriz X ( Xn×m ) que minimiza uma medida de distância face à matriz Z ( Zn×m chamada tabela de origem) - ver definição de distância aplicada no método NM - , mas com os totais de linha e coluna de uma matriz de destino Y(Yn×m) . Enquanto que os totais das linhas e os totais das colunas de Y são conhecidos, matriz Y em si pode ser desconhecida.

Como a solução para a matriz X é única, o método NM é uma função: X=NM(Z,YemT,enY):n×m×n×mn×m, onde en é um vetor linha com todos os elementos iguais a um, com dimensão 1×n, enquanto emT é um vetor coluna de dimensão m×1 .

O método NM foi desenvolvido por Naszodi e Mendonça (2021) [1] (e aplicado pela primeira vez por Naszodi e Mendonca (2019) [2] ) para encontrar a matriz X em problemas, onde a matriz 𝒁 não é uma amostra da população caracterizada pelos totais de linhas e totais de colunas da matriz Y, mas representa outra população .

A aplicação visava quantificar as mudanças intergeracionais sobre a homofilia educacional e, assim, medir a mudança histórica na desigualdade social entre diferentes grupos educacionais nos EUA entre 1980 e 2010. A tendência da desigualdade foi encontrada em forma de U, apoiando a visão de que com políticas sociais e económicas apropriadas a desigualdade pode ser reduzida.

Definição de rank de matriz

A proximidade entre duas matrizes com a mesma dimensão pode ser definida de várias maneiras. A distância euclidiana e a divergência de Kullback-Leibler são dois exemplos bem conhecidos.

O método NM é consistente com a definição baseada no índice ordinal de Liu-Lu [3] que é a versão modificada do índice de Coleman definido pela Eq. (15) em Coleman (1958). [4] De acordo com esta definição, a matriz X é a "mais próxima" da matriz Z, se seus valores dados pelo indice de Liu-Lu forem os mesmos. Por outras palavras, se os valores da matriz X forem ordenados da mesma forma pelo índice Liu-Lu ordinal.

Se a matriz Z é uma matriz 2-por-2, o índice Liu-Lu, uma valor escalar, é definido como

LL(Z)=Z1,1Q(Z1,1)min(Z1,.,Z.,1)Q(Z1,1), onde Z1,.=Z1,1+Z1,2 ; Z.,1=Z1,1+Z2,1 ; Z.,.=Z.,1+Z1,. ; Q(Z1,1)=Z1,.Z.,1/Z.,. ; Q(Z1,1)=int[Q(Z1,1)] .

Seguindo Coleman (1958), [4] este índice pode ser interpretado como o “observado menos o esperado sobre o máximo menos o mínimo”, onde Z1,1 é o valor observado com posição 1,1 na matriz de origem Z ; Q é o o valor esperado (inteiro) sob as suposições contrafactuais de que o total da linha correspondente e o total da coluna de Z são predeterminados, enquanto o seu interior é aleatório. Também, Q é o valor mínimo se a associação entre a variável de linha e a variável de coluna de Z for não negativa. Finalmente, min(Z1,.,Z.,1) é o valor máximo de Z1,1 ( Zn×m ) para o total da linha dada Z1,. e coluna total Z.,1 .

Para uma matriz Z de dimensão n-m ( n2, m2 ), o índice Liu-Lu foi generalizado por Naszodi e Mendonça (2021) [1] para um índice com valor de matriz. Uma das pré-condições para a generalização é que a variável de linha e a variável de coluna da matriz Z tem que ser ordenada . Equacionando o índice Liu-Lu generalizado da matriz Z com o da matriz X é equivalente a dicotomizar a variável de linha ordenada e variável de coluna ordenada, dando origem a (n1)×(m1) alternativas, explorando a natureza ordenada das variáveis de linha e coluna. De seguida, equaciona-se os índices Liu-Lu originais de valor escalar das matrizes 2-por-2, obtidas com as dicotomizações, ou seja, para qualquer par de i,j ( i{1,,n1}, e j{1,,m1} ) a restrição LL(ViXWjT)=LL(ViZWjT) é imposta, onde Vi é a matriz 2×nVi=[11000011]com o Predefinição:Font color de dimensão 2×i, e o Predefinição:Font color de dimensão 2×(ni) . De forma similar, WjT de dimensão m×2 é uma matriz dada pela transposta deWj=[11000011]com o Predefinição:Font color de dimensão 2×j, e o Predefinição:Font color de dimensão 2×(mj) .

Restrições nos totais de linhas e totais de colunas

A matriz X deve satisfazer não só a condição LL(ViXWjT)=LL(ViZWjT) mas também o par de restrições nos totais de linhas e totais de colunas: XemT=YemT e enX=enY .

Solução

Assumindo que LL(ViZWjT)0 para todos os pares i,j (onde i{1,,n1}, e j{1,,m1} ), a solução para X é única, determinística e dado por uma fórmula fechada . [1]

Para matrizes Y e Z de dimensão 2×2, a solução é

X1,1=[Z1,1int(Z1,Z,1/Z,)][min(Y1,,Y,1)int(Y1,Y,1/Y,)]min(Z1,,Z,1)int(Z1,Z,1/Z,)+int(Y1,Y,1/Y,) .

As outras 3 células da matriz X são exclusivamente determinadas pelos totais de linha e totais de coluna. Portanto, é assim que o método NM funciona para tabelas de origem 2 por 2.

Para matrizes Y, e Z com dimensão 𝒏×𝒎 ( n2, m2 ), a solução é obtida pela dicotomização de sua variável de linha ordenada e variável de coluna ordenada de todas as maneiras significativas possíveis. De seguida, resolve-se (n1)(m1) problemas da forma 2-por-2. Cada problema é definido para um par i,j ( i{1,...,n1} e j{1,...,m1} ), colocando a restrição LL(ViXWjT)=LL(ViZWjT), bem como a restrição sobre os totais da linha da matriz de destino e os totais da coluna da matriz de destino: ViXemT=ViYemT, e enXWjT=enYWjT, respectivamente. Cada problema deve ser resolvido separadamente pela fórmula para X1,1 . O conjunto de soluções determina (n1)(m1) entradas da matriz X. Os restantes m+n1 elementos são determinados exclusivamente pelos totais da linha e os totais de coluna matriz de destino.


Em seguida, apresenta-se um exemplo de aplicação do método NM quando a matriz Z é tal que a segunda <b id="mwpw">pré-condição</b> LL(𝑽𝒊𝒁W𝒋𝑻)0 não é cumprida para 𝒊,𝒋 .

Se LL(𝑽𝒊𝒁W𝒋𝑻)0 para todos os pares de 𝒊,𝒋, a solução para X também é única, determinística e dada por uma fórmula de forma fechada. No entanto, o conceito correspondente de rank de matriz é ligeiramente diferente daquele discutido acima . Liu e Lu (2006) [3] definem-no como LL(Z)=Z1,1Q+(Z1,1)Q+(Z1,1)max(0;Z1,.Z.,2), onde Z.,2=Z1,2+Z2,2 ; Q+(Z1,1) é o menor inteiro sendo maior ou igual a Q .

Finalmente, nem o método NM, nem LL(𝒁) é definido se (i,j) tal que LL(𝑽𝒊𝒁W𝒋𝑻)>0, enquanto para outro par de k,l(i,j) LL(𝑽𝒌𝒁W𝒍𝑻)<0 .

Um exemplo numérico

Considere a seguinte Predefinição:Font color Z complementada com os totais de linha e totais de coluna e os alvos, ou seja, os Predefinição:Font color e Predefinição:Font color Y :

Z 1 2 3 4 TOTAL ALVO
1 Predefinição:Font color Predefinição:Font color Predefinição:Font color Predefinição:Font color 240 Predefinição:Font color
2 Predefinição:Font color Predefinição:Font color Predefinição:Font color Predefinição:Font color 235 Predefinição:Font color
3 Predefinição:Font color Predefinição:Font color Predefinição:Font color Predefinição:Font color 185 Predefinição:Font color
4 Predefinição:Font color Predefinição:Font color Predefinição:Font color Predefinição:Font color 140 Predefinição:Font color
TOTAL 210 230 185 175 800
ALVO Predefinição:Font color Predefinição:Font color Predefinição:Font color Predefinição:Font color 1.000

Na primeira etapa do método NM, a Predefinição:Font color Z é multiplicada pelas matrizes 𝑽𝒊, e W𝒋𝑻 para cada par de i,j ( i{1,2,3}, e j{1,2,3} ). Esta operação produz as seguintes 9 matrizes de tamanho 2 por 2 com seus totais de linha de destino e totais de coluna:

i=1,j=1 1 2 TOTAL ALVO
1 120 120 240 400
2 90 470 560 600
TOTAL 210 590 800
ALVO 400 600 1,000
i=1,j=2 1 2 TOTAL ALVO
1 190 50 240 400
2 250 30 560 600
TOTAL 440 360 800
ALVO 700 300 1,000
i=1,j=3 1 2 TOTAL ALVO
1 220 20 240 400
2 405 155 560 600
TOTAL 625 175 800
ALVO 900 100 1,000
i=2,j=1 1 2 TOTAL ALVO
1 170 305 475 700
2 40 285 325 300
TOTAL 210 590 800
ALVO 400 600 1,000
i=2,j=2 1 2 TOTAL ALVO
1 340 135 475 700
2 100 225 325 300
TOTAL 440 360 800
ALVO 700 300 1,000
i=2,j=3 1 2 TOTAL ALVO
1 420 55 475 700
2 205 120 325 300
TOTAL 625 175 800
ALVO 900 100 1,000
i=3,j=1 1 2 TOTAL ALVO
1 200 460 660 850
2 10 130 140 150
TOTAL 210 590 800
ALVO 400 600 1,000
i=3,j=2 1 2 TOTAL ALVO
1 410 250 660 850
2 30 110 140 150
TOTAL 440 360 800
ALVO 700 300 1,000
i=3,j=3 1 2 TOTAL ALVO
1 565 95 660 850
2 60 80 140 150
TOTAL 625 175 800
ALVO 900 100 1,000

O próximo passo consiste em calcular o índice Liu-Lu generalizado com valor de matriz LL(Z), (onde LL(Z)i,j=LL(ViZWjT) ) aplicando a fórmula do índice Liu-Lu de valor escalar original a cada uma das 9 matrizes:

LL(Z) j=1 j=2 j=3
i=1 0,39 0,54 0,62
i=2 0,53 0,44 0,47
i=3 0,73 0,61 0,45

Aparentemente, a matriz LL(Z) é positiva. Portanto, o método NM é definido. A resolução de cada um dos 9 problemas da forma 2 por 2 resulta em 9 entradas da X matriz. As suas outras 7 entradas são determinadas exclusivamente pelos totais da linha de destino e totais da coluna. A solução para 𝑿 é:

X 1 2 3 4 TOTAL
1 253.1 91,4 40,5 15.1 400
2 91.1 147.1 39,8 21.9 300
3 39,6 36,8 64.2 9.3 150
4 16.2 24,7 55,5 53,6 150
TOTAL 400 300 200 100 1.000


Outro exemplo numérico retirado de Abbott et al. (2019)

Considere a seguinte Predefinição:Font color Z complementado com seus totais de linhas e totais de colunas e os alvos, ou seja, os Predefinição:Font color e Predefinição:Font color Y :

Z 1 2 3 TOTAL ALVO
1 Predefinição:Font color Predefinição:Font color Predefinição:Font color 1.360 Predefinição:Font color
2 Predefinição:Font color Predefinição:Font color Predefinição:Font color 5.840 Predefinição:Font color
3 Predefinição:Font color Predefinição:Font color Predefinição:Font color 2.800 Predefinição:Font color
TOTAL 1.390 5.670 2.940 10.000
ALVO Predefinição:Font color Predefinição:Font color Predefinição:Font color 10.000

Como uma primeira etapa do método NM, a Predefinição:Font color Z é multiplicada pelas matrizes 𝑽𝒊, e W𝒋𝑻 para cada par i,j ( i{1,2}, e j{1,2} ). Esta operação resulta nas seguintes 4 matrizes de dimensão 2 por 2 com seus totais de linha de destino e totais de coluna:

i=1,j=1 1 2 TOTAL ALVO
1 1.070 290 1.360 1.600
2 320 8.320 8.640 8.400
TOTAL 1.390 8.610 10.000
ALVO 1.390 8.610 10.000
i=1,j=2 1 2 TOTAL ALVO
1 1.340 20 1.360 1.600
2 5.720 2.920 8.640 8.400
TOTAL 7.060 2.940 10.000
ALVO 7.060 2.940 10.000
i=2,j=1 1 2 TOTAL ALVO
1 1.370 5.830 7.200 7.500
2 20 2.780 2.800 2.500
TOTAL 1.390 8.610 10.000
ALVO 1.390 8.610 10.000
i=2,j=2 1 2 TOTAL ALVO
1 6.620 580 7.200 7.500
2 440 2.360 2.800 2.500
TOTAL 7.060 2.940 10.000
ALVO 7.060 2.940 10.000

O próximo passo consiste em calcular o índice Liu-Lu com valor de matriz generalizada LL(Z), (onde LL(Z)i,j=LL(ViZWjT) ), aplicando para tal a fórmula do índice Liu-Lu de valor escalar original a cada uma das 4 matrizes:

LL(Z) j=1 j=2
i=1 0,75 0,95
i=2 0,95 0,78

Aparentemente, a matriz LL(Z) é positiva. Portanto, o método NM é definido. Resolver cada um dos 4 problemas da forma 2 por 2 produz 4 entradas da X matriz. As restantes 5 entradas são determinadas exclusivamente pelos totais da linha de destino e totais da coluna. A solução para 𝑿 é:

X 1 2 3 TOTAL
1 1.101 476 24 1.600
2 271 4.819 809 5.900
3 18 375 2.107 2.500
TOTAL 1.390 5.670 2.940 10.000

Implementação

O método NM é implementado em Excel, [5] Visual Basic, [5] R, [5] e também em Stata . [6]

Aplicações

O método NM pode ser aplicado para estudar vários fenômenos, incluindo assortative mating, mobilidade intergeracional como um tipo de mobilidade social, segregação, recrutamento e gestão de talentos .

Em todas as aplicações, as matrizes X, Y, e Z representam distribuições conjuntas de entidades combinadas um-para-um (por exemplo, maridos e esposas, ou primogênitos e mães, ou residências e inquilinos principais, ou CEOs e empresas, ou instrutores de xadrez e seus alunos mais talentosos) caracterizados por uma variável categórica dicotômica (por exemplo, assumindo valores vegetarianos/não vegetarianos, Mestre/ou não) ou uma variável categórica multinomial ordenada (por exemplo, nível de escolaridade final, nível de habilidade dos esquiadores, intervalo de renda, categoria de taxa de aluguer, classificação de crédito, títulos FIDE) . Embora o método NM tenha uma ampla aplicabilidade, todos os exemplos a serem apresentados a seguir são sobre assortative mating ao longo do nível de escolaridade. Nessas aplicações, as duas pré-condições (da variável de característica ordenada e assortative mating positivo em todos os grupos educacionais) não são alvo de analise, assumindo que se verificam.

Suponha-se que a matriz Z caracteriza a distribuição educacional conjunta de maridos e esposas no Zimbábue, enquanto que a matriz Y caracteriza o mesmo no Iêmen. A matriz X, construída com o método NM diz-nos qual seria a distribuição educacional conjunta de casais no Zimbábue, se as distribuições educacionais de maridos e esposas fossem as mesmas do Iêmen, enquanto o desejo geral de homogamia (também chamado de preferências conjugais agregadas em economia, ou harmonização conjugal de normas sociais /barreiras sociais em sociologia) permaneceram inalterados.

Numa segunda aplicação, as matrizes Z e Y caracterizam o mesmo país em dois periodos diferentes. A matriz Z é a distribuição educacional conjunta de recém-casados americanos em 2040, onde os maridos são da Geração Z e sendo jovens adultos quando observados. A matriz Y é o mesmo, mas para a Geração Y observada no ano de 2024. Ao construir a matriz X, pode-se estudar no futuro qual seria a distribuição educacional entre os jovens casais americanos recém-casados se eles se ordenassem da mesma forma que os homens da Geração Z e as suas parceiras, enquanto o nível de educação fosse o mesmo entre os homens na Geração Y e suas parceiras.

Numa terceira aplicação, as matrizes Z e Y caracterizam novamente o mesmo país em dois peridos diferentes. Nesta aplicação, a matriz Z é a distribuição educativa conjunta dos jovens casais portugueses (em que a idade dos parceiros masculinos se situa entre os 30 e os 34 anos) em 2011. A matriz Y representa o mesmo, mas é observada no ano de 1981. O objetivo seria construir uma matriz X a fim de estudar qual teria sido a distribuição educacional dos jovens casais portugueses se eles tivessem casado como seus pares em 2011, enquanto suas distribuições educacionais específicas por gênero fossem as mesmas de 1981.

Nas duas primeiras aplicações, a matriz X representa uma distribuição conjunta contrafactual. Esta pode ser usada para quantificar alguns efeitos ceteris paribus . Mais precisamente, quantificar em escala cardinal a diferença entre o grau diretamente não observável de seleção conjugal no Zimbábue e no Iêmen, ou na Geração Z e na Geração Y com uma decomposição contrafactual. Para a decomposição, a tabela contrafactual X é usada para calcular a contribuição de cada uma das forças (ou seja, a disponibilidade estrutural observada de parceiros potenciais com vários níveis de educação, determinando as oportunidades no nível da população; e os efeitos não estruturais não observáveis, por exemplo, preferências de correspondência agregada, desejos, normas, barreiras) e a sua interação (ou seja, o efeito de mudanças em preferências/desejos/normas/barreiras agregadas devido a mudanças na disponibilidade estrutural) para uma estatística observável em escala cardinal (por exemplo, a parcela de casais homogâmicos educacionalmente ).

A terceira aplicação foi utilizada por Naszodi e Mendonça (2021) [1] como exemplo para uma contrafactual inviável : o nível de ensino mudou tão drasticamente em Portugal ao longo das três décadas estudadas que este contrafactual seria impossível de obter.

Algumas características do método NM

Primeiro, o método NM não produz uma solução significativa se atingir o limite de sua aplicabilidade. [1] Por exemplo, na terceira aplicação, o método NM sinaliza com uma entrada negativa na matriz X que o contrafactual é impossível (ver: AlternativeMethod_US_1980s_2010s_age3035_main.xls Sheet PT_A1981_P2011_Not_meaningful). [5] A este respeito, o método NM é semelhante ao modelo de probabilidade linear que sinaliza o mesmo com uma probabilidade prevista fora do intervalo de unidade [0,1] .


Em segundo lugar, o método NM comuta com a agregação de categorias vizinhas da variável de linha e da variável de coluna: [1] NM(MrZ,MrYemT,MrenY)=MrNM(Z,YemT,enY), onde Mr é a matriz de agregação de linhas de dimensão (n1)×n ; e NM(ZMc,YemTMc,enYMc)=NM(Z,YemT,enY)Mc, onde Mc é a matriz de agregação de colunas de dimensão m×(m1) .


Em terceiro lugar, o método NM funciona mesmo se houver entradas iguais a zero na matriz Z . [1]


Comparação com o método IPF

O método de ajuste proporcional iterativo (IPF) também é uma função: [7] [8] [9] [10] IPF(Z,YemT,enY):n×m×n×mn×m . Este método consiste em encontrar uma matriz ajustada 𝑭 ( Fn×m ) que preenche um conjunto de condições semelhantes às da matriz X construída com o método NM. Por exemplo, a matriz F é o mais próxima da matriz 𝒁 mas com os totais de linha e coluna da matriz de destino 𝒀 .

No entanto, existem algumas diferenças entre o método IPF e o método NM. O IPF define a proximidade de matrizes com dimensão identica pela entropia cruzada, ou pela divergência de Kullback-Leibler . [11] Assim, o conceito de distância compatível com o IPF entre as matrizes 2-por-2 F e Z é zero, se os produtos cruzados [10] (também conhecidos por odds ratio) forem os mesmos em ambas as matrizes: F1,1F2,2/F1,2F2,1=Z1,1Z2,2/Z1,2Z2,1 . [12] A condição do método NM para igual ordenação de matrizes X e Z é dada por:LL(X)=X1,1int[X1,.X.,1/X.,.]min(X1,.,X.,1)int[X1,.X.,1/X.,.]=Z1,1int[Z1,.Z.,1/Z.,.]min(Z1,.,Z.,1)int[Z1,.Z.,1/Z.,.]=LL(Z) .

O exemplo numérico seguinte destaca que o método IPF e o método NM não são idênticos: IPF(Z,YemT,enY)NM(Z,YemT,enY) . Considere a Predefinição:Font color Z com seus Predefinição:Font color :

1 2 TOTAL ALVO
1 Predefinição:Font color Predefinição:Font color 600 Predefinição:Font color
2 Predefinição:Font color Predefinição:Font color 400 Predefinição:Font color
TOTAL 500 500
ALVO Predefinição:Font color Predefinição:Font color 1.500

O método NM produz a seguinte matriz X :

X 1 2 TOTAL
1 925 125 1.050
2 75 375 450
TOTAL 1.000 500 1.500

Enquanto que a solução para a matriz F obtida com o IPF é:

F 1 2 TOTAL
1 900 150 1.050
2 100 350 450
TOTAL 1.000 500 1.500

O IPF é equivalente ao estimador de máxima verossimilhança [9] de uma distribuição populacional conjunta, onde a matriz F (a estimativa para a distribuição conjunta da população) é calculada a partir da matriz Z, a distribuição conjunta observada em uma amostra aleatória retirada da população caracterizada pelos totais de linhas e totais de colunas da matriz Y . Em contraste com o problema resolvido pelo IPF, a matriz Z não é amostrada dessa população no problema para o qual o método NM foi desenvolvido. De fato, no problema NM, as matrizes Z e Y caracterizam duas populações diferentes (observadas simultaneamente como na aplicação para o Zimbábue e o Iêmen, ou observadas em dois periodos temporais diferentes como na aplicação para as populações da Geração Z e Geração Y ). Esta diferença facilita a escolha entre o método NM e o IPF em aplicações empíricas. [12]


</br>Deming e Stephan (1940), [13] os inventores do IPF, ilustraram a aplicação de seu método num problema clássico de estimação por máxima verossimilhança, onde a matriz Z foi amostrada da população caracterizada pelos totais de linhas e totais de colunas da matriz Y. Eles estavam cientes do fato de que, em geral, o IPF não é adequado para previsões contrafactuais, e alertaram explicitamente que seu algoritmo “não é útil por si só para previsões” (ver Stephan e Deming 1940 p. 444). [13] [12]

Além disso, o método IPF e o método NM produzem soluções para dominios diferentes. Primeiro, ao contrário do método NM, o IPF não fornece uma solução para todas as tabelas de origem Z com entradas iguais a zero (Csiszár (1975) [14] encontrou condições necessárias e suficientes para a aplicação do IPF com tabelas gerais com entradas iguais a zero). Em segundo lugar, ao contrário do IPF, o método NM não fornece uma solução significativa para pares de matrizes Z e Y que definem contrafactuais impossíveis. Em terceiro lugar, a pré-condição do método NM (seja LL(𝒁)0 ou LL(𝒁)0 ) não é condição de aplicabilidade do IPF.

Finalmente, ao contrário do NM, o IPF não comuta com a operação de fusão das categorias vizinhas da variável linha e da variável coluna conforme ilustrado com um exemplo numérico em Naszodi(2023) (ver página 10). [15] Por esta razão, a tabela transformada obtida com o IPF pode ser sensível à escolha do número de categorias de características.

Comparação com a Abordagem da Distância Euclidiana Mínima

A abordagem de distância euclidiana mínima ( MEDA ) (definida por Abbott et al., 2019 seguindo Fernández e Rogerson, 2001) também é uma função: [16] [17] MEDA(Z,YemT,enY):n×m×n×mn×m .

Primeiro, a MEDA atribui um escalar à matriz Z : é o peso usado para construir a combinação convexa de dois casos extremos (casamento aleatório e perfeitamente seletivo com o par de marginais (ZemT,enZ)) minimizando a distância Eucledeana com Z . Por exemplo, este escalar é v=0.265 no exemplo numérico retirado de Abbott et al.(2019) . [16] Em segundo lugar, para qualquer par de distribuições marginais contrafactuais ( YemT,enY ) o MEDA constrói a combinação convexa dos dois casos extremos (correspondências aleatórias e perfeitamente seletivas com o par de marginais ( YemT,enY )).


Diferenças entre o NM e o MEDA: enquanto o NM mantém a seletividade inalterada, mantendo o índice Liu-Lu com valor de matriz generalizada LL(Z) fixo, o MEDA faz o mesmo mantendo o escalar v fixo. Para Y, e Z duas matrizes de dimensão 2×2 os dois métodos produzem a mesma tabela transformada caso v ordene as tabelas de contingência da mesma forma que o índice Liu-Lu. [18] No entanto, para matrizes Z com dimensões superiores a 2-por-2, o índice Liu-Lu generalizado tem valor de matriz, e portanto é diferente do valor de escalar v(Z) . Portanto, a tabela transformada com o método NM também é diferente da tabela transformada com o método MEDA.

Por exemplo, no exemplo numérico retirado de Abbott et al.(2019), a tabela contrafactual construída pelo MEDA é a matriz F :

F 1 2 3 TOTAL
1 1.081 240 279 1.600
2 217 5.054 629 5.900
3 92 376 2.032 2.500
TOTAL 1.390 5.670 2.940 10.000

A diferença entre a matriz F e matriz X não é desprezível. Por exemplo, a parcela de casais homogamicos é 2 pontos percentuais menor na matriz contrafactual F construída pelo MEDA do que na matriz observada Z, enquanto é 3,4 pontos percentuais menor na matriz contrafactual construída pelo NM X relativo a Z .

Como o exemplo de Abbott não é fictício, mas sim baseado na distribuição educacional empírica de casais americanos, a diferença entre 2 pontos percentuais e 3,4 pontos percentuais pode ser interpretada como: o MEDA quantifica mudanças na desigualdade de uma geração para outra geração a que são significativamente menores em comparação com o NM.


Predefinição:Referências

  1. 1,0 1,1 1,2 1,3 1,4 1,5 1,6 Predefinição:Citar periódico
  2. Predefinição:Citar periódico
  3. 3,0 3,1 Predefinição:Citar periódico
  4. 4,0 4,1 Predefinição:Citar periódico
  5. 5,0 5,1 5,2 5,3 Predefinição:Citar periódico
  6. Predefinição:Citar periódico
  7. Sinkhorn, Richard (1964). “A Relationship Between Arbitrary Positive Matrices and Doubly Stochastic Matrices”. In: Annals of Mathematical Statistics 35.2, pp. 876–879.
  8. Bacharach, Michael (1965). “Estimating Nonnegative Matrices from Marginal Data”. In: International Economic Review 6.3, pp. 294–310.
  9. 9,0 9,1 Predefinição:Citar periódico
  10. 10,0 10,1 Predefinição:Citar periódico
  11. Kullback S. and Leibler R.A. (1951) On information and sufficiency, Annals of Mathematics and Statistics, 22 (1951) 79-86.
  12. 12,0 12,1 12,2 Predefinição:Citar arXiv
  13. 13,0 13,1 Predefinição:Citar periódico
  14. Predefinição:Citar periódico
  15. Predefinição:Citar arXiv
  16. 16,0 16,1 Predefinição:Citar periódico
  17. Predefinição:Citar periódico
  18. Predefinição:Citar periódico