Análise de dados quantitativos com R Commander, de Diógenes de Souza Bido
O livro sobre o qual vou falar hoje trata de análise de dados com R Commander. O autor, Diógenes de Souza Bido, é livre docente na área de Métodos Quantitativos, com h-index 23 e mais de 3000 citações. Embora as métricas utilizadas pelo h-index e similares não sejam as mais apropriadas, quando se considera o conjunto de atributos do autor, percebe-se claramente a extensão de sua experiência, bem como se pode deduzir a excelência de sua didática. Diógenes obteve seu pós-doutorado no IPEN e seu doutorado pela FEA/USP. Desde os anos 1990 trabalha com Estatística e acumula uma vasta vivência com o uso de diferentes softwares.
Nas primeiras páginas do livro, o autor comenta sobre os motivos que o levaram a adotar o R Commander, apontando as vantagens do R em comparação ao SPSS, sendo que a mais importante motivação inicial é a gratuidade, mas depois que a pessoa aprende a utilizar a ferramenta, descobre muitíssimas outras vantagens. Na universidade em que leciona, ele comenta que é tradicionalmente utilizado o SPSS, mas os alunos reclamam do preço: a assinatura mais básica custa R$ 560 mensais. Embora o SPSS seja um excelente software e valha cada centavo, o R vale muito mais e é generosamente distribuído de graça! A única “desvantagem” é que o R é uma linguagem, não é um software com interface gráfica, e para quem não tem experiência com programação nem interesse em aprender, isso acaba sendo desmotivador. Justamente por isso é que o autor apresenta o R Commander, que torna o R muito mais amigável. Desse modo, o aluno pode economizar mais de R$ 25.000 durante o curso e ainda aprende uma ferramenta mais poderosa.
Nesse ponto preciso confessar que ainda não li esse livro, porque ao ver o vídeo de divulgação e tentar comprá-lo, deparei com a tela do print, ou seja, ainda não está disponível. Também não o encontrei na Amazon nem nas primeiras páginas de pesquisa do Google, mas suponho que nos próximos dias poderá ser encontrado nesse link (no qual se pode, por enquanto, baixar as primeiras páginas):
https://www.mackenzie.br/editora/livro/n/a/i/analise-de-dados-quantitativos-com-r-commander?fbclid=IwAR3DmkGDfN9-lad0M7Sfo8VvGn8oDOAhe4BbmbSTzrRFgsR_odQT5iyreKs
Também se pode encontrar os apêndices, pesquisando no Google. Fiquei em dúvida se deveria analisar o livro com base exclusivamente nisso, e decidi tentar, pois quase todos os artigos que “leio”, minha análise é mais de 90% baseada nos gráficos, e como os apêndices incluem vários gráficos e alguns comentários conceituais interessantes, creio haja subsídios suficientes para uma análise preliminar, e futuramente talvez eu adicione mais comentários.
Achei apropriado dividir a análise em 3 partes: sobre o autor, sobre o R e sobre um dos tópicos discutidos nos apêndices. Como já falei um pouco sobre o autor e sobre o R, agora vou comentar sobre esse tópico: trata-se da possibilidade de usar ANOVA em variáveis ordinais. A questão é bem mais polêmica do que poderia parecer à primeira visa. Vou copiar e colar um fragmento do livro sobre isso:
“””””
Em um Guia para Avaliadores, temos a seguinte recomendação:
“”“A primeira suposição de escala de intervalo atraiu um debate considerável ao longo dos anos, com alguns mantendo que intervalos iguais são necessários para usar ANOVA [...]
Estou do lado desta última posição, mais liberal, o que significa que a análise pode ser conduzida com uma escala de propriedades relativamente desconhecidas, mas deve-se ter cuidado ao fazer o salto inferencial para a variável dependente.
[...] eles podem prosseguir com ANOVA, mas não implica que eles têm uma escala de intervalo, mas sim que estão tratando os números como se fossem uma escala de intervalo, percebendo que a falta de ajuste afeta o grau no qual a pesquisa responde às questões que foram levantadas. (KLOCKARS, 2010, p.7).
Então, tratar os escores fatoriais (obtidos na análise fatorial ou obtidos agregando-se os itens por soma ou média) como sendo intervalares é um procedimento aceito e recomendado por autores metodológicos.
O questionamento surge quando se considera os itens, que são ordinais, como se fossem intervalares. Por um lado, encontramos autores como Pasquali (2004, p.36) que recomenda os métodos não-paramétricos para as escalas ordinais e paramétricos para as intervalares e alerta que:
“Não é permitido (é erro) utilizar estatísticas de uma escala de nível superior numa inferior [razão é superior à intervalar, que é superior à ordinal], dado que esta não satisfaz os requisitos necessários para se utilizarem procedimentos estatísticos superiores.”
Por outro lado, Sekaran e Bougie (2013, p.213-214) explicam o que são escalas ordinais e intervalares, mas, estranhamente usaram como exemplo de variável intervalar a escala Likert (1 = discordo fortemente; 2 = discordo; 3 = nem concordo e nem discordo; 4 = concordo; 5 = concordo fortemente). Hair Jr., Babin, Money e Samouel (2006, p.184-185) são mais precisos que Sekaran e Bougie:
“Falando em termos restritos, a escala de classificação acima [1 = discorda totalmente … 5 = concorda totalmente] é uma escala ordinal. Tornou-se habitual na pesquisa em administração, no entanto, tratar a escala como se ela fosse intervalar. Evidência[s] empíricas de que as pessoas tratam os intervalos entre os pontos como sendo iguais em magnitude fornecem a justificativa para tratá-los como medidas de uma escala intervalar.”
”””
“””””
Fonte: file:///C:/Users/User/Desktop/Apendice_BIDO_v12_29102021.pdf (p.43)
A rigor, o posicionamento do Pasquali seria o mais correto sob o ponto de vista matemático e conceitual, mas do ponto de vista operacional, deve-se levar em consideração vários fatores.
Em primeiro lugar, no mundo real não existem escalas exatamente intervalares. Tenta-se modelar determinados fenômenos físicos para que as escalas fiquem tão aproximadamente intervalares quanto possível. O fluxo de tempo, por exemplo. Recentemente se verificou que a definição de segundo do SI, baseada no isótopo 133 do Césio, não é constante.
É importante especificar “constante em relação a quê”, e nesse caso isso se compara dois ou mais isótopos iguais, em repouso um em relação ao outro, e verifica-se os períodos de oscilação se são idênticos.
Portanto as escalas são apenas aproximadamente intervalares, ou seja, são ordinais. Comprimento, temperatura, corrente elétrica, massa etc. são todas variáveis em escalas ordinais. Então a questão é: qual é o nível tolerável de variabilidade entre os intervalos para que se possa tratá-los como se fossem intervalares? E a resposta naturalmente é que depende da situação.
No caso da escala Likert, que foi discutido acima, o problema principal nem sequer está relacionado ao fato de ser ordinal ou intervalar. Um dos maiores problemas é que o escore 3 para uma pessoa pode ter significado muitíssimo diferente do escore 3 para outra. Isso causa vários problemas em avalições de restaurantes, hotéis etc., porque o público que frequenta os locais mais caros é mais exigente e está menos propenso a dar notas altas. Na cidade vizinha, por exemplo, há um trailer que tem nota 4,9, enquanto o melhor restaurante da cidade tem nota 4,7. Em todos os quesitos (simpatia no atendimento, qualidade da comida, higiene etc.) o restaurante é muito melhor, mas como o público que frequenta o restaurante não vota no trailer e vice-versa, há um grave viés que distorce os escores nessa escala.
Essa discussão sobre aspectos epistemológicos e conceituais me pareceu um valioso diferencial, pois não se restringe a seguir cegamente uma regra imposta sobre o que se pode ou não se pode fazer. Em vez disso, o tema é analisado criticamente sob diferentes perspectivas, proporcionando uma visão mais completa e mais profunda sobre o assunto. Muitas vezes o aluno se sente engessado por não saber quando pode “violar” alguma regra, e um dos diferenciais desse livro é justamente colocar em pauta essas questões e escrutiná-las com diferentes olhares.