Sopa de Método

9 de fev. de 2012

A origem dos tipos de escalas

E tem coisa que parece que ninguém criou, surgiram do nada, assim é a classificação de escalas ou classificação de variáveis (eu prefiro de escalas). Não foi fácil chegar ao seminal, mas enfim o fichamento de Stevens (1946).

Os tipos de escalas propostos por Stevens (1946) são a nominal, a ordinal, a intervalar e a razão. Essa classificação foi proposta ao se observar que a classificação anterior de intensiva e extensiva já não era mais suficiente para explicar a diversidade de escalas que surgiam no campo da psicologia. A intenção de Stevens (1946) era de criar um conjunto de regras de mensuração vinculado a cada tipo de escala que explicitaria as aplicações de cada uma.

Escala nominal
A escala nominal representa o uso mais descriterioso dos números, que servem apenas como títulos para os pontos da escala, e poderiam ser substituídos sem prejuízo por letras ou nomes. A única estatística permitida para esse grupo é a relativa a contagem dos casos. Esse tipo é uma forma bastante primitiva de escala e naturalmente muitos não a atribuem a importância devida. Possui apenas uma única regra que é não designar números iguais para classes diferentes ou números diferentes para classes iguais.

Escala ordinal
A escala ordinal surge da operacionalização do escalonamento gradual, tem como característica preservar a ordem dos pontos de forma invariável. Esse tipo de escala não admite o cálculo da média e do desvio padrão, seu uso revela apenas a posição relativa do objeto em uma escala gradual.
Stevens (1946) justifica que o uso da média e do desvio padrão é imprudente pois os intervalos da escala não são equivalentes em tamanho. É possível, contudo, realizar cálculos de percentis, além da contagem e do conhecimento de posição dos casos na escala.

Escala intervalar
O uso da escala intervalar é o que se denomina por Stevens (1946) pesquisa quantitativa. Quase todas as estatísticas são aplicáveis a esta forma de mensuração, o que lhe fornece certa limitação é a impossibilidade de se determinar o ponto zero verdadeiro, que é determinado por conveniência ou convenção.
Exemplos desse tipo são as escalas de temperatura Centigrada e Fahrenheit, que atribuem ambas um valor zero a algum ponto arbitrário que não são correspondentes. As medidas de período de tempo também seguem essa lógica, como o calendário romano.

Escala de razão
As escalas de razão são as mais comumente encontradas na física e são as únicas que possuem igualdade, ordenamento gradual, intervalos iguais e razão. Razão, segundo Stevens (1946) é a propriedade de conversão entre escalas diferentes que medem o mesmo objeto (pés e metro). O zero absoluto é sempre presente na escala, mesmo quando for abstrato.
Stevens (1946) acredita que escala de razão seja o real significado para o uso coloquial da palavra escala, pois no dia a dia, todas as medidas (alimentos, litros, metros, velocidade...) são deste tipo, embora que elas ainda possam ser subdivididas entre fundamentais e derivadas. As primeiras correspondem as escalas básicas do universo como comprimento, peso, densidade, força e elasticidade. Já as derivadas são obtidas em função das fundamentais, mas nem por isso perdem suas propriedades de escala de razão.

Stevens (1946) alerta que a escolha do tipo de escala é função da capacidade de mensuração utilizada, e isso não implica necessariamente em uma relação de qualidade. A mensuração é tão acurada quanto a capacidade do instrumento em captar os fragmentos empíricos. Qualquer escala, sensorial ou física, é sempre passível de tendenciosidades, baixa precisão ou outras restrições.

30 de jan. de 2012

Validação nomológica

Cronbach e Meehl (1955) escreveram um artigo intitulado validação de construto em testes de psicologia onde propõem e explicam a validação nomológica.

Um construto é definido implicitamente pela rede de relacionamentos e associações em que ele está inserido. O momento de inserção de um construto na pesquisa é proporcional a sua precisão. Para Cronbach e Meehl (1955) se a previsão dos construtos é feita a priori deve-se chamá-lá de validação preditiva, caso ocorra simultânea a realização do estudo, é conhecida como validação concorrente. Prever com antecedência e observa a confirmação é uma tarefa mais árdua, que necessita maior conhecimento teórico e resulta em maior precisão do estudo.
Rede nomológica para Cronbach e Meelh (1955) (eu não concordo com o termo rede) é o sistema fechado de lais que constituem a teoria relacionada aos construto estudado e as predições feitas. A rede nomológica (referencial teórico) relata as propriedades observáveis dos construtos envolvidos, os próprios construtos e o que faz com se diferenciem um dos outros.
A condição para que um construto seja admissível pela ciência é que pelo menos alguns dos seus correlatos sejam observáveis. O construto investigado não precisa ser diretamente observável (reduzido a experiência) ele pode ser articulado em uma rede nomológica que seja válida e capaz de se realizar predições.
Ou seja, Cronbach e Meehl (1955) propõem que o investigador deve conhecer a teoria de interesse e ao fazer isso identificar quais são os pontos mensuráveis (por observação) do tema. Ao realizar este esforço ele poderá escolher quais construtos irá testar. O primeiro passo é estabelecer uma validação de conteúdo que é dada pela segurança do investigador em provar teoricamente que os construtos estudados existem e fazem parte de uma rede nomológica. O segundo passo é a validação do próprio construto que é onde são apresentadas as regras pelas quais é possível mensurá-lo. O terceiro passo pode ser dado de duas formas, ou o pesquisador faz as predições e estabelece o que espera encontrar nos construtos (validação preditiva) ou ele não faz predição alguma e observa como elas se revelam ao analisar os dados (validação concorrente).
O artigo contribuí ao propor a ideia de rede nomológica que é exatamente a ideia geral que temos hoje de mensuração, o nome nomológico não emplacou (pq é feio e não faz lembrar nada) mas é em essência tudo aquilo que Churchill (1979) e Rossiter (2002) abordaram. Não há um estudo de mensuração que não considere os ensinamentos de Cronbach e Meehl (1955).
Da validação de conteúdo, construto, preditiva e concorrente só sobrou o nome, atualmente elas são mais operacionais do que a versão original.

Método C-OAR-SE para construção de escalas

Rossiter (2002) se propõe a criar um novo método de construção de escalas. Para Diamantopoulos (2005), o modelo de Rossiter (2002) é uma contribuição que renova as discussões em mensurações, que estava estagnadas desde de Churchill (1979).O modelo em questão foi denominado C-OAR-SE.
Embora seja uma proposição nova, Rossiter (2002) afirma que se baseou em Churchill (1979) e em uma dezena de autores menos expressivos. A grande contribuição dele foi ordenar os passos da construção de escala de uma forma que até então não tinha sido feita.
O modelo C-OAR-SE é formado por 6 passos:

1. Definição do construto (C)
Construto, como definido por Edwards e Bagozzi (2000) é um termo conceitual utilizado para descrever teoricamente um fenômeno de interesse. Rossiter (2002) afirma que um construto deve ser conceitualmente definido em termos de objeto, atributo e população. As questões básicas são: O que é o objeto e de que ele é composto? Quais são seus atributos e de que eles são compostos? De quem é formada a população que irá responder à pesquisa?

2. Classificação do objeto (O)
O objeto para Rossiter (2002) pode ser singular, abstrato coletivo ou de formação abstrata. O objeto é classificado como singular quando se assume que todos os respondentes conhecem e entendem tal uniformemente. Abstrato coletivo são objetos heterogêneos na visão dos respondentes mas em nível superior podem ser classificados no mesmo grupo pelo pesquisador. Já os objetos de formação abstrata surgem quando os respondentes interpretam o objeto de formas distintas, como se fossem componentes diferentes.

Ex.
Singular = O refrigerante coca-cola
Abstrato coletivo = Refrigerante com gás
De formação abstrata = Marca coca-cola

3. Classificação dos atributos (A)
A terceira etapa do C-OAR-SE é classificar os atributos do objeto estudado. Eles podem ser concretos, abstratos formados, ou abstratos provocados. Os atributos concretos são os de comum entendimento pelos respondentes e que só possuam, presumidamente, um significado. Os abstratos formados ocorrem quando a partir de um atributo, os respondentes podem reduzi-lo a categorias (antecedentes teóricos), ou seja, há mais de uma interpretação para o mesmo atributo. Já os abstratos provocados surgem quando o respondente faz o caminho inverso aos abstratos formados, eles não regridem aos antecedentes, eles ascendem a uma percepção cognitiva pessoal, que não pode ser totalmente capturada.

Ex.
Concretos = O sabor da coca-cola
Formados = A qualidade da coca-cola
Provocados = O sentimento em relação a marca coca-cola

4. Identificação da população (R de raters)
O quarto passo do C-OAR-SE é a parte final da definição de construto. Para Rossiter (2002) o objeto não pode ser separado da população, pois o construto é variável em função de quem o observa. Os tipos são: individual, especialistas e grupos. Individual é quando o objeto de estudo são as pessoas, é uma auto avaliação. Especialistas são úteis especialmente para validações de conteúdo durante a formulação das escalas e grupos corresponde aos casos onde há amostragem por alguma característica comum a todos os respondentes.

Ex.
Individual = Pesquisa eleitoral
Especialista = Diretores de uma empresa avaliando o questionário sobre a empresa
Grupo = Clientes do restaurante

5. Formação da Escala ( S de scale)
Formação da escala no método C-OAR-SE é organizar os objetos, e suas partes, de acordo com os atributos, e suas partes, para formar a escala. Basicamente a determinação do número de itens é a multiplicação do número de categorias do objeto pelo número de categorias do atributo. Essa fase é onde se realiza o pré-teste, ao contrário de Churchill (1979) no C-OAR-SE os itens não são excluídos, eles são substituídos, o número de itens é fixo.
A validação se dá através da análise de especialistas (validação de face) e pelo cálculo de confiabilidade beta (0,7) e alfa (0,8).

5.1 Escala em sí
Rossiter (2002) odeia Likert (1932) e por isso ele não usa (as explicações do artigo não são racionais e faz parecer mais uma implicância pessoal). Ao invés ele faz uso de uma escala numérica de 0-10 e outra de probabilidades, variando de impossível (0), improvável (0,15), chance discreta (0,3), talvez (0,5) provavelmente (0,7), quase certo (0,8) e certamente (1).
Para frequência a escala indicada por Rossiter (2002) é nunca (0), as vezes (1), usualmente (2) e sempre (3). Já para grau é nada (0), discreto (1), muito (2) e extremamente (3). E a última é a verbal aprovativa bipolar de item único: extremamente negativo (-3), muito negativo (-2), discretamente negativo (-1), neutro (0), discretamente positivo (1), muito positivo (2) e extremamente positivo (3), além do item "não sei" que fica a parte da escala. Ou seja ele ama Likert e não se conforma.
Após fixar o número de itens, validar, definir a escala em si o último passo é organizá-los no questionário de forma aleatória.

6. Enumeração (E)
Ele cria uma regra de indexação, médias e escores que não é merecedor nem de comentário. É uma confusão só. Basicamente ele cria umas regras para interação entre as categorias dos objetos e dos atributos. Segue a sopa de letrinhas abaixo.

Quem ele ataca:
Para Rossiter (2002) a proposição de Likert (1932) não pode se utilizada pois ela induz o respondente a confusão entre as categorias que foram estabelecidas ao acaso. Ele reforça que o ponto neutro não é claro e que não pode-se assumir que "nem concordo/nem discordo" é realmente um ponto neutro. O fato de apontar concordância a uma frase fixa é outro ponto de crítica, para Rossiter (2002) isso torna a escala pouco flexível.
Rossiter (2002) deixa o alfa de Cronbach (1951) em segundo plano e sugere o uso simultâneo do coeficiente beta, algo que até então, só ele propõem.
O método de confiabilidade teste-reteste é impreciso e inutilizável segundo Rossiter (2002). Ele afirma que entregar o mesmo questionário duas vezes à mesma pessoa não é suficiente para se tirar qualquer conclusão sobre a confiabilidade da escala.
Sobre o MTMM, Rossiter (2002) o define como desnecessário, pois se o método C-OAR-SE for seguido rigorosamente não há necessidade de mais validações, além do mais, o formato do MTMM é inadequado para a C-OAR-SE.
A validação preditiva não deve ser utilizada para o método C-OAR-SE. Rossiter (2002) argumenta que a validação preditiva mede a forma das correlações, porém, é imprudente medir qualquer correlação se não é possível também saber qual o grau dessa correlação no mundo real. Sabe-se que correlações perfeitas (1.0) são ideais, porém se a correlação calculada for 0,4, não pode-se afirmar que ela é baixa, afinal, talvez seja exatamente esse o valor do mundo real.

Quem odeia o C-OAR-SE
Diamantopoulos (2005) escreveu um artigo inteiro criticando o modelo C-OAR-SE. Ele critica todos os passos do modelo e isso além de deixar o texto chato, mostra que o problema é outro e não o modelo. O bom é que a discussão é aberta.

Contribuição do C-OAR-SE
Zero, quase zero. Não é um método comum. Não chega nem perto da popularidade de Churchill (1979), mas é um artigo obrigatório por algumas razões. Embora não tenha nada de realmente novo, Rossiter (2002) sistematiza o campo como a muito ninguém fazia. Suas críticas são metade pertinentes e metade reinações, mas a metade pertinente pode-se pensar, sobretudo a crítica a validação preditiva. Os formulários de check list também são contribuições importantes, acredito que se todo mundo utilizar já faz pelo menor refletir sobre o que se está propondo.

27 de jan. de 2012

7 erros em mensuração

Para Selltiz et al (1976), existem sete formas diferentes de se errar uma mensuração. Os erros são deles, os nomes são meus.

1. Erro natural. A pessoa tenta se expressar sobre suas características, mas mesmo querendo falar a verdade não consegue se expressar no questionário;
2. Erro de flutuação. São provenientes de respostas erradas devido a fatores transitórios como humor ou cansaço;
3. Erro ambiental. Devido ao local onde a coleta de dados é realizada, seja em casa ou no trabalho;
4. Erro de administração. Esse acontece basicamente pela falha da pessoa que coleta os dados ou no caso de serem pessoas diferentes, pela falta de padrão;
5. Erro de constância. É quando algum item é modificado, incluído ou excluído entre as versões do questionário durante a coleta;
6. Erro de dubiedade. Esse erro ocorre quando alguns dos itens não é interpretado corretamente pelo respondente, provavelmente devido a dubiedade na redação do texto;
7. Erro mecânico. Surge quando o respondente marca uma opção errada, rasuras, codificação incorreta, erro de tabulação.

Churchill, o homem que mensurava.

Um bom guia para construção de escala é o artigo Paradigm for developing measures of marketing constructs do Churchill, que apenar do título, é um bom guia de construção de escalas.
O processo de mensuração, segundo Churchill (1979) envolve a elaboração de regras para atribuir número a objetos que representem atributos quantitativos. ~~(sad, so sad)~~ A definição envolve duas noções chaves. A primeira é de que os atributos de um objeto é que estão sendo mensurados, e não o objeto em si. Segundo, a atribuição dos números é arbitrária.
Para Churchill (1979) uma mensuração é valida quando as diferenças observadas nos resultados refletem diferenças reais nas características mensuradas, e só nelas. Já confiabilidade indica que duas mensurações distintas que medem o mesmo construto devem concordar uma com a outra. A confiabilidade não é medida de validade. Churchill (1979) afirma que a confiabilidade pode indicar que uma escala não é válida, mas não pode concluir que ela é.
Os passos para construção de escala segundo Churchill (1979) são:

1. Especificação do construto
O primeiro passo é especificar o domínio do construto. A definição do construto precisa ser muito precisa, deixando claro o que está incluso e o que está excluído dela.

2. Elaboração dos itens
O segundo passo é gerar os itens que capturam o construto. Essas técnicas podem ser exploratórias como busca na literatura ou alguma espécia de pesquisa prévia. Churchill (1979) resgata também a possibilidade de se utilizar a técnica do incidente crítico ou grupo focal para essa tarefa de gerar itens.

3. Purificação (confiabilidade)
A mensuração de confiabilidade interna recomendada por Churchill (1979) é... adivinha? uma chance! O coeficiente alfa deve ser aplicado para cada dimensão da escala, ou seja, se houverem sub-escalas deve-se aplicar o coeficiente individualmente para cada uma delas.
Churchill (1979) observa que grande parte da literatura de marketing realiza o teste da análise fatorial antes de qualquer outro procedimento. A análise fatorial pode sugerir categorias, mas pouco pode fazer quanto a confiabilidade individual dos itens.
Caso não seja observado confiabilidade no teste alfa, a solução é alterar os itens da escala, porém, antes deve ser observado se o pré-teste foi realizado com uma amostra adequada. Realizar teste de confiabilidade sobre uma amostra errada leva a resultados também errados.

3.1 Críticas as técnicas de confiabilidade
Churchill (1979) alerta que o coeficiente alfa é uma estatística básica para determinar a confiabilidade de uma escala baseada em sua consistência interna, porém, ele não é adequado para estimar erros causados por fatores externos ao instrumento tal como diferenças temporais ou ambientais durante a coleta.
Sobre a técnica de confiabilidade de teste-reteste, Churchill (1979) desaconselha seu uso e aponta como principal defeito o fator da memória do respondente. Após já ter respondido ao questionário, ele tenderá a dar a mesma resposta, logo, quando comparados os dois testes os seus resultados não serão confiáveis.

4. Validação
Para Churchill (1979) um construto deve ser mensurado de duas ou mais formas, pois, só assim poderá saber se os resultados obtidos são válidos. Esta técnica é chamada validação convergente e busca uma alta correlação entre os instrumentos que deveriam mensurar o mesmo construto.
A técnica oposta é a validação discriminante. Churchill (1979) admite que essa técnica simples serve para verificar se há problemas de mensuração entre duas escalas que supostamente deveriam estar mensurando construtos diferentes. Os cálculos são apresentados na figura abaixo.

Observe o que está dentro do quadrado vermelho. Os valores centrais (3) devem ser maiores que os periféricos (4), para a validação convergente. Lembrando que isso é uma tabela de correlação entre os itens de duas mensurações diferentes, que deveriam medir a mesma coisa. Os valores de (2) e (4) devem ser os menores possíveis pois são diferentes, isso é uma validação discriminante. Os valores de (1) deveriam ser 1,000, mas não são, não sei porque, até onde eu sei a correlação de uma coisa consigo mesmo é 1,000. No texto Churchill (1979) não comenta nada sobre qual a interpretação de (1).

5. Normatização
O ultimo passo de Churchill (1979) afirma que deve-se apresentar parâmetros para que se leia de forma correta os resultados do estudo. Esses parâmetros são adquiridos através de estudos preliminares.

Summated Rating Scale Construction: Como construir uma escala no sul da flórida

Paul E. Spector é professor de psicologia na University of South Florida. Seu livro Summated Rating Scale Construction é um bom manual de construção de escalas assertivas. Como todo livro texto peca em profundidade mas ganha em amplitude. É um guia bastante aconselhável para quem quer ter uma visão geral da coisa. E para aprofundar, o livro traz referências.
Uma escala assertiva tem como característica não possuir resposta correta, então Spector (1992) afirma que elas não devem ser utilizadas para mensurar conhecimento ou habilidades. Sabe-se ainda que elas foram desenvolvidas por Likert (1932) para mensurar atitude, e está deve ser a aplicação deste tipo de escala, qualquer outra é adaptação e precisa antes ser validada para a função pretendida.
Uma escala para ser considerada boa deve ser válida e confiável, Spector (1992) sugere algumas ações que devem ser tomadas para que se construa uma boa escala:

1. Definição do construto
Um dos passos mais vitais para o desenvolvimento de uma escala é a tarefa conceitual de definir os construtos, para Spector (1992) uma escala não pode ser desenvolvida se inicialmente o construto não for claramente delineado.
Uma das dificuldades das pesquisas em ciências sociais é que muitos construtos são abstrações teóricas, inobserváveis. Nesse contexto, a validação é possível, mas para Spector (1992) deve levar em consideração o seu significado em uma ampla rede teórica que descreva os relacionamentos entre muitos construtos.
O primeiro passo para validação de construto segundo Spector (1992) é buscar na literatura se alguém já não fez essa validação anteriormente e utilizar essa base como ponto de partida.

2. Escala em si
Após a validação do construto o próximo passo é definir como será a escala em si, como o respondente será abordado e de que forma poderá dar sua opinião. Spector (1992) apresenta três formas de permitir que o respondente se manifeste, por concordância (concordo totalmente, concordo parcialmente, neutro, descordo, descordo totalmente), por avaliação (excelente, bom, razoável, ruim, péssimo) ou por frequência (sempre, as vezes, nunca). Independente de qual seja a escolhida todas variam de pouco a muito e cada ponto deve receber um número. Ou seja em algum grau todas são inspiradas na escala Likert (1932) e se aproximam novamente nas análises.

3. Redação dos itens da escala
Um bom item para Spector (1992) deve ser claro, conciso, não ambíguo e o mais concentrado possível, então cada item deve expressar apenas uma ideia. Entre o total de itens da escala, alguns devem ser invertidos (mas sem utilizar a palavra 'não'), deixar todos no mesmo sentido pode fazer o respondente não dar atenção devida a leitura e simplesmente marcar aleatoriamente um dos extremos que ele ache mais correto. As expressões e jargões são elementos dispensáveis na construção dos itens, mas o nível intelectual dos respondentes, que deve ser levado em consideração, que determina como será a redação do texto. É importante observar como é o vocabulário dos respondentes e utilizá-lo.

4. Instruções
Spector (1992) relembra que as instruções do questionário são tão importantes quanto os items, sobretudo para respondentes que não estão acostumados a essa tarefa e podem não entender intuitivamente o que deve ser feito. É ressaltada novamente a questão da linguagem que deve utilizar o vocabulário adequado aos respondentes.

5. Pré-teste
O pré-teste de Spector (1992) tem duas fases, uma onde especialistas analisam o questionário e dão opiniões e a outra onde é realizada uma amostragem com entre 100 e 200 respondentes para que sejam realizados os cálculos de de validação e confiabilidade.

5.1 Validação
Validação é o passo mais difícil do projeto de escalas. Validar é interpretar o que o resultado da escala significa, se a escala possui consistência interna ela certamente está mensurando alguma coisa, mas determinar o que está sendo mensurado é o maior problema da construção de escalas segundo Spector (1992).
Existem algumas técnicas de validação de construto que para Spector (1992) podem ser aplicadas a uma escala, são elas:

5.1.1 Validação de relações criteriosas
Esse eu confesso que não entendi. Ele fala em comparar os valores (resultado das estatísticas) entre as variáveis. Isso então presume que já foram definidas as variáveis OK, e que algumas foram mensuradas OK e que de alguma forma o resultado das contas pode ser previsto e observado OK. Entendi agora.

5.1.2 Validação concorrente
Também não dá pra entender nada, eu acho que nem Spector (1992) entendeu direito, no único parágrafo do livro que ele descreve a técnica é como se fossem criadas hipóteses e mensuradas todas as variáveis ao mesmo tempo. Ao final se calcula a significância estatística entre elas. OK vou anotar para buscar outras fontes.

5.1.3 Validação predicativa
Spector (1992) fala que é igual a validação concorrente só que em vez de pegar os dados ao mesmo tempo, eles são coletados em momentos diferentes. Ah vá.

5.1.4 Validação de conhecimento de grupos
Esse método consiste em validar se uma escala é capaz de observar diferenças de alguma ordem sobre grupos que hipoteticamente são diferentes. É obvio que tem um furo aqui, se os grupos não forem diferentes a escala que não é válida, a hipótese que está errada ou simplesmente o grupo que se achou heterogêneo é simplesmente homogêneo? Achou melhor aplicar apenas a grupos que já se tem certeza que são distintos, mas nesse caso para que serve uma escala de mensuração de algo que já foi mensurado?

5.1.5 Validação convergente e discriminante
Validação convergente para Spector (1992) significa que diferentes mensurações de um mesmo construto irão se relacionar fortemente um com o outro. Validação discriminante é quando duas escalas de mensuração de diferentes construtos são pouco relacionadas uma com a outra.

5.1.6 Análise fatorial
O uso da análise fatorial é recomendado para se observar se todos os itens da escala estão mensurando o mesmos construto. É um tema muito denso para ser resumido em um parágrafo, então não o farei, depois escrevo um post inteiro sobre isso.

5.2 Confiabilidade
O melhor coeficiente de confiabilidade para Spector (1992) é o alfa de Cronbach que já falei aqui, então tchau.

26 de jan. de 2012

Coeficiente Alfa de Cronbach

O clássico alfa de Cronbach foi proposto em 1951 pelo próprio. Ao contrário do que imaginei, não é uma ideia original dele, ele na verdade dá nome e explica (muito bem explicado) um coeficiente que já existia.
Qualquer mensuração com uso de escalas deve se preocupar com a questão da validação. E para tal existem algumas técnicas. Validação de escala, segundo Cronbach (1951) é simplesmente fazer com que uma escala se mostre estável ao longo de suas aplicações, essa estabilidade pode ser de amostra ou de items.
A técnica predominante na década de 50 é o teste-reteste. Cronbach (1951) explica que ele tem o objetivo de testar a mesma escala duas ou (de preferência) mais vezes com a mesma amostra. O resultado deve ser o mais parecido possível entre eles para verificar validade. Esse delineamento ignora o contexto e a possibilidade das pessoas simplesmente trocarem de opinião, mas para algo bastante simples pode até ser válido, o fato é que caiu em desuso.
A outra técnica é a de corte-ao-meio. É a técnica que Cronbach (1951) se dedicou a estudar e base do coeficiente alfa. Consiste em elaborar duas escalas equivalentes no mesmo questionário. Teoricamente, a pessoa ao responder a mesma coisa duas vezes por métodos diferentes deveria dar a mesma resposta, desde que as escalas tenha consistência interna.
A contribuição de Cronbach (1951) foi elaborar um cálculo mais simples onde os items são correlacionados entre eles internamente e não em cruzamentos entre as duas escalas equivalentes do método corte-ao-meio. O mecanismo do alfa é o mesmo do corte-ao-meio e Cronbach (1951) enfatiza que ambos possuem o mesmo resultado e as mesmas possibilidades.
Com a colaboração de Cronbach (1951) houve um grande progresso dos projetos de escala que não mais necessitam criar itens de verificação, a partir do implemento do alfa, basta apenas uma pergunta de cada tipo e não pequenos blocos internos de itens que intencionavam mensurar a mesma coisa.
As escalas validadas pelo método corte-ao-meio deveriam ter todos os seus itens no mínimo duplicados (escritos de forma diferente, mas equivalentes) e isso limitava a capacidade de exploração, já que o limite para o tamanho do questionário sempre foi a tolerância do respondente.
Cronbach (1951) afirma que para obter uma melhor interpretação a escala não deve ser divisível em pequenos blocos menores. Ou ela é única ou são criadas várias escalas, não é indicado realizar o teste de validade interna para escalas que são compostas por sub blocos de perguntas (sub-escalas).

Mais vistos