Técnicas Avanzadas para
el Análisis de los Efectos
Políticos de Internet
José Eduardo Jorge, María de las Nieves Piovani,
Mara Leguizamón y Ulises Steciow
Regresión con una dicotomía como variable dependiente. Predicción. La función Logit y el cálculo de las probabilidades. Odds y Odds Ratio. Evaluando la importancia relativa de los predictores o variables independientes. Un nuevo Coeficiente estandarizado o tipificado de Regresión Logística. Ir a la Parte 1: Métodos y Técnicas en el Estudio de la Comunicación en Internet
________________
Efectos de las Noticias Online: un Modelo Predictivo
El punto de partida de nuestro análisis es un modelo de regresión logística, basado en los datos de la Encuesta Comunicación y Cultura Política 2013, realizada en la Región Capital de la Provincia de Buenos Aires (Argentina) en el segundo semestre de ese año. En este modelo, la variable Seguir las Noticias en la Web surge como uno de los predictores estadísticamente significativos del Interés por la Política (Tabla 1).
Tabla 1 – Análisis de Regresión Logística del Interés por la Política
- Fuente: Jorge, José Eduardo; Piovani, María de las Nieves; Leguizamón, Mara, y Steciow, Ulises (2015): “Explorando el impacto político de la Web con técnicas avanzadas de análisis”, Question, 1(45), pp. 307-328. Click en la imagen para agrandar
Otras variables de medios no mostradas aquí –leer o comentar la política en redes sociales, leer el diario con frecuencia y seguir programas políticos en TV y radio- también predicen el interés entre las personas de 16 y más años de la región encuestada (Jorge, 2014).
Al proceder así, hacemos un uso básicamente exploratorio del análisis de regresión. La teoría nos sugiere qué variables del contexto social y cultural poseen una asociación más probable con el interés por la política.
En una muestra específica -aquí la ECCP 2013– resultan significativas la educación alta –universitaria completa o no-, la confianza en los partidos -un proxy de la confianza en el sistema político-, la percepción de la propia capacidad de entender la política –la eficacia interna-, el número de tipos de acciones no institucionalizadas –petitorios, manifestaciones y boicots- de las que ha participado el entrevistado, y la confianza interpersonal –en “la mayoría de las personas”-.
Es recomendable incorporar a un modelo variables típicas de control –demográficas o de otra clase-, que la teoría o la experiencia indican que suelen estar asociadas con el fenómeno examinado: es el caso de la edad y el género.
La teoría es menos precisa acerca de qué variables comunicacionales están vinculadas al interés. Las hipótesis del malestar mediático y de la movilización cognitiva mantienen posiciones opuestas (Norris, 2000; Curran et al, 2014; Jorge, 2010b). Nos orienta empero una serie de estudios previos –incluyendo los nuestros, en diversas encuestas regionales-, algunos referidos específicamente al impacto político de la Web (Bimber y Copeland, 2013; Boulianne, 2009; Mossberger et al., 2008).
Exploramos, pues, estos posibles vínculos, incorporando sucesivamente al modelo nuestros indicadores de uso de medios, primero individualmente y luego combinando los que se revelan significativos.
La Información en Internet
Es probable que el hábito de seguir las noticias en la Web esté asociado sobre todo, en el estado presente de difusión de Internet en la Argentina, con el de leer el diario on-line. Cuando introducimos en el modelo los dos indicadores a la vez, “seguir las noticias” pierde significación.
Con el diario, sin embargo, tendríamos una variable de al menos tres categorías: podemos leerlo en papel, leerlo en Internet o no leerlo. No es imposible introducir una tricotomía como variable dependiente con el tipo de Path Analysis que vamos a emplear (Menard, 2010, Cap. 9), pero la complejidad del modelo aumentaría en exceso para nuestro propósito actual. Optamos, pues, por ilustrar el uso de estas técnicas avanzadas con una dicotomía.
El hábito que analizaremos se halla muy extendido: el 39% de la población de 16 y más años de la Región Capital sigue las noticias en la Web “con frecuencia”. En nuestra regresión, la edad actúa, respecto de la conducta de seguir las noticias, como una variable supresora (Tzelgov y Henik, 1991).
Este tipo de fenómeno –bien conocido, aunque no siempre fácil de interpretar- tiene aquí un efecto no muy intenso, pero sí estadísticamente significativo. Como al aumentar la edad el interés por la política crece, pero el uso de Internet disminuye –una típica situación de supresión-, la inclusión de la edad en el modelo incrementa la influencia sobre el Interés de la variable Noticias, cuyo coeficiente B sube de 0,71 a 0,83.
Predicción y Calculo de Probabilidades
Una regresión como la de la Tabla 1 no define por sí misma cuáles son las causas del interés por la política. Sus variables independientes predicen el interés, pero la atribución de “causas” corre por cuenta del investigador, sobre la base de consideraciones teóricas.
Veamos primero que este modelo permite calcular la probabilidad –con un valor entre 0 y 1- de que los miembros de la población estudiada se interesen por la política cuando asumen cualquier combinación de valores en las variables predictoras. La ecuación para realizar este cómputo (Agresti, 2007: 99-100) viene dada por la función Logit, que para una variable dependiente binaria como el interés (simbolizado como Int) es, en nuestro caso, la siguiente:
El lado derecho de esta ecuación es una combinación lineal de las variables independientes de la Tabla 1. Cada variable está multiplicada por su coeficiente no-estandarizado B y puede asumir cualquiera de los valores indicados en la tabla. La expresión entre paréntesis es el cociente entre las probabilidades estimadas de estar interesado (numerador) y de no estarlo (denominador). La función Logit dice que el logaritmo natural (ln) de este cociente es igual a la combinación de variables de la derecha.
Supongamos, para ejemplificar, que deseamos estimar la probabilidad de que se interese por la política el segmento constituido por personas de educación alta, que tienen mucha confianza en los partidos, creen que la política se entiende, han realizado los tres tipos de acciones, confían en la mayoría de las personas y siguen las noticias en la Web con frecuencia. Asumamos por último que son varones y tienen la edad promedio de nuestra muestra: 38 años.
Asignando a cada variable independiente el valor que corresponde, la expresión de la derecha arroja un resultado de 3,33:
Nos falta aún despejar la probabilidad de estar interesado (Prob. Int) de la expresión entre paréntesis. Recordando que la base de los logaritmos naturales es e = 2,7183, con un poco de álgebra obtenemos:
Como anticiparíamos por el perfil especial del segmento que hemos supuesto, la probabilidad estimada de que este tipo de personas se interese por la política es 96,6%, es decir, casi 1.
Para cada uno de nuestros encuestados, es posible calcular esta probabilidad predicha por el modelo y compararla con el valor real u observado de la variable interés, que surge de sus respuestas La correlación R entre los valores predichos y observados –0,61 en nuestra base- es una medida de evaluación del modelo.
A fin de hacernos una idea más precisa del impacto de seguir o no las noticias en la Web, podríamos aislar su efecto asignando al resto de las variables su valor más frecuente en la muestra (o el promedio, en las variables cuantitativas). Consideremos, pues, el grupo de mujeres de 38 años, con educación alta, que confía “no mucho” en los partidos, cree que la política se entiende, ha realizado solo un tipo de acción y no confía en la mayoría de las personas.
Si este segmento no siguiera las noticias en la Web –la situación más frecuente-, su probabilidad esperada de estar interesado sería 48%; si las siguiera, 68%. Eligiendo, como es usual, un punto de corte de 50%, esperaríamos que el grupo no esté interesado –por muy poco- en el primer caso y que sí lo esté en el segundo.
El valor del coeficiente B de una variable indica el efecto estimado de ésta sobre el interés controlando por todos los demás predictores del modelo. Cada B tiene un intervalo de confianza, que depende de su error estándar. El B de “seguir las noticias en la Web” es 0,83, pero su valor real puede variar, con un 95% de probabilidad, entre un mínimo de 0,25 y un máximo de 1,41. Este intervalo de confianza se calcula con la estadística Wald (Agresti, op. cit.: 106-7). Los valores mínimo y máximo son los de , donde 0,298 es el error estándar.
Odds Ratios
Los odds ratio ofrecen otra manera de apreciar el efecto de una variable. El valor de cada uno es el de e = 2,7183 elevado al valor del coeficiente B de esa misma variable. Las personas encuentran más difícil pensar en términos de odds que de probabilidades. La probabilidad de sacar un seis al tirar un dado es 1/6 (ó 0,167). El odds es igual a la probabilidad de sacar un seis dividida por la probabilidad de no sacarlo: 1/6 dividido por 5/6, lo que da 1/5, ó 0,20 (o, en la jerga de las apuestas, 1 “contra” 5). Adviértase que la expresión entre paréntesis de la función Logit es el odds de la variable dependiente: aquí, la probabilidad de estar interesado dividida por la probabilidad de no estarlo.
La interpretación se complica porque lo que muestra la tabla para cada predictor es un odds ratio, esto es, un cociente de odds. El odds ratio de “seguir las noticias” es 2,29 (que resulta de la potencia eB, es decir, 2,7183 0,83). Con las variables cualitativas –la mayoría en el modelo-, este valor nos dice si (y cuánto) el odds de estar interesados entre las personas de la categoría analizada –aquí las que siguen las noticias- es mayor o menor al odds de quienes están en la categoría de referencia –los que no siguen las noticias-. La categoría de referencia no se incluye normalmente en la tabla.
En definitiva: el odds de interesarse por la política de quienes siguen las noticias es 2,29 veces mayor al de quienes no lo hacen. En una variable cuantitativa la interpretación es algo distinta. En el Activismo, el odds de interesarse por la política aumenta en promedio un 79% por cada acción adicional que realizan los encuestados.
Importancia Relativa de las Variables
El coeficiente B y los odds ratios dan un indicio acerca de la influencia relativa de los predictores sobre el interés. El B de confiar “mucho o bastante” en los partidos -1,55- es algo mayor al de la educación alta -1,38- y la eficacia interna -1,30-. Los tres son superiores al de seguir las noticias (0,83).
El problema es que un modelo incluye generalmente variables con métricas heterogéneas. ¿Cómo sopesar, en comparación con las variables antedichas, la influencia del activismo sobre el interés, que se mide multiplicando por 0,58 el número de acciones (entre 0 y 3) realizadas por los encuestados?
Un coeficiente estandarizado o tipificado resuelve esta cuestión homogeneizando la métrica de todos los predictores. El coeficiente de Menard –que simbolizaremos βM– se define como sigue (Menard, 2014: 1417-8 y 1995, pp. 52-3):
B es el coeficiente no-estandarizado que ya conocemos; Sx, la desviación estándar de la variable cuyo coeficiente calculamos. R es la correlación entre a) los valores predichos de la variable dependiente Ŷ, calculados por la regresión logística para cada encuestado (las probabilidades ya ejemplificadas, que asumen cualquier número entre 0 y 1), y b) los valores observados de la variable dependiente en cada entrevistado, que surgen de la encuesta (y tienen solo dos valores: 0 ó 1). Slogit(Ŷ) es la desviación estándar del Logit de la variable dependiente predicha. El Logit se calcula para cada entrevistado, a partir de la probabilidad predicha, mediante la siguiente ecuación:
Realizando todos estos cálculos para la regresión de la Tabla 1 con el auxilio del software SPSS –ver Menard (1995) para un detalle de los pasos operativos-, surgen los coeficientes estandarizados o tipificados de la Tabla 2.
El orden de importancia de los predictores según el tamaño de βM difiere del que inferiríamos a partir de B. “Seguir las noticias en la Web”, con βM = 0,137, figura en el sexto lugar: su poder para predecir el interés por la política aparece un poco por debajo del que posee confiar “no mucho” en los partidos.
Tabla 2 – Coeficientes Estandarizados del Modelo de la Tabla 1
- Fuente: Jorge, José Eduardo; Piovani, María de las Nieves; Leguizamón, Mara, y Steciow, Ulises (2015): “Explorando el impacto político de la Web con técnicas avanzadas de análisis”, Question, 1(45), pp. 307-328. Click en la imagen para agrandar
La interpretación de βM es la siguiente: un cambio en una unidad de desviación estándar de, por ejemplo, “seguir las noticias”, produce un cambio de 0,137 desviaciones estándar del Logit del interés.
En variables cuantitativas como la edad, este modo de razonar tiene un significado tangible. La desviación estándar de la edad (Sx de la tabla) es de algo más de 17 años. El coeficiente βM predice que un aumento de 17 años en la edad de las personas generará un incremento de 0,109 desviaciones estándar del Logit del interés. En las variables de categoría la unidad de desviación estándar no posee un significado intuitivo.
Sigue: Variables Instrumentales y Regresión Logística en Dos Etapas
Anterior: Estudio de la Comunicación en Internet: Métodos y Técnicas
José Eduardo Jorge, María de las Nieves Piovani, Mara Leguizamón y Ulises Steciow (2015): Explorando el Impacto Político de la Web con Técnicas Avanzadas de Análisis, Question, 1(45), pp.:307-328.
Texto editado en Octubre de 2016
Cambio Cultural
Cultura Política Argentina
Déjenos su comentario
Artículos Relacionados
I: Métodos y Técnicas en el Estudio de la Comunicación en Internet
II: La Regresión Logística en Ciencias Sociales
III: Path Analysis, Variables Instrumentales y Sistemas de Ecuaciones
Aplicaciones del Análisis de Regresión Logística
Impacto de las Redes Sociales en la Política Argentina
Medios y Política en Argentina
La Influencia de los Medios en la Política Argentina
Efectos Políticos del Diario Online y en Papel
Otras Técnicas
Hacia un Índice de Cultura Política Democrática: Regresión Lineal. Análisis Factorial
Valores Humanos Básicos en Argentina: Escalamiento Multidimensional
Teorías, Hipótesis y Operacionalización
Medios de Comunicación
Los Medios de Comunicación en la Democracia
Los Nuevos Medios y el Cambio Tecnológico
Los Efectos Políticos de los Medios de Comunicación
El Impacto de las Redes Sociales
Las Redes Sociales en las Campañas Políticas
El Impacto de las Redes Sociales
Las Redes Sociales en las Campañas Políticas
El Diario Digital: sus Características
Cultura Política y Democracia
Teoría de la Cultura Política I