jueves, 2 de octubre de 2014

Indice de Nivel Socio-Económico (INSE). Aprovechando los datos (que hay) del Censo

Antes de preguntarnos si es posible confeccionar un Índice de Nivel Socio-Económico (en adelante, INSE) con los datos que tenemos disponibles del CNPyV-2010, deberíamos preguntarnos qué entendemos por la noción 'socio-económico'.
Cada ámbito o sector que estudia este tema, recorta y prioriza diferentes aspectos de los fenómenos sociales y económicos a tener en cuenta para caracterizar (primero) y sintetizar (luego) en un modelo o índice. 
Esto se desprende de la idea que subyace detrás de esta clasificación y qué componentes deben usarse para tal fin. A fin de cuentas, de una noción de sociedad y de sujeto social.
No vamos a profundizar este aspecto del tema, simplemente dejar constancia explícita de que no existen caracterizaciones, operacionalizaciones y modelos sintéticos objetivos para ningún tema, y menos para éste.

Bien; qué datos del Censo tenemos para la clasificación socio-económica? Lamentablemente los datos del cuestionario ampliado no están disponibles, por lo tanto las opciones de aumentar los atributos descriptivos y clasificables no es tan grande como desearíamos. Sin embargo, hemos seleccionado dos indicadores que cumplen dos requisitos fundamentales para que sean válidos para tal fin. Primero, que sean indicadores que han sido tradicionalmente usados y aceptados como válidos para la caracterización socio-económica de los hogares/ personas y, en segunda instancia, que cuajan perfectamente con nuestra perspectiva teórica acerca de lo que debe responder tal caracterización.



Con la información sumarizada por Radio Censal, seleccionamos el Nivel de Instrucción finalizado de los Jefes de Familia de los Hogares y los niveles de Calidad Material de la Vivienda (síntesis de calidad de materiales de la vivienda, calidad constructiva y calidad de servicios básicos -existencia y tipo de conexión-). 
Como se puede ver en los cuadros superiores, las unidades de análisis son los Jefes de familia de los Hogares y las Viviendas. Las unidades geográficas son todos los Radios Censales publicados. En el segundo cuadro están los dos indicadores con su agrupamiento, propio en lo referente a la Instrucción y tal como se presentan en los datos procesados por el INDEC, en la Calidad del Material de las Viviendas. También están los valores de la Ponderación propuestos de cada categoría de los indicadores (Para ver las definiciones de los niveles de Calidad de Material de la Vivienda se puede ver acá).

Si bien tenemos dos indicadores para formar un índice, como señalamos son dos indicadores válidos y muy representativos de los conceptos que queremos analizar. No disponemos de las características de la ocupación de los jefes de familia, y cómo es la calidad o formalidad de la misma, como así tampoco de el tipo de cobertura sanitaria, o del ingreso de los Hogares, etc. Es decir, dimensiones que darían más robustez a nuestra caracterización socio-económica. De todos modos, el Nivel de Instrucción de Jefe de Familia es un indicador que tiene una alta correlación con la jerarquía ocupacional (y en cierto modo la explica) y todo lo que se desprende de la misma. Lo mismo sucede con la caracterización de la vivienda, otro indicador fuertemente asociado al nivel socio-económico de una unidad familiar.
En síntesis, creemos que estos dos indicadores son los más representativos para el modelo sintético que queremos construir con los datos censales (otro valor agregado).

Planteamos un modelo de síntesis con un Índice aditivo de sumatoria simple. Las sumatoria de las categorías proporcionales (con sus ponderaciones) son relativizadas por la cantidad de hogares en cada Radio Censal. De esta manera obtenemos el puntaje de cada radio censal, que es un valor representativo de estas dos dimensiones y que ocupa un lugar determinado en un continuo (totalidad de radios del país).






El Boxplot y el Histograma muestra la morfología del puntaje obtenido por los Hogares de los Radios Censales. Intuitivamente se espera una distribución relativamente simétrica, dadas las características (relativamente) conocidas de la estructura social argentina. Es decir, que exista un grueso de casos central y que las cantidades vayan descendiendo (en cantidad) hacia los extremos. Si hablamos en términos estrictamente estadísticos, se observa una leve asimetría negativa, es decir, que existen más casos del lado izquierdo (menor puntaje) que en el derecho. Es clara la forma de ascenso de puntaje progresivo de menos a más puntaje y luego la caída es más abrupta.





En principio, vamos a mostrar la distribución de los datos en la región que venimos trabajando, AMBA (en entregas posteriores veremos de extender el INSE a otros aglomerados del país). Justamente, como venimos trabajando los datos censales de esta región, no es extraño que, ordenando el puntaje del Índice de manera decreciente, de las 39 jurisdicciones (24 partidos + 15 comunas), los primeros 15 lugares sean para las Comunas de CABA y los Partidos de Vicente López y San Isidro.
Tampoco resulta una sorpresa la diferencia de puntaje promedio del INSE entre las 3 zonas geográficas de AMBA, donde, sumarizando el promedio del INSE, CABA tiene 84 puntos, el 1° Cordón tiene 68 y 56 el 2°.




El gráfico de burbujas (o nube de dispersión) nos muestra el comportamiento correlativo (dimensionado en tamaño por el puntaje del INSE) de los dos indicadores utilizados. Es intuitivo y esperable este comportamiento, dadas las características de las ponderaciones que hemos utilizado. Pero es interesante reparar en cómo la educación tiene, llegado un nivel de puntaje, más poder discriminatorio (en términos numéricos ) que las condiciones materiales de la vivienda. Es decir, a mismas condiciones materiales habitacionales, el plus lo da el nivel de instrucción del jefe de familia.




Tradicionalmente los puntajes de los INSE se dividen en grupos. El razonamiento es sencillo, cada grupo engloba unidades que resultaron con un puntaje similar aproximado. Además de ésto, los grupos es la mejor manera de analizar las proporciones y los atributos de cada uno. Las formas en las que se divide el puntaje en estos grupos, varía según el tratamiento que se le dan a los datos (como así también en la conveniencia del resultado...). 
El procedimiento que empleamos en esta oportunidad es el más sencillo (y el más honesto): segmentar el puntaje resultante en intervalos equidistantes. Este procedimiento nos garantiza que la distancia entre los puntos de corte sea exacta. Es aplicar la lógica de cualquier medida de posición (quintiles, deciles, etc) no a la población de observaciones sino a la totalidad del puntaje.




Generamos dos esquemas de división y agrupamiento. Uno de 5 grupos y otro de 7 grupos. Tampoco existe, en esta etapa de construcción del INSE, una forma 'objetiva' de segmentación. Nos basamos en esquemas lógicos y tradicionales, cuidando tener siempre un punto medio (grupos impares). Los grupos no se han nominado (por varias razones) y simplemente tienen el número subsiguiente según el corte de puntaje, siguiendo la escala numérica (G1, G2, G3, etc).

Por qué no nominamos los grupos resultantes de la segmentación del puntaje del INSE? La respuesta es simple: cuando nominamos grupos de este tipo, es similar a cuando nominamos factores en un ACP (Análisis de Componentes Principales) o grupos derivados de una Análisis Tipológico (Clusters o similar); los factores (en este caso los grupos) son nominados según una síntesis semántica (y proporcional) de los componentes (o en este caso indicadores). En nuestro caso sólo contamos con dos, lo que cierra y acorta el juego y el poder descriptivo y nominativo de los mismos. La idea, el objetivo general de este post, es caracterizar y ordenar hogares según sus niveles socio-económico (y no más que eso).



 
Estos esquemas (G5 y G7) se comportan de manera similar cuando son cruzados con los indicadores utilizados para el índice, además de los que caracterizan la calidad constructiva y la calidad de conexión a los servicios básicos. Mención especial para el nivel de instrucción superior (universitario y más), donde se puede observar un amesetamiento inicial hasta pasado el grupo medio (en ambos esquemas) y levantando levemente (en comparación a los demás indicadores), reforzando lo que explicábamos anteriormente sobre el factor diferenciador de la instrucción del jefe de familia.
Todos tienen un movimiento correlativo positivo con los grupos, salvo el ser propietario de la vivienda donde residen las familias. No solo parece éste ser un fenómeno transversal a los niveles socio-económicos, sino que es levemente decreciente a medida que subimos en dicho nivel (obviamente ésto es a nivel general, habría que ver en cada región/zona como se comporta esta variable).





Hasta ahora analizamos los datos de manera conjunta (total país). Miremos la distribución de los grupos del INSE cunado los estrellamos contra el AMBA. El primer mapa es la clasificación por radio censal del esquema de 5 grupos. Se pueden hacer varias lecturas de la distribución socio-económica del espacio en AMBA (y en el resto del país).
La general; es notable la distribución cuasi disciplinada de las zonas cromáticas-socio-económicas en el espacio social. AMBA genera ese ordenamiento de manera nítida y, a esta altura (luego de ver varios indicadores a lo largo de los post), intuitiva. La concentración de radios con el grupo más alto de NSE se concentra en la parte norte (y centro-norte) de CABA (Comuna 2, 12, y 14) y sigue su camino por la parte costera de zona norte (V. López,. San Isidro, San Fernando y Tigre). Podríamos decir que esa zona norte es la zona de mayor concentración de los niveles más altos de NSE.
También podríamos sostener que la zona sur costera y las zonas periféricas (alejadas del centro, es decir de CABA) son las zonas de mayor concentración de los niveles más bajos de NSE.
El mapa que está abajo es la sumarización por radio censal del esquema de 7 grupos. La idea, además de la comparación de estos dos esquemas (salidos de un mismo puntaje cardinal), es observar la profundización de los niveles y las diferencias. El corredor de zona norte se mantiene (aunque menos nutridos de radios, donde algunos descienden un nivel). 




Si miramos ambos mapas (dos esquemas divisorios de un mismo puntaje) vamos a apreciar que cada Partido (podemos exceptuar a CABA porque la diferencia espacial es muy notoria) tiene su (más o menos extensa, más o menos poblada) zona 'bien' y sus espacios más 'bajos'.
Es interesante no sólo ver cómo se distribuyen estos radios homogéneos (para arriba o para abajo) en el territorio, sino la relación entre ellos, es decir, la continuidad territorial del NSE. Esta continuidad en CABA - Zona Norte, que se ve como un verde campo sembrado, es la zona más homogénea de AMBA. Tenemos la concentración de los segmentos más altos en términos de NSE. 
Si nos detenemos particularmente en cada Partido, veremos  claramente estas subzonas 'altas'. En zona sur se bifurcan dos trazados con, predominantemente, grupos G5 a G6 (con puntos de G7), que va al sur desde Avellaneda hasta Quilmes y partes de Berazategui y el otro tramo, al sudoeste, que va de Lanús, Lomas de Zoma hasta (menos frondosa) Alte. Brown. Esta un esa clara continuidad, separada por zonas de hogares G2 a G4, también homogéneas en sí, a medida que vamos pasando a los Partidos del 2° Cordón.

Entonces, cada Partido tiene su 'centro', más o menos profuso (dependiendo de la zona -sur, oeste, norte) y sus zonas circundantes que van cambiando las tonalidades (amarillo, sería lo más cercano a una grupo 'medio') hasta las tonalidades de rojo, los grupos más 'bajos' dentro de un NSE. Para no escribir sobre cada Partido, tomemos como ejemplo (una vez más...) al Partido de La Matanza. Este partido tiene y reproduce todos los atributos que venimos desarrollando: un sector 'verde', relativamente pequeño, cercano a la metrópoli, rodeado con radios con verdes más tenues (G6-G5), seguido por un sector 'medio' (radios amarillos) y con zonas (las más extensas) de tonalidades de 'rojos' (grupos más bajos) a medida que nos vamos hacia el oeste, es decir, a medida que nos alejamos de CABA (Si bien es un caso patente, se ve que este fenómenos se reproduce en cada partido del 2° Cordón).

No tiene mucho sentido seguir escribiendo un tratado sobre estos mapas. Son lo suficientemente auto-explicativos para el que los vea. Por si solos dan una fotografía acabada de la distribución espacial del fenómenos socio-económico en esta área del país.

5 comentarios:

  1. Brian, está muy bueno el laburo que haces acá. Te comento que estoy trabajando los datos del censo 2010 para Gran Mendoza y estaba pensando en elaborar un indicador del mismo tipo para el área. Sin embargo me topé con el problema de ponderar o dimensionar las variables en un índice, veo que vos lo resolviste por ponderaciones y que consideraste además de los estudios del jefe de hogar (que es la variable que en un principio había pensado yo) la calidad constructiva de la vivienda.

    Te hago entonces la siguiente consulta que tiene que ver con la solución que había pensado yo: no se podrían tomar los datos de la eph que tiene muchas más variables, para estimar las ponderaciones de las variables del censo que se usan en el índice, por ej. si tomamos nivel educativo vs ingresos de la eph podemos después ir a los datos del censo y decir que ingreso(secundario completo) = 0.5 ingreso(universitario). Más allá de si es correcto metodológicamente o no también habría que ver si vale la pena el laburo adicional que supone pero lo dejo como interrogante.

    Por último te comento que si tu idea es trabajar con otros centros urbanos, tengo los shp de los radios censales del Gran Mendoza publicados acá: https://ajarguello.cartodb.com/. El laburo lo hice en base al aporte de Manuel (http://blog.jazzido.com/2014/05/09/scrapeando-mapas-reconstruyendo-fracciones-y-radios-censales/) y después acomodé los polígonos (el output del script tenía muuuuchos errores) contrastando con las publicaciones de la dirección de estadísticas local.

    ResponderEliminar
    Respuestas
    1. Andrés, cómo va. Gracias. Algunas cosas sobre lo que decís.
      Sobre los datos de la EPH. Tengo un laburo hecho hace algunos años (mi tesis de maestría) que es un INSE basado enteramente en la EPH. Claro que el menú de indicadores es más completo y podés trabajar con varias dimensiones (no solo 2 como es el caso de este post). Ese modelo tenía mucha impronta sobre la calidad de la filiación laboral y cobertura sanitaria de los hoagres, cosa que por ahora con los datos del Censo es imposible trabajar. Si te interesa te puedo pasar ese trabajo para que veas cómo laburé los indicadores, las ponderaciones, etc.
      En este caso no quise estimar nada y usar enteramnete los datos del Censo porque quería ver cómo se distribuian en el espacio.
      Buenísimo lo de los radios de Mendoza. Justamente hoy estaba probando el shp que hizo Manuel y pude meter los datos del INSE, pero todo es muy preliminar. Si normalizaste los datos, serán bienvenidos.
      Si te interesa ver los datos del INSE y ver el trabajo que hice sobre la EPH (es un INSE muhco más completo), escribime a bcovaro@gmail.com y te paso data.
      salu2 y gracias por la onda
      Brián (con tilde, como el de La Cautiva de E.E.)

      Eliminar
    2. Brián gracias por ofrecer la data, me parece muy interesante el tema del INSE, a los economistas en general nos toma un laburito extra entrar en los temas sociales (en cierta forma creo que estamos acostumbrados a plantearnos las cosas en una sola dimensión -el ingreso- por lo que el trabajo en otras áreas enriquece muchísimo). Te mando un mail para pedirte tu trabajo y a cambio te paso un link con los .shp de Gran Mendoza.

      Por otro lado volviendo al tema del INSE que tenés esta página, dado que (según entiendo) el indicador es una medida de órden más que de distancia y que las ponderaciones elegidas son arbitrarias; por qué armás los grupos separando el indicador en tramos iguales y por ej. usando percentiles. Cambian mucho los agrupamiento con uno u otro método? Perdón por la insistencia, como te dije no conozco mucho del tema pero me interesa la posibilidad de armar un indicador espacial del NSE.

      gracias por la bola, saludos

      Eliminar
    3. Andres.
      Sobre los indicadores. Tenés que tener en cuenta que concepto de 'socioeconómico' menejás. Comúnmente ves INSE que no son otra cosa que índices de propensión a la compra o de poder adquisitivo. Si tu objetivo es dimensionar esos conceptos, está perfecto basarte en el poder adquisitivo de las unidades familiares. Pero, desde mi perspectiva, el concepto 'socioeconómico' abarca otras dimensiones. Por ejemplo, yo uso el ingreso para validar indicadores más que como componentes de un índice. El equilibrio de los indicadores es clave.
      Sobre las ponderaciones / puntaje. Existen distintos procedimientos de ponderción; bajo parámetros estadísticos (peso de factores, predicotres, etc) o bajo parámetros teóricos. Todos son arbitrarios, no existe el factor de ponderación objetivo. En el post está más o menos explicado lo que quise hacer con las penderaciones (escogí un método muy sencillo, dado la cantidad y propiedad de los indicadores).
      Sobre la división. Se desprende de ésto último. una vez obtenido un puntaje para cada u.a., y si la idea es dividir y ver cómo se distribuyen proporcionalmente los grupos (es decir, cuántos casos hay de cada uno), la mejor mannera es dividir dicho puntaje es en intervalos iguales (no de casos, de puntaje). Los métodos de división van a determinar la dimensión (tamaño) de cada grupo. De esta forma, te asegurpás una división lo más 'pura' posible, dado que la basas por la extensión de tu puntaje, independientemente de la cantidad de casos.
      Cualquier duda avisame

      Eliminar
  2. Alguien sabe donde puedo conseguir los datos de los grupos G1 - G7 georeferenciados ?
    muchas gracias

    ResponderEliminar