Méthodes

Vous trouverez également les bibliographies concernant les présentations de nos Rencontres de Statistique Appliquée

Analyse biographique

Principe
Ces méthodes sont utilisées depuis de nombreuses années en épidémiologie, et ont été utilisées et adaptées à partir des années 1980 en démographie (Courgeau et Lelièvre, 1989). L’analyse des biographies permet de traiter des données longitudinales censurées. Ces données peuvent notamment être obtenues dans des enquêtes comportant un volet rétrospectif, décrivant l’histoire résidentielle, familiale ou professionnelle de l’individu. On peut alors étudier l’éventuelle survenue d’un évènement dans le cycle de vie d’un individu en fonction de ses caractéristiques.

On distinguera les méthodes non paramétriques, paramétriques, et semi-paramétriques. L’utilisation de méthodes non paramétriques permet notamment d’étudier la forme de la fonction de survie, et les différences dans le calendrier et l’intensité de survenue de l’évènement en fonction de variables de stratification. La méthode semi paramétrique (modèle de Cox) permet quant à elle d’effectuer une modélisation et de mesurer l’impact de variables explicatives, fixes ou dépendantes du temps, sur le quotient instantané. La méthode de régression logistique à temps discret permet, quant à elle, d’obtenir une modélisation sur un fichier individus-années dans le cas de données recueillies de manière discrète.


Applications logicielles
La mise en œuvre à partir du logiciel Sas® se fait via la procédure lifetest dans le cadre de méthodes non paramétriques, phreg dans le cadre de modèle de Cox, et lifereg dans le cadre de modèles paramétriques.
Le logiciel Stata® nécessite de prédéfinir par l’instruction stset la base de données de durée à analyser (définition de la variable de durée et de la condition de censure d’une observation). Une batterie de fonction permettent ensuite d’analyser de manière exploratoire et non paramétriques cette base de durée (stdes, sts list, sts graph …), et les modèles de Cox sont mis en œuvre par une instruction stcox, les modèles paramétriques par une instruction streg en définissant une distribution pour la fonction de survie.
Le package survival permet de mettre en œuvre ce type d’analyse dans le logiciel R.
Exemple de graphique
Le graphique suivant est publié dans l’ouvrage « Analyse Démographique des biographies » (Courgeau et Lelièvre, 1989) et illustre une utilisation des fonctions de séjour.




Références bibliographiques (théorie)
Allison, P.D. (1984). Event history analysis: regression for longitudinal event data (Sage Publ.).
Blossfeld, H.-P., and Rohwer, G. (2002). Techniques of event history modeling: new approaches to causal analysis (New York: Lawrence Erlbaum Associates).
Courgeau, D. (1992). Event History Analysis in Demography (Clarendon Press).
Courgeau, Daniel, and Eva Lelièvre. 1989. Analyse démographique des biographies. INED.
Cox, D.R., and Oakes, D. (1984). Analysis of Survival Data (Chapman and Hall).
Hosmer, D.W., Lemeshow, S., and May, S. (2008). Applied survival analysis: regression modeling of time-to-event data (Hoboken, N.J.: Wiley-Interscience).

Références bibliographiques (mise en œuvre)
Allison, Paul David. 2010. Survival Analysis Using the SAS® a Practical Guide. Cary (N.C.): SAS Pub.
Blossfeld, Hans-Peter, Katrin Golsch, and Gotz Rohwer. 2007. Event History Analysis With Stata. Psychology Press.
Cleves, Mario, William Gould, Roberto Gutierrez, Yulia Marchenko, and &. 1. more. 2010. An Introduction to Survival Analysis Using Stata, Third Edition. 3 edition. College Station, Tex: Stata Press.
 
Références bibliographiques (Applications)
Beaujouan, Eva. 2011. “La fécondité des deuxièmes unions en France : âges des conjoints et autres facteurs.” Population 66(2):275.
Meron, M., and I. Widmer. 2002. “Les femmes au chômage retardent l’arrivée du premier enfant.” Population 57(2):327–57.

Modèles multiniveaux

Principe
La modélisation de comportements individuels peut être effectuée non seulement en fonction de caractéristiques individuelles, mais aussi de données contextuelles qui vont influencer de manière similaire tous les individus soumis au même contexte.

L’analyse multiniveau, dans ce cadre, vise à s’affranchir de l’erreur écologique (erreur qui consisterait à interpréter au niveau individuel les résultats d’une modélisation effectuée à un niveau agrégé) et de l’erreur atomiste (ignorer le contexte dans lequel évolue l’individu et étendre à la dimension du contexte un ensemble d’effets individuels).

On distinguera les modèles à constante aléatoire (l’effet des variables explicatives est le même dans chacun des contextes, seul change l’effet moyen de chaque contexte par rapport à l’ensemble), et les modèles à pente aléatoire ou l’effet d’une variable est considéré différent selon l’unité contextuelle analysée. Ne pas prendre en compte un effet multiniveau revient notamment à sous-estimer la variance des effets contextuels, et donc surestimer leur significativité.

Ces méthodes ont été initiées et développées notamment dans les sciences de l’Education (Goldstein, 1995), où la notation d’un élève dépend non seulement de ses caractéristiques, mais aussi de paramètres propres à son environnement scolaire (professeur, classe). Elles ont fait l’objet de nombreuses publications en démographie (Courgeau, 2004), (Courgeau et Baccaïni, 1997).

Type de données analysées
Des données contextuelles seront intégrées aux variables explicatives lors de la modélisation, soit exogènes (provenant d’une source administrative distincte), soit endogènes (calcul de proportion sur une région par exemple à partir des données individuelles d’enquête).

Applications logicielles
La mise en œuvre à partir du logiciel Sas® se fait via la procédure mixed dans le cadre linéaire, les procédures glimmix et nlmixed dans le cadre non linéaire.

Le logiciel Stata® possède plusieurs fonctions permettant de mettre en œuvre les modèles à effets aléatoires (xtmixed dans le cadre linéaire, xtmelogit et xtpoisson par exemple dans le cadre non linéaire).

Les packages lme4 (cadre linéaire) et nlme4 (cadre non linéaire) permettent quant à eux la mise en œuvre dans le cadre du logiciel R.

Bibliographie théorique

  • Courgeau, D. 2004. Du groupe à l’individu: synthèse multiniveau. Institut national d’études démographiques.
  • Goldstein, H. 1995. Multilevel Statistical Models. Edward Arnold.
  • Snijders, T. A. B., and R. J. Bosker. 2012. Multilevel Analysis: An Introduction to Basic and Advanced Multilevel Modeling. Los Angeles: Sage.

Bibliographie appliquée

  • Courgeau, Daniel, and Brigitte Baccaïni. 1997. “Analyse Multi-Niveaux En Sciences Sociales.” Population (French Edition) 52(4):831–63.
  • Rabe-Hesketh, S., and Anders Skrondal. 2005. Multilevel and Longitudinal Modeling Using Stata. College Station, Tex.: Stata Press.
  • Singer, Judith D., and John B. Willett. 2003. Applied Longitudinal Data Analysis: Modeling Change and Event Occurrence. Oxford; New York: Oxford University Press.
  • Wang, Jichuan, Haiyi Xie, and James H. Fisher. 2011. Multilevel Models: Applications using SAS. Walter de Gruyter.

Exemples d’articles

  • Schoumaker, B. 2001. “Une analyse multiniveaux dynamique de la fécondité légitime au Maroc rural.” Salvador, BR.
  • Testa, M. R., and L. Grilli. 2006. “L’influence des différences de fécondité dans les régions européennes sur la taille idéale de la famille.” Population 61(1):107–37.

Analyse de séquences

Principe

Les enquêtes démographiques permettent aujourd’hui de collecter des informations permettant de retracer la trajectoire d’individus, par exemple dans le domaine professionnel, familial ou résidentiel. Cette information peut être collectée de manière prospective (cas des panels par exemple), ou rétrospective (enquêtes biographiques). L’analyse de séquence permettra de décrire et classifier les trajectoires des individus, en considérant chaque trajectoire d’un individu comme une suite d’états dans un espace fini de modalités. Ainsi, on pourra étudier la trajectoire familiale en définissant la composition de la famille d’appartenance de chaque individu à chaque âge (seul, en couple sans enfant, en couple avec enfant, famille monoparentale …).
Un certain nombre de graphiques (chronogramme, tapis) permettront de visualiser les trajectoires les plus fréquentes ou l’hétérogénéité des trajectoires. Diverses méthodes, analyse harmonique qualitative ou optimal matching (Robette et Thibault, 2009), permettront in fine d’opérer une classification afin de regrouper des trajectoires similaires.
La méthode d’optimal matching (Abbott, 1995) se base sur le calcul d’un coût représentant le nombre d’opérations minimal (de type insertion, destruction, substitution d’état) pour transiter d’une trajectoire d’un individu 1 à la trajectoire d’un individu 2. Il en résulte une matrice de coûts, synthèse sur l’ensemble des individus sur laquelle sera opérée la classification.

Applications logicielles

La mise en œuvre à partir du logiciel R se fait via le module Traminer, développé à l’université de Genève.

Exemples de graphique

Les exemples ci-dessous, publiés par N. Robette, dans l’ouvrage publié au Ceped en 2011 «Explorer et décrire les parcours de vie: les typologies de trajectoires» donnent une image de chronogramme et de tapis. Le premier graphique représente la part, âge par âge, d’individus encore présents dans chacune des 3 grandes catégories (Etudiants, chômeurs ou inactifs, en emploi). Le second graphique superpose les trajectoires individuelles de l’ensemble des individus.

Bibliographie théorique

  • Abbott, A. 1995. “A comment on ‘Measuring the agreement between sequences.’” Sociological Methods & Research 24(2):232–43.
  • Deville, J.-C. Analyse harmonique du calendrier de constitution des familles en France. Population 32(1) (1977), 17–63.
  • Elzinga, C. H. 2003. “Sequence Similarity A Nonaligning Technique.” Sociological Methods & Research 32(1):3–29.
  • Halpin, B. 2010. “Optimal matching analysis and life-course data: the importance of duration.” Sociological Methods & Research 38(3):365–88.
  • Lesnard, Laurent, and Thibaut (de) Saint Pol. 2006. “Introduction aux méthodes d’appariement optimal (Optimal Matching Analysis).” Bulletin de méthodologie sociologique 90(1):5–25.
  • Robette, N., and N. Thibault. 2009. “Analyse harmonique qualitative ou méthodes d’appariement optimal?” INED - Population (F) 63(4):621–46.
  • Abbott, Andrew. 1995. “Sequence Analysis: New Methods for Old Ideas.” Annual Review of Sociology 21:93–113.

Bibliographie appliquée

  • Bonvalet, Catherine, and Arnaud Bringé. 2010. “Les trajectoires socio-spatiales des Franciliens depuis leur départ de chez les parents.” Temporalités. Revue de sciences sociales et humaines.
  • Morand, E., and L. Toulemon. 2009. “Analyse des séquences et Optimal Matching : Le passage à l’âge adulte des Femmes et des Hommes en France.” Paris: Xème Journées de Méthodologie Statistique de l’Insee, 23–25 mars 2009
  • Robette N., 2011, Explorer et décrire les parcours de vie: les typologies de trajectoires, CEPED ("Les Clefs pour"), 86 p. (pdf)