Méthodes Quantitatives pour l'historien

Méthodes quantitatives pour l historien, de Claire Lemercier et Claire Zalc

Autour de l’histoire quantitative…

  • Si la conclusion à laquelle on souhaite arriver a déjà été prouvée ou est évidente, mieux vaut éviter l’utilisation de chiffres.
  • Se méfier des termes lors sur de longues périodes: les signifiés et les signifiants changent.
  • Tout ne s’additionne pas: « l’Histoire de France n’est pas la somme des monographies départementales »
  • Les bases de données « exhaustives » peuvent donner le plaisir de retrouver le « paradis perdu de la totalité » (Bernard Lepetit, 1989)
  • Mais aucune base de données ne peut être exhaustive. Elle dépendra toujours d’un corpus étudié, des questions posées, du traitement reçu…
  • Il faut faire preuve d’imagination pour trouver des données qui n’ont pas été renseignées en tant que telles à l’époque: Hans Joachim Voth a travaillé sur le temps de travail au Moyen-Âge au travers de milliers de dépositions de témoins dans les procès criminels, puisqu’ils expliquaient où ils étaient et ce qu’ils faisaient…
  • Les questions à se poser avant de se lancer dans un travail quantitatif:
    • a-t-on l’information pour tous les individus ?
    • quel sens cela a-t-il de mettre ces informations sous forme de série ?
    • si on étudie un groupe en particulier, il faut pouvoir comparer son comportement par rapport à celui d’autres groupes comparables.
    • Assumer la non-exhaustivité, expliciter et justifier les choix faits.
  • Dans un tableau statistique, attention à ne pas perdre de vue les chiffres absolus (50% de deux individus ne signifie pas grand chose)
  • Si on étudie un effectif inférieur à 100, se passer de décimales dans les statistiques.
  • Indiquer la p value, ou probabilité d’indépendance: la valeur indiquant la probabilité que les chiffres soient dus à autre chose qu’à la corrélation entre deux variables (test de chi-2)

Saisir, coder

  • Attention, au moment du travail de saisie des données à ne pas confondre saisie et codage.
  • La saisie des données doit être au plus proche du document qui sert de source, le codage doit permettre de travailler ensuite: simplifier, interpréter, …
  • Lorsque chaque individu étudié a « fait » plusieurs « choses » (un peintre avec ses toiles, un élu avec ses mandats…), mieux vaut utiliser une base de données pour permettre ensuite un meilleur croisement des données entre individus.

 

Text-mining

  • Ne pas compter les mots d’un texte sans avoir cherché à lire et interpréter le texte avant.
  • Le text-mining peut permettre de voir les exceptions d’un texte, ce qui n’est pas écrit, ce qui n’est pas visible au fil de la lecture.
  • Toujours se poser les questions avant de découvrir les résultats d’un comptage de mots.
  • Logiciels à aller voir: 1. Frantext http://www.frantext.fr/ 2. Trésor de la Langue française: http://atilf.atilf.fr/
  • La lemmatisation est le processus réalisé par un logiciel transformant et regroupant chaque mot comme une « entrée ».
  • Cette opération est facultative et complexe car par définition elle extrait les mots utilisés de leur contexte. Deux logiciels permettent cela: Hyperbase et Alceste.
  • Une fois la lemmatisation réalisée, revenir au corpus pour visualiser les conclusions obtenues.

 

Corrélation et causalité

  • L’analyse factorielle (ou des correspondances multiples) a été souvent utilisé par Bourdieu et d’autres à sa suite: les critiques adressées à l’école bourdieusienne ont aussi touché l’analyse factorielle. L’utiliser avec des précautions.
  • Cette méthode peut éviter de devoir présenter un grand nombre de tableaux croisés.
  • Lorsque l’on travaille sur des effectifs réduits, utiliser le test de Fischer plutôt que le chi-2.
  • Dans une telle représentation, les variables les plus à gauche sont statistiquement les plus éloignées des variables les plus à droite; mais attention la présence d’un côté de l’axe plutôt que d’un autre est arbitraire.
  • Une ACM n’est jamais une carte de l’espace social.
  • On peut ajouter des variables supplémentaires, qui vont aider à lire l’ACM, même si elles n’ont aucun rôle dans la définition des axes.
  • Lors de la création d’une ACM, intégrer des variables qui renvoient à des phénomènes différents, se méfier des entrées « inconnues », qui peuvent peser lourd, essayer de créer des effectifs relativement équilibrés.
  • Parmi les utilisations possibles des ACM: classer des députés en fonction de leurs votes, déterminer des provenances d’objets archéologiques… Elles ne permettent que difficilement de faire apparaître des évolutions dans le temps.
  • Si on veut faire apparaître les noms des individus dans l’ACM, éviter ceux qui sont au centre, moins archétypaux.
  • Un tableau peut se lire sur ce modèle: « Toutes choses égales par ailleurs, le fait de (variable 1) influe positivement/négativement sur (ce que l’on étudie sous différentes variables) par rapport à (la référence). Exemple: toutes choses égales par ailleurs, le fait d’être étranger influe positivement sur le passage en seconde, par rapport au fait d’être français.
  • Lire Daniel Courgeau, 2004, Du groupe à l’individu. Synthèse multiniveaux, Ined, Paris.
  • Si les effectifs sont restreints, il peut être utile de travailler avec l’analyse qualiquantitative comparée (G. de Meur et B. Rihoux, 2002)
  • Sur la lecture de ces analyses:
    • si un chiffre n’est pas significatif, c’est intéressant aussi. Toutes choses égales par ailleurs, il n’est pas significatif d’être variable 1 ou variable 2.
    • Les seuils de significativité « sont un outil pour sélectionner ce qu’on peut interpréter, mais pas un outil d’interprétation ».
    • Attention aux effets croisés: les cas où deux variables influent lorsqu’elles sont combinées (le fait d’être marié avec un conjoint français et d’avoir des enfants avec lui va influer sur la décision d’un tribunal de commerce d’autoriser l’activité économique d’un étranger en France). Il faut alors une variable synthétique.

 

Réseau et analyse de réseaux

  • L’analyse de réseaux n’est pas une solution miracle pour tous les problèmes de relations humaines. Elle met notamment en avant les individus, au détriment de poids collectifs, difficilement visibles.
  • Sur ce point, lire Lemercier, 2005, Analyse de réseaux et histoire, Revue d’histoire moderne et contemporaine, avril-juin, pp. 88-112.
  • Se méfier des acceptions du terme « réseau ». On ne parle pas d’un groupe homogène ou tous sont reliés. En sociologie, un réseau peut contenir des individus isolés: « le terme technique réseau se réfère à un ensemble de données relationnelles, c’est-à-dire des données sur les liens qui unissent ou non un ensemble d’individus statistiques (personnes, communes, organisations…) »
  • Précautions lors de l’analyse:
    • Se souvenir que l’on coupe toujours artificiellement les individus observés du reste du monde.
    • Les liens, matérialisés par des flèches, sont visuellement plus forts que leur absence, mais ont autant de sens.
  • Si les réseaux sont trop complexes, on peut réaliser des calculs sur les matrices, pour éclairer la nature des liens. Les logiciels les réalisent facilement.
  • « L’analyse de réseaux vise à produire les indicateurs pertinents pour comprendre la forme d’ensemble du réseau et la position de chaque individu en son sein ».
  • L’analyse de réseaux présente un intérêt fort pour confirmer, infirmer, affiner des théories préalables autour d’un groupe.
  • Différentes possibilités existent: l’analyse structurale (éclairer la structure des liens dans un ensemble d’individus), l’analyse égocentrée (on part alors des individus plutôt que de la structure, pour éclairer les liens de chaque individu) et l’analyse « intermédiaire » ( on s’interroge alors sur les liens « entre les personnes en relation avec la personne étudiée à l’origine »).
  • Un des avantages de cette méthode est qu’elle nécessite une rigueur très forte dans la définition des catégories analysées.
  • Pour agrémenter l’étude, on peut créer des indicateurs de centralité, selon le nombre de liens des individus, la force de ces liens, la hiérarchie de ces liens. Cela permet ainsi de repérer des individus en position d’intermédiaire, d’influence…
  • On peut s’interroger sur la composition du réseau: comporte-t-il des sous-groupes distincts (appelés composantes connexes) ? Si oui, pourquoi les individus s’y trouvent-ils ?
  • On peut utiliser un calcul de densité pour interpréter le réseau: on rapporte le nombre de liens d’un individu à la quantité totale de liens possibles au sein du réseau observé. Ce calcul peut être utilisé pour comparer des sous-groupes (hommes/femmes, …)
  • Dans le cas de biographies, le quantitatif a été utilisé pour la démographie et la sociologie du travail (autour de la notion de carrière). L’analyse de séquences permet de mesurer les distances entre des événements dans un ensemble de biographies.

 

Etudier des parcours de vie

  • L’analyse de séquences permet de ne pas écraser la chronologie des faits et d’étudier les effets des évolutions d’attributs sociologiques (âge, adresse, poste…)
  • Elle est un outil pour faire apparaître la structure des données et à classer les individus selon la forme de leur trajectoire.
  • Attention: cette méthode porte le risque que l’analyste considère l’événement étudié comme un aboutissement alors qu’il n’est pas forcément vécu comme tel par les individus (le fait de devenir maire peut n’être vécu que comme un passage obligé vers la députation…). Cette méthode est exploratoire, très large. Il convient de l’utiliser avec prudence.
  • L’event history analysis vise à expliquer, en se centrant sur des moments de changement qu’il convient d’expliquer les uns par les autres.
  • La distance calculée entre deux séquences repose sur le nombre d’opérations nécessaires pour transformer une situation en l’autre. Ex: que faut-il changer, ajouter, soustraire, pour que tel maire devienne député ?
  • On peut alors classer les individus ou groupes qui possèdent un parcours proche ou éloigné.
  • On parle toujours de « risque de… », car c’est une méthode qui a été utilisée pour étudier la mortalité.
  • Dans cette méthode, on doit faire face à des individus dont le parcours est tronqué à droite, ou « censuré ». Ce sont ceux qui ont quitté la population observée pour une raison X ou Y: décès, … Mais on peut les intégrer dans les calculs jusqu’à leur départ du groupe.
  • A l’instar des régressions, les résultats sont accompagnés d’un coefficient de significativité.
  • Le parcours ne doit en revanche jamais être tronqué à gauche: on doit toujours étudier les individus à partir d’une même « ligne de départ », avant l’événement que l’on cherche à expliquer: l’âge de la majorité légale par rapport à l’accession à un mandat, …

Claire Zalc, Claire Lemercier, Méthodes quantitatives pour l’historien, La Découverte, coll. « Repères », 2008, 120 p., EAN : 9782707153401

Laisser un commentaire

Votre adresse de messagerie ne sera pas publiée. Les champs obligatoires sont indiqués avec *