Cette page décrit formellement la base de données CASSMIR. La première partie décrit l’ensemble du jeu de données (accès aux données, date de création, conditions d’utilisation et de réutilisation de ces ressources, personne contact, etc.). La seconde partie présente le contenu de la base de données. La troisième partie présente les données spatialisées de la base CASSMIR, disponibles à 3 échelons géographiques (communes, grille 1km, grille de 200m). La quatrième partie présente les données des groupes de population, qui ne dispose pas d’attributs spatiaux en dehors de l’espace d’étude qu’elle recouvre (l’Ile-de-France).

L’étendue spatiale et les objets géographiques qu’ils contiennent sont précisés dans les sous-parties mais on peut dire qu’elles recouvrent la région Ile-de-France.

1 - Informations générales

1.1 Accès

En accès libre depuis l’entrepôt de données Zenodo

1.2 - Date de création du jeu de données

15/09/2020

Modification Version 2 le 26/01/2021

1.3 - Date des métadonnées

15/09/2020

Modification 26/01/2021

1.4 - Points de Contact

  • Nom : Thibault Le Corre
  • Role : Chef de projet / Point de contact
  • Organisation : UMR Géographie-Cités
  • email :

  • Nom : Ronan Ysebaert
  • Role : Contributeur / Metadata contact
  • Organisation : UMS RIATE
  • email :

1.5 - Conditions d’utilisation

Ce jeu de données est déposé sous la licence Creative Commons paternité - usage non commercial - partage à l’identique 4.0 International (CC BY-NC-SA 4.0).

Vous êtes libre de copier, distribuer, transmettre et adapter nos données, à condition que vous créditiez le projet CASSMIR et précisiez la source d’origine de la donnée. Si vous modifiez ou utilisez nos données dans d’autres œuvres dérivées, vous ne pouvez distribuer celles-ci que sous la même licence. Vous n’êtes pas autorisé à faire un usage commercial de cette base de données.

1.6 - Comment citer cette ressource sur les figures ?

(CC - Base de données CASSMIR, indicateur(s) construit(s) à partir des données XXXX - ANR WISDHOM - UMR Géographie-Cités, UMS RIATE, 2020)

NB : Il convient de nommer les données d’origine utilisées à la production des indicateurs (BIEN ou PTZ)

1.7 - Comment citer cette ressource en bibliographie ?

Toute production qui utilise les données CASSMIR doit référencer impérativement le jeu de données et le data paper qui l’accompagne.

Pour le jeu de données : Thibault Le Corre. (2020). CASSMIR (Version 1.0.0) [Data set]. Zenodo. http://doi.org/10.5281/zenodo.4030699

Pour le data paper : A venir



2 - Base de données CASSMIR

La période temporelle couverte par les indicateurs contenus dans la base de données dépendent des sources de données mobilisées, respectivement :

2.1 Les variables de la base CASSMIR

Les tables ci-dessous présentent les métadonnées des indicateurs mis à dispostion. Elles sont structurées systématiquement de la façon suivante :

  • Id_var : l’identificateur de la variable contenue dans “CASSMIR_SpatialDataBase” ou “CASSMIR_GroupesPopDataBase”

  • Label : Description du contenu de la variable

  • Groupe_indicateur : Le groupe d’indicateurs auquel la variable se rapporte (prix, indicateurs sociodémographiques des acheteurs et des vendeurs…)

  • Unit : L’unité de mesure de la variable

  • Spatial_Availability : Une précision sur la disponibilité de la variable dans la base de données spatiale (communes, grille 1 km et grille 200m) - GroupesPop_Availability : Une précision sur la disponibilité de la variable dans la base de données des groupes de population (Social, générationnel, sexe)

  • Data_Source : L’origine principale des données (INSEE, BIEN et/ou PTZ)

Le schéma de codage des indicateurs suit une logique gloable renvoyant à la méthode de construction de l’indicateur. Ils sont organisés comme suit : A_BB_CCC_DDDDD.

  • A_: Le premier caractère renvoie à la base de données source auquel l’indicateur appartient avec : B pour la base BIEN et P pour la base PTZ

  • BB: Le second acronyme renvoie à l’objet étudié auquel l’indicateur fait référence : PX pour les prix d’acaht/vente (avec PM pour les prix au m²) , AC pour les acquéreurs ; VE pour les vendeurs ; IMMO pour les caractéristique des biens

  • CCC: Le troisième acronyme permet de spécifier davantage l’information en ajoutant, quand nécessaire, un acronyme de la population concernée par l’objet étudié. Ce troisème acronyme est utile uniquement quand lil précède un quatrième acronyme, sinon voir directement la signification du quatrième acronyme. On retrouve par exemple PPH pour Personnes Physique (ménages), TYP1 pour ménages occupés (au sens d’actifs), MAI pour maison, APP pour appartement

  • DDDD: Le quatrième acronyme correspond à l’indicateur étudié. Il peut être suivi du niveau sémantique le plus désagrégé de l’indicateur (type de PCS, type de classe d’âge, catégorie d’ancienneté du bâti, etc) et/ou des termes statistiques de l’indicateur (moyenne, médiane, écart-type…).

Ci-dessous sont présentées les variables contenues dans les deux fichiers de sortie de la base de données CASSMIR : “CASSMIR_SpatialDataBase.gpkg” et “CASSMIR_GroupesPopDataBase.csv”. Au total, l’ensemble des jeux de données totalise 348 variables. Chaque fichier de la base ne dispose pas du même nombre de variables.

2.2 La base de données spatialisées

Ces données spatialisées sont stockées au format Geopackage.Le GeoPackage (GPKG) est un format de données géospatiale ouvert, non-propriétaire, non lié à un système d’exploitation qui a été défini par l’Open Geospatial Consortium. Par rapport au shapefile, il présente l’avantage de pouvoir regrouper plusieurs couches géographiques au sein du même fichier et d’éviter d’avoir à gérer les dépendances du shapefile (.dbf, .prj, .shx, etc.), toutes les informations nécessaires étant regrouppées au sein du même fichier.

La base de données CASSMIR rend disponible les variables d’intérêt dans 3 découpages géographiques mis à disposition par l’IGN et l’INSEE. En effet le geopackage contient 3 couches géographiques : Commune, Grid1km et Grid200m, correspondant au référentiel géographique dans lesquelles ces données sont disponible. Pour plus d’informations concernant l’origine des données géométriques, se reporter à l’onglet “PlayWithCassmir”.

Comme il est décrit dans la documentation sur la préparation de la base de données, il s’agit de données qui ont subi une succession de pré-traitements, suivie d’une estimation lissée par les calculs de potentiels pour les indicateurs numériques sur la grille 1km et la grille 200m. Certaines variables (stocks, principalement) sont uniquement disponibles à l’échelle de la commune pour des raisons de confidentialité des données.

2.2.1 - Étendue spatiale et SCR

Région Île-de-France - communes et éléments de grilles concernées par des transactions immobilières.

  • Xmin : 586421.7
  • Xmax : 741205.6
  • Ymin : 6780020
  • Ymax : 6905324

Système de Coordonnées de Référence (SCR) : EPSG 2154 RGF93/Lambert 93.

2.2.2 - Descriptif des couches géographiques disponibles

Observons les informations qui servent à caractériser les objets géographiques importés au format sf. Pour la couche 200m et 1km, les deux premières variables servent d’identifiant. Pour la couche carroyage 200m “IdINSPIRE” est l’identifiant pérenne issu de la nomenclature Insee. Pour la couche du carroyage 1km, l’identifiant pérenne est “Id_carr1km”. Pour ces deux couches, la seconde variable “Carreau_ID” est l’identifiant généré pour chaque unité spatiale qui compose “l’espace du marché”. Enfin, la troisième variable correspod à l’année d’agrégation de la donnée. Ces trois variables sont au format long, les deux variables d’identifications des unités spatiales sont ainsi dupliquées par le nombre d’année de renseignements pour chaque unité spatiale. De la quatrième à l’avant dernière variable, on retrouve toutes les informations statistiques qui caractérisent les unités spatiales. La dernière variable “geom” correspond aux informations géométriques.

En ce qui concerne la couche sur les communes, la première variable “INSEE_COM” correspond au code INSEE d’identification de la commune, la deuxième variable “NOM_COM”, correspond au nom de la commune. Comme pour les autres couches, la troisième variable correspond à l’année d’agrégation de la donnée. Ces trois variables sont au format long, les deux variables d’identifications des unités spatiales sont ainsi dupliquées par le nombre d’année de renseignements pour chaque unité spatiale. De la quatrième à l’avant dernière variable, on retrouve toutes les informations statistiques qui caractérisent les unités spatiales. La dernière variable “geom” correspond aux informations géométriques.

2.3 - Base de données des groupes de population

Le principe de la base des groupes de population est de proposer d’agréger les données des quatre grands champs proposés dans ce travail à l’échelle de chacun des trois groupes définis. La référence géographique de cette base est régionale. Les trois groupes de population sont établis à partir d’un critère social, générationnel et de genre.

2.3.1 - Référence temporelle

La période temporelle couverte par les indicateurs contenus dans la base de données dépendent des sources de données mobilisées, respectivement :

  • Pour les données issues de BIEN : 1996, 1999, 2003-2012, 2015, 2018
  • Pour les données issues de PTZ : 1996-2016

2.3.2 - Référence spatiale

Ensemble des données agrégées (couverture Ile-de-France).

2.3.3 - Descriptif des variables

Ce tableau d’informations statistiques est structuré de la façon suivante : la première colonne “Groupes” permet d’identifier le groupe de population analysé (c’est le détail de la varialbe “TypeGroupe”). Il s’agit des entités de références (en lignes) caractérisées par les informations statistiques ; la seconde colonne “TypeGroupe” indique le type de groupe d’appartenance des groupes (Social, Generationnel, Genre) ; la troisième variable “Parties” informe la position marchande du groupe : acquéreur ou vendeur. Chaque groupe (lignes de la première colonne) est ainsi dupliqué par cette distinction acquereur-vendeur ; La quatrième colonne “annee” indique l’année de référence de l’agrégation des données. Chaque groupe (lignes de la première colonne) est dupliqué par le nombre d’années de référence. Toutes les colonnes qui suivent sont les données agrégées à chaque groupe d’acquéreur et de vendeur et pour chaque année.

Pour rappel, la population (individus étudiés) est la même pour chaque groupe de chaque base de données d’origine, c’est l’entrée de référence par laquelle l’information est agrégée qui change (le même individu étant caractérisé par sa CSP d’appartenance, sa tranche d’âge d’appartenance ou son sexe ).

3 - Données complémentaires

“BIENSampleForTest” et “PTZSampleForTest” sont deux fichiers .txt qui restaurent un échantillon de données individuelles provenant de chacune des bases de données d’origine. Toutes les données ont été rendues anonymes et les valeurs ont été randomisées. Ces deux fichiers sont spécifiquement dédiés à la reproduction des différentes étapes de traitement qui conduisent à la production des fichiers CASSMIR (“CASSMIR_SpatialDataBase” ou “CASSMIR_GroupesPopDataBase”) et ne peuvent être utilisés d’aucune autre manière.

Pour connaître le contenu de ces deux échantillons, l’utilisateur doit prendre connaissance de la description des données d’origine (BIEN et PTZ).













BD CASSMIR - licence CC-BY-NC