Skip to main content

Échelle des revenus en France


Je me suis intĂ©ressĂ© Ă  tracer le graphique de l'Ă©chelle des revenus en France. L'idĂ©e est de pouvoir dire "si vous vivez avec tant d'argent, vous ĂȘtes mieux loti que X% des français".

C'est une statistique qui m'intéresse particuliÚrement car elle est simple à comprendre et permet de prendre du recul. En l'occurence, cela peut permettre de mieux comprendre la contestation des "gilets jaunes".

RĂ©sultats #

Avant toute chose, voici le résultat de mes analyses :

Revenus disponibles mensuels par unité de consommation

De maniĂšre simplificatrice, on peut lire ce graphique comme cela : "si vous vivez avec 2500 euros par mois, vous ĂȘtes mieux loti que 80% des français". Note : c'est un langage approximatif.

Pour ĂȘtre prĂ©cis, il faut bien prĂ©ciser les termes employĂ©s ici. Voici les dĂ©finitions de l'INSEE :

Le revenu disponible d'un ménage comprend les revenus d'activité (nets des cotisations sociales), les revenus du patrimoine, les transferts en provenance d'autres ménages et les prestations sociales (y compris les pensions de retraite et les indemnités de chÎmage), nets des impÎts directs.

L'unitĂ© de consommation est un SystĂšme de pondĂ©ration attribuant un coefficient Ă  chaque membre du mĂ©nage et permettant de comparer les niveaux de vie de mĂ©nages de tailles ou de compositions diffĂ©rentes. Avec cette pondĂ©ration, le nombre de personnes est ramenĂ© Ă  un nombre d'unitĂ©s de consommation (UC). Pour comparer le niveau de vie des mĂ©nages, on ne peut s'en tenir Ă  la consommation par personne. En effet, les besoins d'un mĂ©nage ne s'accroissent pas en stricte proportion de sa taille. Lorsque plusieurs personnes vivent ensemble, il n'est pas nĂ©cessaire de multiplier tous les biens de consommation (en particulier, les biens de consommation durables) par le nombre de personnes pour garder le mĂȘme niveau de vie. Aussi, pour comparer les niveaux de vie de mĂ©nages de taille ou de composition diffĂ©rente, on utilise une mesure du revenu corrigĂ© par unitĂ© de consommation Ă  l'aide d'une Ă©chelle d'Ă©quivalence. L'Ă©chelle actuellement la plus utilisĂ©e (dite de l'OCDE) retient la pondĂ©ration suivante :

Donc, en gros, on parle ici de l'argent effectivement disponible dans chaque famille divisé par le nombre de personnes de maniÚre dégressive (toutes sources confondues et aprÚs impÎts).

Les données utilisées proviennent de ce dossier de l'INSEE paru le 19/06/2018 analysant des données de 2015 (plus de détails ci-dessous).

Vous trouverez des graphiques à d'autres échelles géographiques à la fin de l'article.

Construction de l'analyse #

Recherche des données #

Je me suis d'abord rendu sur Data Gouv et j'ai cherché avec des mots-clés comme "revenu médian". J'ai vite constaté que les résultats sont bien moins évidents que ce que j'espérais, avec parfois un langage abscons. De plus, les liens pointant vers des données de l'INSEE sont en partie cassés et redirigent vers la page d'accueil.

Je me suis donc dĂ©placĂ© sur le site de l'INSEE pour mes recherches. C'est trĂšs compliquĂ© de comprendre oĂč chercher les informations sur ce grand site au vocabulaire nouveau pour moi. Il y a plĂ©thore de documents, de fiches, de donnĂ©es, regroupĂ©es sous des noms d'enquĂȘtes trĂšs larges. TrĂšs dur de savoir vers quoi chercher. J'ai alors utilisĂ© mon joker Ă  un ami et @AntoineAugusti m'a conseillĂ© de ne pas hĂ©siter Ă  Ă©crire Ă  l'INSEE pour qu'ils m'aiguillent.

J'ai donc envoyé un message depuis le formulaire de contact et j'ai effectivement reçu une réponse trÚs efficace sous quelques jours :

Bonjour,

Vous trouverez la ventilation des revenus disponibles par commune,sous la rubrique Statistique, en sĂ©lectionnant les critĂšres suivants : thĂšmes : Revenus – Pouvoir d'achat – Consommation > Revenus – Niveaux de vie – Pouvoir d'achat catĂ©gories : DonnĂ©es > Bases de donnĂ©es

Les données sont accessibles sur la page Structure et distribution des revenus, inégalité des niveaux de vie en 2015, puis dans le fichier "Base niveau communes en 2015 - y compris arrondissements municipaux". Vous devez ensuite choisir le fichier "FILO_DISP_COM.xls". La distribution par décile se situe dans l'onglet "ensemble".

Cette réponse a été quasiment parfaite pour mon usage et m'a débloqué pour la suite !

Retour sur la recherche de données #

Mon sentiment sur cette recherche de données est partagé.

D'un cÎté je suis ébahi par la quantité et la qualité des données accessibles librement. Et aussi par la réponse parfaite dans un temps raisonnable de l'INSEE à une demande d'un particulier.

D'un autre cĂŽtĂ©, je trouve ça dommage d'avoir Ă  faire une demande de support pour une recherche de statistique qui me paraĂźt relativement "basique". L'expĂ©rience aurait Ă©tĂ© bien meilleure si j'avais rĂ©ussi Ă  trouver moi-mĂȘme ce que je cherchais. C'est dommage que l'intĂ©gration de Data Gouv avec l'INSEE ne fonctionne pas, et je pense que beaucoup de choses pourraient ĂȘtre faites pour amĂ©liorer la recherche et l'exploration au sein du site de l'INSEE. Ça m'a d'ailleurs donnĂ© l'idĂ©e d'ouvrir un site mirroir ... plus dans un autre post !

Surtout, je pense que je n'aurais jamais envoyé un message de support à l'INSEE si mon ami qui connaßt le milieu ne me l'avait suggéré. Je ne me serais pas senti légitime, et/ou je n'aurais jamais pensé recevoir une réponse aussi efficace rapidement.

Construction du graphique #

Ça a Ă©tĂ© l'occasion pour moi de re-dĂ©couvrir pandas, que je n'avais pas utilisĂ© depuis longtemps. J'ai aussi pu utiliser Jupyter, le successeur de iPython Notebook, que je ne connaissais pas.

La bonne surprise a été de voir que l'installation de cet environnement complet de stats (numpy, pandas, Jupyter ...) sur mon OS X s'est fait avec 3 commandes pip3 install, sans aucun problÚme. J'ai des souvenirs de cauchemards de dépendances ininstallables il y a quelques années.

Dans un premier temps, j'ai travaillĂ© sur le fichier indiquĂ© par le support de l'INSEE qui contient les donnĂ©es Ă  l'Ă©chelle communale. J'ai voulu faire une moyenne des dĂ©ciles, avant de me rendre compte que c'Ă©tait probablement une erreur statistique. J'ai alors pensĂ© pondĂ©rer les moyennes avec la population de chaque commune. Intuitivement, impossible de me dĂ©cider sur la validitĂ© d'une telle opĂ©ration : est-ce qu'on peut dĂ©couper un ensemble en sous-ensembles, calculer les dĂ©ciles sur ces sous-ensembles, et en faire la moyenne pondĂ©rĂ©e pour retomber sur les dĂ©ciles de l'ensemble global ?. Je n'ai pas trouvĂ© la rĂ©ponse sur internet, donc j'ai fait des simulations dans un autre notebook pour me faire une idĂ©e. Et ça n'a pas l'air valide, on ne retombe pas sur les mĂȘmes valeurs ! vous pouvez jouer avec ce notebook de tests sur Binder si ça vous intĂ©resse.

J'ai alors sorti le nez du guidon, pour me rendre compte qu'il y avait un jeu de données voisin à échelle plus haute, notamment à l'échelle nationale FILO_DISP_METROPOLE.xls. C'est beaucoup plus facile comme ça !

Le reste est un "jeu d'enfants" qui m'a quand mĂȘme pris quelques heures pour me rappeler comment manipuler les DataFrame et le plotting.

Vous pouvez trouver le code source du Notebook Jupyter sur GitHub, et aussi en lancer une version interactive avec Binder en suivant ce lien.

Par région et par commune #

Dans les données disponibles, on a le détail à différentes échelles, dont l'échelle régionale et l'échelle communale.

Par région #

Voici ce que ça donne région par région :

Revenus disponibles mensuels par unité de consommation par région

C'est un peu illisible, j'ai isolĂ© de maniĂšre un peu arbitraire les extrĂȘmes :

Revenus disponibles mensuels par unitĂ© de consommation par rĂ©gion, seulement les extrĂȘmes

On voit des différences de répartition importantes et surtout des inégalités de niveaux de vie trÚs marquées.

Au sein de Paris #

Ensuite, j'ai regardé à l'échelle des communes. On ne peut évidemment pas envisager de tracer le graphique pour les 36000 communes françaises et quelques, il faut donc faire des choix.

J'ai d'abord regardé les différences entre les différents arrondissements de Paris. Avec 20 arrondissements, le graphique est illisible, le voici avec les 4 arrondissements ayant respectivement les 2 taux d'inégalités les plus forts et les plus faibles (mesurés par l'indice de Gini).

Revenus disponibles mensuels par unité de consommation par région

Et non, ce n'est pas le 16Ăšme qui a le plus haut taux d'inĂ©galitĂ©, mais bien le 7Ăšme ! (le 16Ăšme est 3Ăšme). Les diffĂ©rences sont extrĂšmement marquĂ©es avec les deux arrondissements Ă  l'extrĂȘme opposĂ©. On note que le 1er dĂ©cile est quasiment identique : les mĂ©nages ayant le moins de revenu en ont Ă  peu prĂšs autant dans le 7Ăšme que dans le 20Ăšme. Et on voit aussi de maniĂšre flagrante que les mĂ©nages ayant le plus de revenus en ont environ 3 fois plus Ă  Paris 7Ăšme qu'Ă  Paris 20Ăšme.

Mise à jour: @Paul_Puget m'a fait remarquer que mon interprétation est erronée. On peut effectivement lire que le dernier décile est environ trois fois plus élevé. On ne peut cependant pas en tirer de conclusions sur les revenus moyens de ces 10% de gens les plus riches. Il n'est pas impossible que le revenu moyen dans ce dernier décile soit plus élevé dans le 20Úme que dans le 7Úme, cf ce petit schéma à la main.

Par ville #

Enfin j'ai regardé les communes à l'échelle nationale. J'ai filtré les données pour voir les grandes villes uniquement, en utilisant cette rÚgle : "nombre de personnes dans les ménages fiscaux supérieur à 100000".

Voici un graphique représentant 5 villes choisies arbitrairement pour représenter la "palette" de répartition des revenus : Paris (taux d'inégalité le plus fort), Marseille, Brest (taux d'inégalité le plus faible), Toulouse et Lyon.

Revenus disponibles mensuels par unité de consommation par communes

Là encore, on voit un schéma similaire, c'est-à-dire que les écarts se produisent principalement dans les déciles les plus hauts. Je pense que l'on peut lire cela comme ça : "Les écarts de répartitions des richesses dans les grandes villes françaises se concentrent dans les classes les plus aisées".

Mise Ă  jour: Ici encore, @Paul_Puget a relevĂ© que cette interprĂ©tation est un peu hĂątive. Le graphique permet de voir l’évolution selon les diffĂ©rents dĂ©ciles des Ă©carts absolus de revenus entre les diffĂ©rentes villes. Mais on ne peut pas vraiment y lire l’évolution des rapports entre ces revenus de diffĂ©rentes villes. Peut-ĂȘtre que le rapport entre les revenus disponibles Ă  Marseille et Ă  Paris et le mĂȘme pour le premier dĂ©cile et le dernier, par exemple 0,8. On peut difficilement le lire sur ce graphique en tout cas.

Conclusion #

J'espÚre que comme moi vous avez appris des choses, et surtout que ça vous a donné envie d'en savoir plus. Je vous invite à visiter le site de l'INSEE et celui de Data Gouv pour chercher des données intéressantes. J'ai plein d'idées pour d'autres analyses, notamment avec l'indice de Gini, si ça vous intéresse suivez-moi sur Twitter : @hypertextadrien.

Et surtout n'hésitez pas à me contacter si vous avez des questions, ou si vous avez repéré des erreurs dans les manipulations de données ou dans mes interprétations !