Introduction

L’agriculture est un secteur clé de l’économie, mais il expose les travailleurs à divers risques professionnels, notamment des expositions prolongées aux pesticides, aux poussières et aux agents biologiques. Ces expositions sont suspectées d’augmenter le risque de certains cancers, rendant essentielle l’étude des liens entre agriculture et santé. Les métiers agricoles sont variés, allant des grandes cultures à l’élevage, avec des niveaux d’exposition différenciés selon les pratiques et les produits utilisés. À l’aide de méthodes factorielles, notamment l’Analyse en Composantes Principales (ACP), nous identifions les corrélations entre pratiques agricoles et expositions. Ensuite, le clustering par la méthode des K-means permet de regrouper les individus en profils homogènes, facilitant l’analyse des risques sanitaires spécifiques à chaque groupe.


Description population

L’étude s’appuie sur la cohorte AGRICAN, qui vise à évaluer l’impact des expositions professionnelles agricoles sur le risque de développer un cancer. Cette cohorte comprend environ 180 000 affiliés à la Mutualité Sociale Agricole (MSA) ayant accepté de participer à l’étude, parmi les 567 000 personnes initialement éligibles. Elle regroupe des agriculteurs, des exploitants et des salariés, ainsi que des travailleurs de secteurs liés à l’agriculture. Tous étaient affiliés à la MSA depuis au moins trois ans et résidaient dans l’un des 11 départements français disposant d’un registre des cancers.

Notre étude se concentre sur la Cohorte 1975, qui rassemble 10 463 agriculteurs ayant débuté leur carrière entre 1965 et 1985. À travers un questionnaire, ils ont fourni des informations détaillées sur leur parcours professionnel, incluant leur type d’exploitation (élevage et/ou culture), l’utilisation de produits phytosanitaires (fongicides, insecticides, herbicides), le matériel employé, ainsi que des éléments sur leur santé et leur mode de vie.

Afin d’explorer ces données plus en profondeur, nous avons appliqué une Analyse en Composantes Principales (ACP) sur un tableau regroupant des ratios d’activité. Le ratio de pratique de l’activité mesure l’intensité d’une tâche en rapportant sa durée de pratique à la durée totale de l’activité professionnelle.


Exploration des données - Analyse en Composantes Principales

Pour commencer, nous avons décidé de réaliser une Analyse en Composantes Principales (ACP) sur les 8 cultures et les 5 types d’élevages les plus représentés dans notre jeu de données.

Cultures les plus représentées

Les 8 cultures sélectionnées sont :
- Prairies
- Blé ou orge
- Maïs
- Vignes
- Colza
- Tournesol
- Betteraves
- Pois fourragers

Élevages les plus représentés

Les 5 types d’élevages retenus sont :
- Bovins
- Moutons/Chèvres
- Cochons
- Chevaux
- Volailles

Cette analyse nous permettra d’identifier les principales tendances et similitudes entre ces cultures et élevages, facilitant ainsi l’interprétation des données.


Sélection des Axes

Pour choisir nos axes, nous avons cherché à conserver 80 % de l’inertie cumulée. Comme le montre le tableau ci-dessous, nous atteignons cet objectif en conservant nos 8 premières composantes principales.

Tableau des valeurs propres

% d’inertie % d’inertie cumulé
comp 1 23.94 23.94
comp 2 12.89 36.83
comp 3 10.16 46.98
comp 4 9.00 55.98
comp 5 7.55 63.53
comp 6 7.02 70.55
comp 7 6.66 77.21
comp 8 5.55 82.77
comp 9 4.77 87.54
comp 10 4.00 91.53
comp 11 3.82 95.35
comp 12 2.73 98.08
comp 13 1.92 100.00

Analyse du Nuage des Variables

Après avoir identifiés nos 8 composantes principales, nous réalisons la représentation du nuages des variables avec les deux premières composantes principales (CP1 et CP2).

Sur ce dernier, on peut observer que les variables “Blé ou Orge”, “Maïs”, “Prairies” et “Bovins” sont corrélées positivement avec le premier axe.

La variable “Vignes” est, quant à elle, corrélée négativement avec ce dernier.

Les variables “Pois Fourragers” et “Colza” sont corrélées positivement avec le second axe.

Toutes ces variables évoquées sont globalement bien représentées sur le plan factoriel.

En revanche, les autres variables sont mal représentées dans ce plan, notamment “Cochons”, “Volailles” et “Chevaux”. Par conséquent, elles ne seront pas pertinentes pour notre analyse.

Nuages des variables


Analyse des Corrélations et Identification des Axes Principaux

Pour obtenir une vue d’ensemble plus globale, nous nous sommes appuyés sur la matrice des corrélations et avons choisi de nous concentrer sur les quatre premiers axes.

Dans ce tableau, les variables mises en évidence en rouge sont celles qui présentent la plus forte corrélation (> 60 %) avec leur axe respectif. Celles en orange sont corrélées à au moins 40 %, et celles en jaune à au moins 20 %.

  • Concernant le premier axe, la variable “Blé ou Orge” est la mieux représentée, avec un coefficient de corrélation de 0,83, indiquant une très forte association.

  • Pour le deuxième axe, c’est la variable “Pois Fourragers” qui est la plus corrélée, avec un coefficient de 0,65.

  • En ce qui concerne le troisième axe factoriel, la variable la mieux représentée est “Chevaux”, avec un coefficient de 0,48.

  • Enfin, pour le quatrième axe, la variable la plus corrélée est “Betterave”, avec un coefficient de -0,52.

Matrice des corélation entre les variables et les composantes principales

Dim.1 Dim.2 Dim.3 Dim.4
Prairies 0.74 -0.44 -0.02 -0.05
Blé ou orge 0.83 0.08 -0.1 -0.03
Mais 0.65 -0.09 -0.29 0.02
Vignes -0.59 0.21 -0.22 -0.02
Colza 0.43 0.64 -0.14 0.23
Tournesol 0.36 0.42 -0.42 0.51
Bettraves 0.35 0.39 0.46 -0.52
Pois fourragers 0.37 0.65 0.24 -0.28
Bovins 0.69 -0.51 -0.07 -0.15
Moutons/Chèvres 0.09 -0.04 0.4 0.4
Cochons 0.15 -0.01 0.43 0.21
Chevaux 0.03 -0.1 0.48 0.23
Volailles 0.13 -0.05 0.36 0.48

Classification automatique - K-means

Après avoir réalisé l’ACP, nous cherchons à constituer des classes d’individues afin de comprendre leur caractéristique principales. Pour ce faire nous allons utiliser les k-means. Les k-means sont un algorithme de classification non supervisée qui partitionne un ensemble de données en k groupes en minimisant la variance intra-cluster.

Détermination du nombre optimal de clusters

Pour déterminer le nombre optimal de clusters, nous avons utilisé la méthode du coude. Cette technique consiste à tracer la courbe de l’inertie intra-cluster en fonction du nombre de clusters (k). Le point où la diminution de l’inertie ralentit brusquement correspond généralement au nombre optimal de clusters.

Sur notre graphique , une cassure est observable à partir de huit clusters. Nous retenons donc huit comme nombre optimal de clusters, car au-delà de ce seuil, la réduction de l’inertie devient moins significative.

Variance intra-classe


Sélection des clusters les plus représentatifs

En choisissant huit clusters, nous observons une répartition inégale des effectifs. Pour notre étude, nous nous concentrerons uniquement sur les quatre clusters les plus représentés :

  • Cluster 1 : 857 individus
  • Cluster 2 : 3 497 individus
  • Cluster 5 : 710 individus
  • Cluster 6 : 3 405 individus

Cette sélection permet d’analyser les groupes ayant le plus d’impact tout en évitant ceux dont l’effectif est trop faible pour être significatif.

Tableau des effectifs par cluster

Cluster Effectif
1 857
2 3497
3 655
4 508
5 710
6 3405
7 361
8 470

Tableau des cultures les plus fréquentes

Fréquence
Prairies 6538
Blé ou orge 5914
Maïs 5503
Vigne 3253
Colza 1602
Tournesol 1478
Betteraves 1277
Pois fourragers 1024

Analyse des quatre clusters les plus représentés

Après avoir identifié les quatre clusters les plus représentés, nous analysons ces groupes en nous basant sur cinq variables clés : l’effectif, l’âge moyen au début de la carrière, la proportion de fumeurs, le nombre moyen de paquets consommés annuellement et la durée moyenne d’activité. Ces indicateurs révèlent des différences notables en termes d’âge d’entrée en activité, de tabagisme et de stabilité professionnelle.

Cluster 1 :
Les individus commencent en moyenne leur carrière à 20 ans. La majorité ne fume pas (moins d’un sur deux), et parmi les fumeurs, la consommation atteint environ 14 paquets par an. Ce groupe a également de la durée d’activité la plus longue.

Cluster 2 :
Ce cluster se caractérise par un début de carrière très précoce (19 ans en moyenne) et la plus faible proportion de fumeurs, dont la consommation est d’environ 12 paquets par an. La durée d’activité y est élevée, avoisinant les 28 ans en moyenne.

Cluster 5 :
Les individus entament leur carrière autour de 19,85 ans. La proportion de fumeurs est importante (51,83 %), avec une consommation d’environ 15,6 paquets par an.

Cluster 6 :
Ce groupe présente le début de carrière le plus tardif, la plus forte proportion de fumeurs et une consommation moyenne de 16 paquets par an, bien que sa durée d’activité soit la plus courte.

Ces observations mettent en lumière des profils distincts : certains groupes présentent une exposition plus marquée au tabagisme, tandis que d’autres affichent des caractéristiques propres à un début de carrière plus précoce ou tardif. Ces résultats offrent des pistes concrètes pour adapter les politiques de prévention aux spécificités de chaque cluster (cf.Description des clusteurs).

Description des clusteurs

Cluster Cluster1 Cluster2 Cluster5 Cluster6
Effectif 857 3497 710 3405
Âge moyen au début de la carrière (écart-type) 20.07 (6.07) 19.35 (6.28) 19.85 (5.45) 22.18 (7.99)
Proportion de fumeurs 47.84 47.24 51.83 59.06
Nombre moyen de paquets de tabac consommés annuellement 14.17 12.47 15.6 15.99
Durée moyenne d’activité (écart-type) 27.88 (7.68) 27.84 (9.04) 27.47 (8.86) 25.29 (9.68)

Analyse des Clusters Agricoles

Cluster 1 : Grandes Cultures Céréalières et Oléagineuses

Ce cluster se distingue par des V-tests très élevés (>10) pour plusieurs cultures.

  • Surreprésentés :
    • Tournesol (0.678, V-test=77.391)
    • Colza (0.515, V-test=55.533)
    • Blé/orge (0.922, V-test=30.598)
    • Maïs (0.887, V-test=23.014)
    • Volailles (0.076, V-test=15.066)
    • Pois fourragers (0.159, V-test=13.814)
    • Moutons/chèvres (0.037, V-test=10.270)
  • Sous-représentés :
    • Vignes (0.147, V-test=-11.395)

Ce cluster représente des exploitations spécialisées dans les grandes cultures céréalières et oléagineuses.

Cluster 2 : Élevage Bovin avec Polyculture

  • Surreprésentés :
    • Prairies (0.891, V-test=62.759)
    • Bovins (0.879, V-test=60.507)
    • Blé/orge (0.67, V-test=33.810)
    • Maïs (0.677, V-test=30.247)
  • Sous-représentés :
    • Tournesol (0.028, V-test=-18.369)
    • Colza (0.023, V-test=-19.992)
    • Pois fourragers (0.01, V-test=-19.337)
    • Betteraves (0.031, V-test=-16.689)
    • Vignes (0.107, V-test=-35.422)

Ce cluster correspond à un système d’élevage bovin avec prairies et cultures céréalières complémentaires.

Cluster 5 : Cultures Industrielles et Grandes Cultures

  • Surreprésentés :
    • Betteraves (0.832, V-test=80.055)
    • Pois fourragers (0.506, V-test=57.453)
    • Blé/orge (0.928, V-test=27.936)
    • Colza (0.258, V-test=20.090)
    • Élevage porcin (0.064, V-test=15.688)
  • Sous-représentés :
    • Vignes (0.057, V-test=-15.864)

Ce cluster est principalement orienté vers les cultures industrielles et les grandes cultures.

Cluster 6 : Viticulture Spécialisée

  • Surreprésentés :
    • Vignes (0.615, V-test=51.546)
  • Sous-représentés :
    • Tournesol (0.006, V-test=-24.824)
    • Colza (0.004, V-test=-25.438)
    • Blé/orge (0.055, V-test=-68.561)
    • Maïs (0.066, V-test=-48.166)
    • Volailles (0.008, V-test=-10.862)
    • Pois fourragers (0.002, V-test=-21.554)
    • Prairies (0.074, V-test=-71.576)
    • Bovins (0.132, V-test=-64.021)
    • Betteraves (0.007, V-test=-23.373)

Ce cluster est clairement spécialisé dans la viticulture.

Synthèse Comparative

L’analyse des quatre clusters les plus représentatifs met en évidence des systèmes agricoles distincts en fonction des cultures et élevages dominants.
Ces valeurs, statistiquement très significatives (V-test > 10 en valeur absolue), montrent quatre systèmes agricoles bien définis :

  1. Grandes cultures céréalières et oléagineuses (C1)
  2. Élevage bovin avec polyculture (C2)
  3. Cultures industrielles et grandes cultures (C5)
  4. Viticulture spécialisée (C6)

Tableau des résultats

Variable Moy c1 v-test c1 Moy c2 v-test c2 Moy c5 v-test c5 Moy c6 v-test c6 Moyenne
Tournesol 0.678 77.391 0.028 -18.369 0.019 -7.665 0.006 -24.824 0.754
Colza 0.515 55.533 0.023 -19.992 0.258 20.090 0.004 -25.438 0.476
Blé.ou.orge 0.922 30.598 0.67 33.810 0.928 27.936 0.055 -68.561 0.631
Mais 0.887 23.014 0.677 30.247 0.582 6.436 0.066 -48.166 0.457
Volailles 0.076 15.066 0.019 -3.067 0.056 8.271 0.008 -10.862 0.038
Pois.fourragers 0.159 13.814 0.01 -19.337 0.506 57.453 0.002 -21.554 0.052
Moutons/Chèvres 0.037 10.270 0.006 -4.960 0.036 8.946 0.005 -6.393 0.030
Prairies 0.627 7.547 0.891 62.759 0.629 6.924 0.074 -71.576 0.317
Cochons 0.032 5.723 0.013 -2.883 0.064 15.688 0.005 -9.493 0.162
Bovins 0.55 1.958 0.879 60.507 0.58 3.640 0.132 -64.021 0.164
Chevaux 0.006 0.549 0.004 -1.353 0.014 6.230 0.004 -2.501 0.182
Bettraves 0.017 -8.320 0.031 -16.689 0.832 80.055 0.007 -23.373 0.029
Vignes 0.147 -11.395 0.107 -35.422 0.057 -15.864 0.615 51.546 0.096

Conclusion

Tout au long de leur activité quotidienne et de leur parcours professionnel, les agriculteurs sont exposés à de nombreux facteurs susceptibles d’affecter leur santé. Ces expositions, multiples et complexes, peuvent être envisagées comme la combinaison d’agents physiques, chimiques, biologiques et comportementaux. Notre étude s’est appuyée sur les données de la cohorte AGRICAN, visant à évaluer l’impact des expositions professionnelles agricoles sur le risque de développer un cancer.

L’analyse de ces données a permis d’identifier des profils distincts d’agriculteurs, apportant une meilleure compréhension des pratiques agricoles, des caractéristiques socio-démographiques et des expositions associées. L’Analyse en Composantes Principales (ACP) a mis en évidence des corrélations significatives entre certaines cultures. Les variables « Blé ou Orge », « Maïs », « Prairies » et « Bovins » sont fortement liées au premier axe, tandis que la variable « Vignes » présente une corrélation négative avec ce même axe. Le second axe est principalement structuré autour des cultures de « Pois fourragers » et de « Colza », révélant une organisation cohérente des activités agricoles.

La classification par K-means a révélé quatre clusters principaux représentatifs de la population agricole étudiée. Le Cluster 1 regroupe les exploitants de grandes cultures céréalières et oléagineuses, avec une forte présence de tournesol et colza, débutant leur carrière vers 20 ans et présentant la durée d’activité la plus longue malgré un tabagisme modéré. Le Cluster 2 rassemble les éleveurs bovins pratiquant la polyculture, caractérisés par un début de carrière précoce à 19 ans, un faible taux de tabagisme et une longue durée d’activité d’environ 28 ans. Le Cluster 5 se compose d’agriculteurs spécialisés dans les cultures industrielles comme les betteraves et pois fourragers, avec une proportion élevée de fumeurs (51,83%) consommant en moyenne 15,6 paquets par an. Enfin, le Cluster 6 regroupe les viticulteurs qui se distinguent par un début de carrière plus tardif, le plus fort taux de tabagisme et la durée d’activité la plus courte, suggérant des profils d’exposition professionnelle spécifiques.

Ces résultats mettent en évidence l’hétérogénéité des profils d’exposition professionnelle dans le secteur agricole. La combinaison de facteurs tels que le type d’exploitation, les habitudes tabagiques et la durée d’activité génère des profils de risque distincts, nécessitant des stratégies préventives spécifiques. Ces éléments contribuent également à orienter les futures recherches épidémiologiques, en ciblant des populations précises et en affinant les approches de prévention.