Pour le cours de mercredi, deux petites bases, pour se pratiquer à modéliser des variable 0/1 ou une variable de comptage,
> base = read.table("http://freakonometrics.free.fr/base-glm-act2040.txt", + header=TRUE)
ou encore
> base = read.table("http://freakonometrics.free.fr/base-pratique-act2040.txt", + header=TRUE)
Sinon, une base plus complète pour faire de la tarification,
> BASEN=read.table("http://freakonometrics.free.fr/baseN.txt",header=TRUE,sep=";") > BASEY=read.table("http://freakonometrics.free.fr/baseY.txt",header=TRUE,sep=";") > head(BASEN) ageconducteur agepermis sexeconducteur situationfamiliale habitation zone 1 57 39 F Celiba peri-urbain 8 2 54 35 H Celiba urbain 3 3 51 32 F Celiba urbain 1 4 53 35 H Marie rural 4 5 61 43 H Marie urbain 8 6 60 29 F Marie peri-urbain 1 agevehicule proprietaire payment marque poids usage 1 12 locataire Annuel AUTRES 8.>3500kg PROMENADE 2 20 sans mrp Semestriel PEUGEOT 4.3100-3199kg PROMENADE 3 4 sans mrp Annuel RAPIDO 1.<2700kg PROMENADE 4 1 sans mrp Annuel AUTRES 3.3000-3099kg PROMENADE 5 1 proprietaire Annuel FIAT 6.3300-3399kg PROMENADE 6 10 sans mrp Mensuel FIAT 8.>3500kg PROMENADE exposition nombre voiture 1 1 0 Monospace 2 1 0 Berline 3 1 0 sans avp 4 1 0 sans avp 5 1 1 Monospace 6 1 0 sans avp
Parmi les variables, la description (sommaire) est la suivante,
- ageconducteur: âge du conducteur principal du véhicule
- agepermis: ancienneté du permis de conduire du conducteur principal du véhicule
- sexeconducteur: sexe du conducteur principal (H ou F)
- situationfamiliale: situation familiale du conducteur principal (“Celiba”, “Marie” ou “Veuf/Div”)
- habitation: zone d’habitation du conducteur principal (“peri-urbain”, “rural” ou “urbain” )
- zone: zone d’habitation (allant de 1 à 8)
- agevehicule: age du véhicule
- proprietaire: si le conducteur principal possède un contrat Habitation, son statut (“locataire” ou “proprietaire”) Sinon “sans mrp”
- payment:type de fractionnement de la prime d’assurance automobile (“Annuel”, “Mensuel” ou “Semestriel”)
- marque: marque du véhicule
> levels(BASEN[,10]) [1] "ADRIA" "AUTOSTAR" "AUTRES" "BURSTNER MOBIL" [5] "CHALLENGER" "CHAUSSON" "CITROEN" "FIAT" [9] "FORD" "HYMERMOBIL" "MERCEDES" "PEUGEOT" [13] "PILOTE" "RAPIDO" "RENAULT" "VOLKSWAGEN"
- poids: classe de poids du véhicule
> levels(BASEN[,11]) [1] "1.<2700kg" "2.2700-2999kg""3.3000-3099kg""4.3100-3199kg" [5] "5.3200-3299kg""6.3300-3399kg""7.3400-3499kg""8.>3500kg"
- usage: utilisation du véhicule principal (“PROMENADE” ou “TOUS_DEPLACEMENTS”)
- exposition: exposition, en années
- nombre: nombre d’accident responsabilité civile du conducteur principal, pendant l’année passée
- cout: cout du sinistre
- voiture: type de véhicule
> levels(BASEN[,15]) [1] "Berline" "Break" "Buggy" [4] "Cabriolet" "Combispace" "Coup\xe9" [7] "Coup\xe9 Cabriolet" "Jeep" "Minibus" [10] "Minispace" "Monospace" "sans avp"
La variable d’intérêt est ici le nombre d’accident,
> table(BASEN$nombre) 0 1 60155 3264
La base est un peu particulière – on en parlera en classe – les assurés ayant eu 0 ou 1 accident dans l’année.