MODELAGEM DO RISCO DE SEGURO DE AUTOMÓVEIS

Tipo de documento:Projeto

Área de estudo:Tecnologia da informação

Documento 1

Neste estudo, usou-se um Banco de Dados que continha a escala quantificada de risco de seguro [1], tal escala foi gerada por inúmeras seguradoras nos Estados Unidos da América. Portanto, objetiva-se realizar uma análise estatística descritiva e Análise Exploratória de Dados sobre estes dados e verificar informações significantes para a ótima modelagem via Regressão Linear Múltipla Aplicou-se a ainda a análise de correlação para fazer a redução dimensional dos atributos, e verificar os possíveis agrupamentos da variáveis preditoras aplicando os pacotes do Software R. E ainda, por meio da análise de regressão reduziu as variáveis por meio dos valores-p mais significativos. METODOLOGIA 2. Base de dados O Banco de Dados utlizado foi retirado do repositório denominado de UCI Machine Learning Repository [1].

Quadro 1 – Descrição geral da Base de dados Características Multivariada Número de amostras 205 Características do Atributo: Categórico, Inteiro e Contínuo Quantidade de atributos: 26 Tipo da análise Regressão e Agrupamento Dados incompletos Sim A seguir mostra-se os atributos do banco de dados original e sua respectiva variação. Grau de risco: -3, -2, -1, 0, 1, 2, 3. Perdas normalizadas: 65 to 256. Fabricante: alfa-romero, audi, bmw, chevrolet, dodge, honda, isuzu, jaguar, mazda, mercedes-benz, mercury, mitsubishi, nissan, peugot, plymouth, porsche, renault, saab, subaru, toyota, volkswagen, volvo 4. Tipo de combustivel: diesel, gas. altura: 47,8 a 59,8. massa do carro: 1488 a 4066. tipo de motor: dohc, dohcv, l, ohc, ohcf, ohcv, rotor. número de cilindros: oito, cinco, quatro, seis, três, doze, dois. dimensão do motor: 61 a 326. Risco 1 - Perda 2 - Numportas 3 - DistEixos 4 - Compr 5 - Largu 6 - Altura 7 - MassaCar 8 - NumCilin 9 - TamMotor 10 - DiamIntPist 11 - TamCurso 12 - TaxaComp 13 - Potencia 14 - RPM 15 - ConsumoCidade 16 - ConsumoRodv 17 - PrecoCarro A dimensão final para a análise foi de 18 variáveis com 159 observações.

Além disso, com o objeto era apenas modelar o Risco e função das características mecânicas retirou-se a identificação do nome dos veículos. RESULTADOS E DISCUSSÃO 3. Análise descritiva e Análise Exploratória de Dados Realizou-se estatística descritiva das variáveis avaliadas, cujo o resultado é mostado na Figura 1. Figura 1 - Análise descritiva das variáveis Fonte: O autor (2020) Os resultados estatísticos mostraram que existem variáveis que são possivelmente redundantes, pois por exemplo, as variáveis Consumo na Cidade e Consumo na Rodovia possuem as mesmas médias e desvio padrão similares. Onde R é o coeficiente de correlação linear de Pearson. Para verificar a relação entre as variáveis, gerou-se então a regressão múltipla linear, conforme a seção 3.

Modelagem linear Assim sendo, em teoria apenas deixar as variáveis que mais se correlacionam com o risco geraria um modelo de regressão linear múltipla mais parcimonioso, o que diminuiria o efeito da colinearidade, objetivando assim gerar um modelo mais parcimonioso. As seguintes variáveis correlacionáveis com risco, com um nível de significância em 95% de certeza, valor-p de 0. Quadro 2 – Correlações mais significantes entre o Risco e as variáveis regressoras Atributo Correlação de Pearson Atributo Correlação de Pearson Perda 0. Em seguida, aplicou-se a regressão Linear múltipla, gerou-se o seguinte modelo em R. lm(formula = Risco ~ Perda + Numportas + DistEixos + Compr + Largu + Altura + MassaCar + NumCilin + TamMotor + DiamIntPist + TamCurso + TaxaComp + Potencia + RPM + ConsumoCidade + ConsumoRodv + PrecoCarro, data = data) Os valores dos coeficientes de regressão são mostrados na Figura 5.

Nota-se que o R2 ajustado para o modelo foi de 0. Figura 5 – Coeficientes da Regressão Linear Fonte: O autor (2020) Logo em seguida, segundo a Regressão Linear, via o valor-p denotados por (***, **, *) mostrado na Figura 4, as variáveis Perda, NumPortas, DistEixos, Largu, Consumo na Cidade e Consumo na Rodovia são as mais significativas. Figura 6 – Coeficientes da Regressão Linear Fonte: Autor (2020) Ao avaliar somente as variáveis mais significantes, observa-se que não necessariamente uma alta correlação implicou que está variável fosse utilizado no modelo. REFERÊNCIAS http://archive. ics. uci. edu/ml/datasets/Automobile 6SCRITPTS # Pacotes library(ggplot) library(corrgram) # Carrega os dados data = read. csv("Dados_corr.

174 R$ para obter acesso e baixar trabalho pronto

Apenas no StudyBank

Modelo original

Para download