com a aprendizagem de máquinas, você precisa de um monte de dados, então às vezes faz sentido combinar dados reais com dados simulados para encontrar os padrões certos nos dados ou para a construção de modelos.

Limite Central diz que quanto maior o tamanho do conjunto de dados melhor, como a média populacional aproxima a média da amostra quando o tamanho da amostra se torna realmente grande. Ao gerar cópias replicadas do conjunto de dados da amostra, podemos estimar a média da amostra em diferentes populações para garantir que o valor médio é estável. Podemos também estimar a variância (incerteza) na previsão do valor médio.

a fim de simular dados de uma dada amostra, precisamos ser capazes de identificar padrões nos dados da amostra e também ter algum conhecimento sobre as características e como eles são distribuídos. Por exemplo, se eu tiver uma pequena amostra de alturas masculinas, e eu sei que as alturas seguem uma distribuição normal, eu poderia gerar um conjunto de dados de alturas masculinas usando o seguinte:

mu = mean(male_heights)sd = sd(male_heights)N = 1000simulated_data = rnorm(N, mu,sd)

este artigo discutirá como a simulação de Monte-Carlo (MC) pode ser usada para gerar cópias replicadas aproximadas do conjunto de dados da amostra. Cada um destes blocos de conjuntos de dados é então treinado. Em seguida, o desempenho geral do modelo é então calculado através da realização de uma média ensemble sobre os blocos de dados, incluindo dados reais e simulados.Introdução: prever o estatuto de um empréstimo é um problema importante na avaliação do risco. Um banco ou organização financeira tem de poder estimar o risco envolvido antes de conceder um empréstimo a um cliente. Data Science and predictive analytics play an important role in building models that can be used for predicting the probability of loan default. Neste projeto, nós somos fornecidos com o empréstimo.conjunto de dados csv com 50000 pontos de dados. Cada ponto de dados representa um empréstimo, e dois recursos são fornecidos como segue:

  1. A coluna com o cabeçalho “dias desde a origem” indica o número de dias decorrido entre a origem e a data em que os dados foram coletados.
  2. para os empréstimos que cobraram antes da recolha dos dados, a coluna com cabeçalho “dias da Originação à imputação” indica o número de dias que decorreram entre a originação e a imputação. Para todos os outros empréstimos, esta coluna está em branco.

Definição de Termos Técnicos

  1. Origem: refere-se à data em que o mutuário recebe um empréstimo de um credor.
  2. situação de cobrança (incumprimento do empréstimo) : O mutuário, em seguida, faz reembolsos regulares, até que o mutuário pára de fazer pagamentos, normalmente devido a dificuldades financeiras, antes do final do prazo do empréstimo. Este evento é chamado de charge-off, e o empréstimo é então dito ter cobrado fora ou em estado padrão.
  3. situação actual ou Activa: o mutuário continua a efectuar reembolsos ao longo de todo o período de duração do empréstimo. Neste momento, a dívida foi totalmente paga.Prazo de empréstimo: período durante o qual está em vigor um contrato de empréstimo e antes ou no final do qual o empréstimo deve ser reembolsado ou renegociado por outro prazo. Neste exemplo, consideramos um empréstimo com um prazo ou duração de 3 anos.Objectivo do projecto: o objectivo deste projecto é utilizar técnicas de ciência dos dados para estimar a fracção destes empréstimos (50 000 registos de clientes no empréstimo.csv dataset) terá debitado durante o período de empréstimo de 3 anos.

    o conjunto de dados e o código R para este artigo podem ser descarregados deste repositório: https://github.com/bot13956/Monte_Carlo_Simulation_Loan_Status.

    Importar Necessário Bibliotecas

    library(readr)
    library(tidyverse)
    library(broom)
    library(caret)

    Importar conjunto de dados e Preparar os Dados para Análise

    df<-read_csv("loan_timing.csv",na="NA")names(df)=c("origination","chargeoff")# partition data set into two: default (charged off ) and currentindex<-which(!(df$chargeoff=="NA"))default<-df%>%slice(index)current<-df%>%slice(-index)

    Análise Exploratória de Dados

    A) Dados Reais

    # Plot of days to charge-off vs. days since origination for defaulted loans using actual datadefault%>%ggplot(aes(origination,chargeoff))+geom_point()+xlab('days since origination')+ ylab('days to charge-off')+ggtitle("days to charge-off vs. days since origination")+theme(plot.title = element_text(color="black", size=12, hjust=0.5, face="bold"),axis.title.x = element_text(color="black", size=12, face="bold"),axis.title.y = element_text(color="black", size=12, face="bold"),legend.title = element_blank())

    B) Dados Simulados

    # Monte Carlo Simulation of Defaulted Loansset.seed(2)N <- 3*365 # loan duration in daysdf_MC<-data.frame(u=round(runif(15500,0,N)),v=round(runif(15500,0,N)))df_MC<-df_MC%>%filter(v<=u)df_MC<-df_MC%>%filter(u<=730 & v<=730) #select loans within first 2 yearsdf_MC%>%ggplot(aes(u,v))+geom_point()+xlab('days since origination')+ylab('days to charge-off')+ggtitle("MC simulation of days to charge-off vs. days since origination")+theme(plot.title = element_text(color="black", size=12, hjust=0.5, face="bold"),axis.title.x = element_text(color="black", size=12, face="bold"),axis.title.y = element_text(color="black", size=12, face="bold"),legend.title = element_blank())

    Reais e MC simulação de dias para cancelamento vs. dias desde a origem.

    porque há aleatoriedade associada com a cobrança de um empréstimo, vemos que a simulação MC fornece uma boa aproximação para a distribuição de empréstimos em falta.

    previsões: Já temos demonstrado que o relacionamento entre os dias para cancelamento e dias desde a originação nos 2 primeiros anos (i.e. 0 a 730 dias) pode ser aproximada usando um MC de simulação, podemos prever a fração de empréstimos que será cobrado pelo tempo de todos os seus 3 anos de termos terminado de usar MC simulação.

    o número total de empréstimos cobrados no nosso conjunto de dados é de 3.305. Isto significa que existem 46.695 empréstimos que estão ativos atualmente. Destes empréstimos activos, uma certa proporção não será utilizada durante o período de três anos. Para estimar o total fração de empréstimos inadimplentes, nós simulado empréstimos inadimplentes com cobrança-off e dias desde a origem, abrangendo todo o período de duração do empréstimo (por exemplo, 0 a 1095 dias), em seguida, pelo adequado dimensionamento, calculámos a fração de empréstimos que serão cobrados após o período de 3 anos por exemplo, 1095 dias.

    # Predicting fraction of these loans will have charged off by the time all of their 3-year term is finished.set.seed(2)B<-1000fraction<-replicate(B, {df2<-data.frame(u=round(runif(50000,0,N)),v=round(runif(50000,0,N)))df2<-df2%>%filter(v<=u)b2<-(df2%>%filter(u<=730 & v<=730))total<-(nrow(df2)/nrow(b2))*nrow(default)100.0*(total/50000.0)})
    mean(fraction)# Histogram of total fraction of charged off loansfdf<-data.frame(fraction=fraction)fdf%>%ggplot(aes(fraction))+geom_histogram(color="white",fill="skyblue")+xlab('fraction of charged off loans after 3-year term')+ylab('count')+ggtitle("Histogram of total fraction of charged off loans")+theme(
    plot.title = element_text(color="black", size=12, hjust=0.5, face="bold"),
    axis.title.x = element_text(color="black", size=12, face="bold"),
    axis.title.y = element_text(color="black", size=12, face="bold"),
    legend.title = element_blank()
    )# Calculate Confidence Interval of Percentage of Defaulted Loans after 3-year termmean<-mean(fraction)sd<-sd(fraction)confidence_interval<-c(mean-2*sd, mean+2*sd)confidence_interval

    criando N = 1000 ensaios aleatórios, obteve-se a seguinte distribuição para a fração de empréstimos inadimplentes período de 3 anos:

    Figura 6: Histograma para a fracção de empréstimos imputados após um período de 3 anos, utilizando n = 1000 amostras.

    com base nos nossos cálculos, o intervalo de confiança de 95% para a fracção de empréstimos que será cobrada após a duração do empréstimo de 3 anos é, portanto, de 14,8% + / -0,2%. Assim, se 50.000 empréstimos foram concedidos com um prazo de empréstimo de 3 anos, aproximadamente 15% destes empréstimos não serão concedidos.

    conclusões: apresentamos um modelo simples baseado na simulação MC para a previsão da fração de empréstimos que irão falhar no final do período de 3 anos de duração do empréstimo. A simulação de Monte Carlo é um método importante que pode ser usado em análises prescritivas para o curso de prescrição de ação a ser tomada nos casos em que o conjunto de dados é de natureza muito estocástica.

    o conjunto de dados e o código R para este artigo podem ser descarregados deste repositório: https://github.com/bot13956/Monte_Carlo_Simulation_Loan_Status.

Deixe uma resposta

O seu endereço de email não será publicado.

lg