機械学習では、多くのデータが必要なので、実際のデータとシミュレートされたデータを組

Central limitは、サンプルサイズが本当に大きくなると母集団平均がサンプル平均に近似するため、データセットのサイズが大きいほど良いと言います。 標本データセットの複製コピーを生成することにより、異なる母集団の標本平均を推定して、平均値が安定していることを確認できます。 また、平均値の予測における分散(不確実性)を推定することもできます。

与えられたサンプルデータからのデータをシミュレートするためには、サンプルデータ内のパターンを識別し、特徴とそれらがどのように分布しているかにつ たとえば、男性の高さのサンプルが小さく、高さが正規分布に従うことがわかっている場合、次のように男性の高さのデータセットを生成できます:

mu = mean(male_heights)sd = sd(male_heights)N = 1000simulated_data = rnorm(N, mu,sd)

この記事では、モンテカルロ(MC)シミュレーションを使用して、サンプルデータセットの近似複製コピーを生成する方法について説明します。 次に、これらのデータセットの各ブロックに学習が行われます。 次に、実際のデータとシミュレートされたデータを含むデータブロックのアンサンブル平均を実行することによって、モデルの全体的なパフォーマ

はじめに:ローンの状況を予測することは、リスク評価において重要な問題です。 銀行や金融機関は、顧客に融資を付与する前に、関連するリスクを推定することができる必要があります。 データサイエンスと予測分析は、ローン不履行の確率を予測するために使用できるモデルを構築する上で重要な役割を果たします。 このプロジェクトでは、loan_timingが提供されます。50000データポイントを含むcsvデータセット。 各データポイントはローンを表し、次の二つの機能が提供されます:

  1. ヘッダー”days since origination”の列は、データが収集された日付と開始日の間に経過した日数を示します。
  2. データが収集される前に請求されたローンの場合、ヘッダー”days from origination to charge-off”の列は、請求から請求までの経過日数を示します。 他のすべてのローンの場合、この列は空白です。

専門用語の定義

  1. オリジネーション:これは、借り手が貸し手から融資を受けた日付を指します。
  2. チャージ-オフ(ローン-デフォルト)状態: 借り手は、定期的な返済を行います,借り手が支払いを行うことを停止するまで,通常の金融苦難のために,融資期間の終了前に.借り手は、定期的な返済 このイベントはチャージオフと呼ばれ、ローンはオフまたはデフォルトの状態で充電されていると言われています。
  3. 現在またはアクティブなステータス:借り手は、ローン期間全体にわたって返済を継続します。 この時点で、債務は完全に返済されています。
  4. 貸付期間:貸付契約が有効であり、その前または終了時にローンが返済されるか、別の期間に再交渉されるべき期間。 この例では、期間または期間が3年のローンを検討します。

プロジェクトの目的:このプロジェクトの目標は、データサイエンスの技術を使用して、これらのローンのどの部分(loan_timingの50,000の顧客レコード。csvデータセット)は、3年間のローン期間中にオフに課金されます。

この記事のデータセットとRコードは、このリポジトリhttps://github.com/bot13956/Monte_Carlo_Simulation_Loan_Statusからダウンロードできます。

必要なライブラリをインポート

library(readr)
library(tidyverse)
library(broom)
library(caret)

データセットをインポートし、分析のためのデータを準備

df<-read_csv("loan_timing.csv",na="NA")names(df)=c("origination","chargeoff")# partition data set into two: default (charged off ) and currentindex<-which(!(df$chargeoff=="NA"))default<-df%>%slice(index)current<-df%>%slice(-index)

探索的データ分析

A)実際のデータ

# Plot of days to charge-off vs. days since origination for defaulted loans using actual datadefault%>%ggplot(aes(origination,chargeoff))+geom_point()+xlab('days since origination')+ ylab('days to charge-off')+ggtitle("days to charge-off vs. days since origination")+theme(plot.title = element_text(color="black", size=12, hjust=0.5, face="bold"),axis.title.x = element_text(color="black", size=12, face="bold"),axis.title.y = element_text(color="black", size=12, face="bold"),legend.title = element_blank())

B)模擬データ

# Monte Carlo Simulation of Defaulted Loansset.seed(2)N <- 3*365 # loan duration in daysdf_MC<-data.frame(u=round(runif(15500,0,N)),v=round(runif(15500,0,N)))df_MC<-df_MC%>%filter(v<=u)df_MC<-df_MC%>%filter(u<=730 & v<=730) #select loans within first 2 yearsdf_MC%>%ggplot(aes(u,v))+geom_point()+xlab('days since origination')+ylab('days to charge-off')+ggtitle("MC simulation of days to charge-off vs. days since origination")+theme(plot.title = element_text(color="black", size=12, hjust=0.5, face="bold"),axis.title.x = element_text(color="black", size=12, face="bold"),axis.title.y = element_text(color="black", size=12, face="bold"),legend.title = element_blank())

チャージオフまでの日数とオリジネーション以降の日数の実際とMCシミュレーション。

ローンのチャージオフにはランダム性があるため、MCシミュレーションはデフォルトローンの分布に対して良い近似を提供することがわかります。

: MCシミュレーションを用いて、チャージオフまでの日数と最初の2年間(すなわち0-730日)のオリジンからの日数との関係を近似できることを実証しているので、MCシミュレーションを用いて3年間のすべての期間が終了するまでにチャージオフされるローンの割合を予測することができる。

私たちのデータセット内のチャージオフローンの総数は3,305です。 これは、現在アクティブである46,695の融資があることを意味します。 これらのアクティブな融資のうち、一定の割合は、3年間にわたってデフォルトになります。 不履行ローンの合計割合を推定するために、我々は、ローンの全期間(すなわち0から1095日)をカバーするチャージオフとオリジネーション以来の日数を持つ不履行ローンをシミュレートし、適切なスケーリングによって、3年の期間、すなわち1095日後にオフに充電されるローンの割合を計算した。

# Predicting fraction of these loans will have charged off by the time all of their 3-year term is finished.set.seed(2)B<-1000fraction<-replicate(B, {df2<-data.frame(u=round(runif(50000,0,N)),v=round(runif(50000,0,N)))df2<-df2%>%filter(v<=u)b2<-(df2%>%filter(u<=730 & v<=730))total<-(nrow(df2)/nrow(b2))*nrow(default)100.0*(total/50000.0)})
mean(fraction)# Histogram of total fraction of charged off loansfdf<-data.frame(fraction=fraction)fdf%>%ggplot(aes(fraction))+geom_histogram(color="white",fill="skyblue")+xlab('fraction of charged off loans after 3-year term')+ylab('count')+ggtitle("Histogram of total fraction of charged off loans")+theme(
plot.title = element_text(color="black", size=12, hjust=0.5, face="bold"),
axis.title.x = element_text(color="black", size=12, face="bold"),
axis.title.y = element_text(color="black", size=12, face="bold"),
legend.title = element_blank()
)# Calculate Confidence Interval of Percentage of Defaulted Loans after 3-year termmean<-mean(fraction)sd<-sd(fraction)confidence_interval<-c(mean-2*sd, mean+2*sd)confidence_interval

N=1000のランダム試行を作成することにより、デフォルトローン3年の期間の割合について次の分布を得ました:

図6: N=1000サンプルを使用して、3年間の期間後の充電オフローンの分数のヒストグラム。

私たちの計算に基づいて、3年間の融資期間後に請求されるローンの割合の95%信頼区間は、それに応じて14.8%+/-0.2%です。 従って50,000の貸付け金が3年の融資期間と与えられたら、これらの貸付け金のおよそ15%はデフォルトになる。

結論:3年間の貸出期間の終わりにデフォルトする貸出の割合を予測するためのMCシミュレーションに基づく簡単なモデルを提示しました。 モンテカルロシミュレーションは,データセットが本質的に非常に確率的である場合に取られる処方行動のコースのための処方分析に使用できる重要な方法である。

この記事のデータセットとRコードは、このリポジトリhttps://github.com/bot13956/Monte_Carlo_Simulation_Loan_Statusからダウンロードできます。

コメントを残す

メールアドレスが公開されることはありません。

lg