前回
にて、Graphvizを使って決定木をJupyter Notebook上に直接描画する方法を解説した。
今回はscikit-learnを使って、よりシンプルなコードで決定木の図をJupyter Notebook上に直接描画する方法を示す。
先に準備として、決定木を描画するコードを書く前のプログラムを示しておく。
# モジュールのインポート
import numpy as np
import pandas as pd
import matplotlib.pyplot as plt
%matplotlib inline
from matplotlib.colors import ListedColormap
import sklearn
from sklearn.tree import DecisionTreeClassifier
from sklearn import metrics
# データセットのインポート
file=pd.read_csv('tree.csv')
# データの割り振り
X=file.iloc[:,0:2]
Y=file.iloc[:,2]
# データセットを学習データ(8割)とテストデータ(2割)に分割(random_stateは0)
X_train, X_test, Y_train, Y_test = sklearn.model_selection.train_test_split(X, Y, test_size=0.2, random_state=0)
# 分割の確認
print('分割の確認:',X_train.shape, X_test.shape, Y_train.shape, Y_test.shape)
# 学習実行
# インスタンスの作成
model = DecisionTreeClassifier(max_depth=2)
# モデルの作成
model.fit(X_train, Y_train)
# 学習データからの予測値
pred_train = model.predict(X_train)
# テストデータからの予測値
pred_test = model.predict(X_test)
# 学習データを用いた分類モデルの評価
print('正解率(学習データ) = ', metrics.accuracy_score(Y_train, pred_train))
# テストデータを用いた分類モデルの評価
print('正解率(テストデータ) = ', metrics.accuracy_score(Y_test, pred_test))
# データセットの図示
plt.figure(figsize=(4,4))
plt.scatter(file.iloc[:,0], file.iloc[:,1], c=file.iloc[:,2], cmap=ListedColormap(['#FF0000', '#0000FF','#00FF00','#808080']))
plt.show()
また、実際にプログラムを実行したい場合は、下記ボタンよりcsvファイル「tree.csv」をダウンロードしてプログラムの保存先に保存すること。
方法③:scikit-learnを使ってJupyter Notebook上に直接描画
上記プログラムに追加するコードは下記である。
# plot_treeで描画
from sklearn.tree import plot_tree
test_feature= ['x', 'y']
test_class=['0','1','2','3']
plt.figure(figsize=(15, 10))
plot_tree(
model.fit(X_train, Y_train), #学習で得られたモデルのコード。
filled=True, #ノードに色をつけるためのコード。
rounded=True, #ノードの角を丸くするコード。
feature_names=test_feature, #説明変数(特徴量)の名前を指定するコード。
class_names=test_class #目的変数(カテゴリー)の名前を指定するコード。
)
plt.show()
コード追加後にプログラムを実行し、下のような図がJupyter Notebook上で表示されれば成功である。
ここで、追加したコードを詳しく見ていく。
from sklearn.tree import plot_tree
⇒決定木描画に必要なモジュールをインポートするためのコード。
今回はデフォルトで標準インストールされているモジュール「scikit-learn」から「plot_tree」をインポートするだけでOK。
test_feature = ['x', 'y']
test_class = ['0','1','2','3']
⇒説明変数(特徴量)の名前と目的変数(カテゴリー)の名前をそれぞれ、「test_feature」と「test_class」に格納するためのコード。
plt.figure(figsize=(15, 10))
plot_tree(
model.fit(X_train, Y_train), #学習で得られたモデルのコード。
filled=True, #ノードに色をつけるためのコード。
rounded=True, #ノードの角を丸くするコード。
feature_names=test_feature, #説明変数(特徴量)の名前を指定するコード。
class_names=test_class #目的変数(カテゴリー)の名前を指定するコード。
)
plt.show()
⇒決定木の画像を描画し、Jupyter Notebook上に表示するためのコード。
各引数についてはコード内のコメント部分を参照。
コードの構成をよく見てみると、データセットを図示するコードと同じ構成をしていることがわかる。
普通のグラフを描画するのと同じノリで決定木を描けるのが「plot_tree」の特徴だ。
今回の「scikit-learn」を使う方法を知っておけば、決定木描画に関しては問題ないと思う。
しかし中には、今まで見てきたような文字が多い決定木の図が気に入らない人もいるだろう。
そこで最後に、「scikit-learn」よりは扱いづらいが、より視覚に訴える図を提供する「dtreeviz」を紹介して、決定木描画に関する記事を終了したいと思う。
下記に続く。
コメント