映画と時々技術の日記

データ分析やNLPが専門です.よく映画を見ます.

DeepAnalyticsのコンペやった話(続き)

先日ぶりです。私です。

先日の続きですが今回はかなり短いと思います。
koletika.hatenablog.com

前回やったこと

前回は精度が0.11程度になったのが自分でもびっくりしたという話で終わっていました。
f:id:akitelok:20170718170308j:plain

勘違いした点

私が勘違いした点が以下です。
提出する.csvファイルの中身が間違っていたんです。
このコンペでは口座を開設する確率を提出してその精度をscoreとして出すものです。
そこでscikit-learnで.feature_importances_の中を見直してみました。

この中は以下のように二次元の配列で口座を開設するかしないかの確率が入っています。

[[ 0.1  0.9]
 [ 0.4  0.6]
 [ 1.   0. ]
 ..., 
 [ 1.   0. ]
 [ 1.   0. ]
 [ 1.   0. ]]

ここで私は左側のものを提出していました。
左側は口座を開設しない0の確率なんですね…
そしてほしいのは口座を開設する1の確率です。
完全に出すものを間違えてました。

そこを修正した精度が以下のようになっています。

f:id:akitelok:20170721182631j:plain

0.889って割りと良いのでは…
というかこの時点でbenchmark超えてます。
この結果がでた時は流石に怒りを通り越して笑ってしまいました。

ちなみに使う変数を色々変えても精度は下がったり上がるにしても0.001上がるかどうか程度であまり変化はありませんでした。

それではまた別のコンペのときに更新したいと思います。
以上です。ありがとうございました。