Kaggle事例紹介「クレジットカードのデフォルト予測」
  • タグ画像

    Kaggle

2022-10-05

いままでの記事の中でも触れてきたように、データサイエンスはまだまだこれから活用が進んでいく領域です。

サイエンスという名がつくように、まさに、日々試行錯誤が繰り広げられ実用されるべく日進月歩で進化し続けていく領域となります。

昨今になって、実際にデータの活用を行う企業が増えて来ていますが、まだまだ日本全体で活用が盛んとは言い難い状態です。

そのような中で、実際にその日進月歩で活用のための試行錯誤が繰り広げられる現場を見ることで、今後どのような発展が見込まれていくのか、予測を立てることが出来るとも言えます。

今回は、企業のデータ活用の前進として、多数のデータサイエンティスト達と共同でデータ活用を進めるプロジェクトを推進するKaggleと呼ばれるプラットフォームと、その取組について焦点を当てていきます。

目次

Kaggleとは

Kaggleとは、データサイエンティスト達が、自分たちのデータ分析力を磨く場として機能しているプラットフォームとなります。

kaggleとはカグルと読み、kaggleに参加し、スキルを磨く方々をカグラーと呼びます。

the home of Data Science & Machine Learning

と表記されるように、データサイエンスと機械学習の家と呼ばれ、世界中の、機械学習・データサイエンスに携わる約40万人が集まるコミュニティです。

Kaggleの中では、企業や政府などの組織と、データ分析のプロであるデータサイエンティストや機械学習エンジニアを繋げるプラットフォームとして機能しており単純にエンジニアと企業をマッチングするのではなく、コンペも行われ盛り上がりをみせています。

どういう目的で利用している人がいるか

企業や政府などの組織とのコンペとは、企業や組織が競争形式で課題を提示し、賞金と引き換えに制度の高い分析モデルを買い取るという仕組みです。

開催されるコンペは多種多様で、

・住宅価格の予測を行うために、間取りや、駅からの距離等といった複数の要因から、戸建て住宅の最終的な価格を予測する。
・有事の際のTwitterの投稿の有用性に目を付け、災害の発生状況を正しく測定するために、tweetの内容と状況から、自動で災害に関するリアルタイムの情報を収集するアルゴリズムを作る。
・飛行機内のパイロットの状況をリアルタイムで観察し、危険な状態になった場合自動でアラートをあげるアルゴリズムを作成する。

といったコンペが行われています。

このように、実際に企業がどのようにデータ分析を利活用しているのかという一端が垣間見える為、ある意味で業界でのデータ活用の前線の取組みがわかるといえるでしょう。

今回はそのようなKaggleのコンペの中から、金融市場に関する内容を取り挙げ、現在の金融市場でのデータ活用はどのようなものかという内容と共にご紹介をしていきます。

市場の説明

金融市場でのデータ活用の取組を説明する前に、金融市場がどのようなものなのか、大枠の説明を行っていきます。

金融業界とは、主に貸付や金融商品の販売などの仕事を主とする業界となります。

日本における金融業界の市場規模は、2020年~2021年では約60兆円となっており、卸売、電気機器業界に次いで3位の大きさを誇ります。

そのような業界規模の大きさに加えて、市場占有率が高いことも特徴の一つです。

要は、すでにある企業の市場における割合が非常に高いことを意味し、古くからの企業が長く覇権を握り、新興の企業の参集が難しいという特徴を持ちます。

金融業界における業種

実際に、金融業界でどのようなビジネスを行っている企業がいるのか、市場における業種を見ていきましょう。

銀行

主に、顧客から預かったお金を、個人や法人に利息を付けて貸し出すことで利益を上げるビジネスモデルとなります。

対象となるターゲットやエリア、規模、仕事内容によって、「メガバンク」「地方銀行」「信託銀行」「信用金庫」の4つに分類することができます。

証券

投資家が株式や投資信託といった金融商品を購入する際の仲介を行うことで仲介手数料を得たり、株式の運用を行うことで利益を上げるビジネスモデルです。

その中でも、全国に実店舗を持っている証券会社と、オンラインでの取引仲介を行うネット証券の2種類があります。

保険

保険の加入者から集めた資金を元に、加入者が病気や怪我などの被害にあった際に、保険金を支払う制度です。

加入者が支払う保険料と、その運用益で利益を上げるのが保険会社の主なビジネスモデルです。主に、被保険者の生死に関するリスクに備える「生命保険」を取り扱う生命保険会社と、物品の損害リスクに備える「損害保険」を取り扱う損害保険会社の2種類に分けられます。

カード会社

クレジットカードを支給して手元にお金が無くても支払ができるというサービスを提供しており、手数料によって利用者と加盟店の両方から利益を得るビジネスモデルです。

その他金融

また、その他の金融事業を担う会社として、信託会社、政府系金融機関、不動産金融、リース会社、アセットマネジメント、といった業種が存在しています。

金融業界のトレンド

そんな金融業界のトレンドとしては、fintechという言葉が耳になじみがあるのではないでしょうか。

前述したように、旧態依然とした業界、並びに企業慣習を持つ金融業界の為、手続きに紙を用いたアナログな体制であったり、時代にそぐわない煩雑な手続きを求められたりと、改善の余地が非常に多いこともあり

IT企業と提携し、テクノロジーの力を借りることでより、ユーザーにとって利用しやすい体制へと変化しつつある。というのがfintechの概要となります。

また、基本的に膨大な数値や情報を扱う業界だからこそ、昨今のデータ活用のトレンドにも大いに関わっており、預かったお金の運用の際の運用の効率化や、預かった顧客情報から収支の状況における傾向を分析したり、最適なローンの組み方を支援するといった、データ活用もトレンドとなってきております。

fintech等の言葉が業界を席捲した記憶が真新しいですが、まさにテクノロジーが進んでいく業界となります。

加えて、キャッシュレス化が進み多数の電子決済のシステムが勃興し、より取引データなどの消費者データが集まりやすい状況となっていることもトレンドのひとつとして上げられるでしょう。

クレジットカード会社の業界動向

さて、金融市場における業界の動向の大枠を理解いただけたかと思いますが、今回はその中でもクレジットカード会社に焦点を当ててお話を進めていきます。

業界のトレンドにも記載のあったように、クレジットカード会社でもキャッシュレス化やそれに伴うデータ活用が進んでいる業種となります。

業界のキャッシュレス化に伴い、利点としてはクレジットカード利用の機会が増え、ユーザー数が増加するという点がありますが、一方でQRコード決済システムや電子マネー決済システムといった多種多様なキャッシュレス決済システムが生まれたことにより、競合が増えるという点も見過ごすわけにはいかないでしょう。

そのような状況を受けて、クレジットカード決済にもタッチ決済が導入されたり、スマホや時計、はたまた特性のリングといったウェアラブルデバイスと提携したタッチ決済等が導入されるなど、利用シーンの増加ひいてはユーザー数の獲得に力を入れている様子が伺えます。


また、キャッシュレス化に関して、海外の普及率と比べると、日本の普及率は2019年時点で約20%とのことですが、先進各国では40%~60%と高い水準で推移しており、隣国の勧告においてはキャッシュレス比率が96.4%となっております。

その為、今後もさらにキャッシュレス化は進むことが想定され、クレジットカード会社にとっては利用シーンが増加するという恩恵を受けるとともに、他のキャッシュレス決済との競争にさらされることが予想されています。

そんな中では、加盟店を増やし、利用シーンを増やしたり、よりストレスフリーな決済を可能にしたり、特典を増やすといったユーザビリティの向上に加え、いままでカード決済が利用できなかった層にも門戸を広げ、クレジットカード所持者の母数を増やすことも重要な指標となっていきます。

上記のようなトレンドを受けて、今回は、Kaggleコンペの中でもクレジットカード会社の今後の新規ユーザー層の獲得戦略に紐づく、カード利用時の審査におけるデータ活用について事例をご紹介していきましょう。

AMERICANEXPRESSのデフォルト審査におけるデータ活用

国際系クレジットカード会社大手、AMERICANEXPRESS社では、与信審査にデータ活用が利用されており、またその際の分析のコンペをKaggleで行っております。

本コンペには4,875チーム、合計で90,080人からのエントリーがありました。

そんな本コンペですが、具体的には、顧客データを分析し、クレジットカードの利用者が将来デフォルト(債務不履行)になるかどうかを予測するというものです。

要は、与信状況を見ながら、その顧客一人にどれくらいのお金を貸すことが出来るのか、カードの利用枠をどれくらいまで設定できるのかを予測するコンペとなります。

本コンペでは、機械学習のスキルを応用して、産業規模のデータセットを活用し、時系列毎の行動データと、匿名化された顧客データをもとに、貸し倒れリスクを最小限にした融資を行うことができるアルゴリズムを設計します。

クレジットカード会社は前述したように、手数料にて利益を上げるビジネスモデルであるため、より日常の多くのシーンでクレジットカードを使ってもらうことが重要となりますが、一方で、カードの利用枠を増やし過ぎて回収できないほどの金額を、顧客が利用して貸し倒れになってしまうリスクも抱えることになります。

つまり、より多くの人が返済できる額でカードを使ってもらうことが至上命題となるため、適切なデフォルト予測が可能となり、いままでの審査方法ではカードを発行できなかった顧客に対してカードの発行を出来るようにしたり、審査のスピードが向上し、ユーザビリティが向上することで利用者数が増えるということに繋がる本コンペは、非常に意義のある取り組みになるというわけです。


いかがでしたでしょうか。

このようにKaggleのコンペの内容を見ることで、発行元の会社の業界内での戦略や置かれている状況について、大枠の様子が見えてきます。

次回以降もKaggleのコンペを中心に多種多様な業界の取組の紹介や業界でのデータ活用の様子をご紹介していきますので、どうぞお楽しみに。

それでは、ここまでお読みいただきありがとうございました。

次回の記事でまたお会いしましょう。