2023-07-06
1.
はじめに
2.
Kaggleとは
3.
Ⅾataikuとは
4.
データの読み込み
5.
データの可視化
6.
テキスト分析
7.
ChatGPTで考察
8.
おわりに
こんにちは、株式会社VillageAI取締役の松本祐輝です。
本記事では、DataikuのOpenAI GPTとChatGPTを使って、通信サービスの苦情分析を行ってみたいと思います。
使用するデータは、Kaggleで公開されている「Comcast Telecom Complaints Dataset」です。
Kaggleとは、データサイエンティスト達が、自分たちのデータ分析力を磨く場として機能しているプラットフォームとなります。kaggleとはカグルと読み、kaggleに参加し、スキルを磨く方々をカグラーと呼びます。
the home of Data Science & Machine Learning
と表記されるように、データサイエンスと機械学習の家と呼ばれ、世界中の、機械学習・データサイエンスに携わる約40万人が集まるコミュニティです。
Kaggleの中では、企業や政府などの組織と、データ分析のプロであるデータサイエンティストや機械学習エンジニアを繋げるプラットフォームとして機能しており単純にエンジニアと企業をマッチングするのではなく、コンペが行われ盛り上がりをみせています。
Dataikuは、データサイエンスと機械学習のためのエンドツーエンドプラットフォームです。
データの準備からモデルの展開までをサポートし、効率的なチームコラボレーションが実現できます。
ビジネスユーザーやデータサイエンティストは、異種のデータソースからのデータ統合やモデル構築を簡素化できます。
豊富なデータ可視化機能やセキュリティ対策も特長です。
データをDataikuで読み込みます。
Ticket # | チケット番号 |
Customer Complaint | 顧客の苦情 |
Date | 日付 |
Date_month_year | 日付(月日年) |
Time | 時間 |
Received Via | 受け取った経路 |
City | 市 |
State | 州 |
Zip code | 郵便番号 |
Status | チケットのステータス |
Filing on Behalf of Someone | 代理申請? |
前処理として、Prepareレシピを使って、日付と時間が別のカラムになっているので、結合して日時のカラムを作成し、そこから、年、月、日、週、時間帯を抽出します。
Chatsタブでデータを可視化していきます。
まずは、月次と日次で苦情数の推移をみてみましょう。
理由は良くわかりませんが、4〜6、特に6月に苦情が多いようです。
続いて、州毎のステータス別苦情数を見てみます。Georgia、Florida、Californiaの順に多くなっています。
次に、未解決(OpenとPending)の苦情数を見てみます。
Floridaは総数は2番目に多かったですが、未解決のものは4番目になってます。
総数は5番目だったTennesseeが、未解決だと3番目まで上がってます。州によって、解決力が違うのでしょうか?
一旦、全体感を把握するために日本語で全苦情でワードクラウドを作成してみます。
Generate Text with OpenAI GPTレシピを使って翻訳し、Text Visualizationレシピで可視化。
ざっくりですが、インターネット、請求、サービス、データ、速度、キャップなどに関しての苦情が多くありそうです。
一応、四半期ごとでもワードクラウド作成してみましたが、特に傾向は変わらずって感じでした。
Classify text with OpenAI GPTレシピを使って、苦情をインターネット、請求、サービス、データ、速度、キャップの6つのトピックに分類してみます。
苦情のトピックごとに集計すると、一番多いのは、請求に関する苦情、次に、サービスとインターネットの順に多いようです。
トピックごとに、ステータス別で集計し構成比を見てみると、未解決の苦情は速度に関するものとキャップに関するものが多いようです。
技術やルール的に如何ともし難いのかも知れません。特にキャップは、ペンディングが多いですね。
トピックごとにワードクラウドを作成し、各トピックでどんなキーワードがあるのかを見てみます。
下図のようなワードクラウドがトピックごとに出力されます。
各トピックについて考察してみようと思いましたが・・・
せっかくなのでChatGPT4.0にお願いしてみようと思います。
テキスト分類されたデータをダウンロードして、ChatGPTに読み込ませます。
アップロードに関しては、下記を参考にしてください
ChatGPTに分類されたトピックごとの考察をお願いします。
〜省略〜
※ChatGPTの解釈です。
今回は、DataikuのOpenAI GPT Pluginを使って、通信サービスの苦情を5つのトピックに分類し、ChatGPTで考察してみました。
従来よりも、テキスト関連の分析が手軽に実行できるので、ビジネスへの活用が進みそうです。
最後に、今回のフローを載せておきます。