2023-07-11
1.
はじめに
2.
Kaggleとは
3.
Dataikuとは
4.
給与分析:データ加工編
5.
おわりに
こんにちは、株式会社VillageAI取締役の松本祐輝です。
本記事では、DataikuのOpenAI GPTとChatGPTを使って、フードデリバリーサービスのレビュー分析を行ってみたいと思います。
使用するデータは、Kaggleで公開されている「online Food Delivery Preferences-Bangalore region」です。
Kaggleとは、データサイエンティスト達が、自分たちのデータ分析力を磨く場として機能しているプラットフォームとなります。kaggleとはカグルと読み、kaggleに参加し、スキルを磨く方々をカグラーと呼びます。
the home of Data Science & Machine Learning
と表記されるように、データサイエンスと機械学習の家と呼ばれ、世界中の、機械学習・データサイエンスに携わる約40万人が集まるコミュニティです。
Kaggleの中では、企業や政府などの組織と、データ分析のプロであるデータサイエンティストや機械学習エンジニアを繋げるプラットフォームとして機能しており単純にエンジニアと企業をマッチングするのではなく、コンペが行われ盛り上がりをみせています。
Dataikuは、データサイエンスと機械学習のためのエンドツーエンドプラットフォームです。
データの準備からモデルの展開までをサポートし、効率的なチームコラボレーションが実現できます。
ビジネスユーザーやデータサイエンティストは、異種のデータソースからのデータ統合やモデル構築を簡素化できます。
豊富なデータ可視化機能やセキュリティ対策も特長です。
データセットには、以下の項目に基づく55の変数があります。
・消費者の人口統計
・全体的/一般的な購入の決定
・購入決定に影響を与える納期
・購入決定に影響を与えるレストランの評価
本記事では、このデータセットの中のレビューのみに注目したいと思います。
英語だと分かりにくいので、とりあえずレビューを日本語に翻訳します。(後でワードクラウドで利用します)
レビューのポジネガ判定をします。
Classify text with OpenAI GPTレシピを使って、Positive Negative Neutralに分類します。
実行した結果、ほとんどが、PositiveかNegativeに分類されました。
試しに、レビューを職業別にみたところ、理由は分からないですが、自営業の人は、Negativeが少ない傾向が見られました。
PositiveとNegativeのワードクラウドを作成します。
ポジネガ判定した結果をChatGPTで読み込みます。
アップロードに関しては、下記を参考にしてください。
▶ChatGPT でデータ分析-中古マンション価格予測
ChatGPTにポジティブとネガティブのレビューの考察をお願いします。
※ChatGPTの解釈です
今回は、DataikuのOpenAI GPT Pluginを使って、フードデリバリーサービスのレビュー分析を実行してみました。
レビューの分析は、重要ではあるものの、中々大変で手を出しにくい分野だと思いますが、DataikuのOpenAI GPTを使うことで、従来よりも手軽に実行出来るようになりました。
実務では、前処理やクレンジングなどを行ったり、生データを読み込んだりするなどが必要となってきますが、今回の記事で何となくイメージは掴めたのではないでしょうか?
最後に、今回のフローを載せておきます。