Kaggle事例紹介「災害時のTwitterの自然言語処理」
  • タグ画像

    Kaggle

2022-10-05

いままでの記事の中でも触れてきたように、データサイエンスはまだまだこれから活用が進んでいく領域です。

サイエンスという名がつくように、まさに、日々試行錯誤が繰り広げられ実用されるべく日進月歩で進化し続けていく領域となります。

昨今になって、実際にデータの活用を行う企業が増えて来ていますが、まだまだ日本全体で活用が盛んとは言い難い状態です。

そのような中で、実際にその日進月歩で活用のための試行錯誤が繰り広げられる現場を見ることで、今後どのような発展が見込まれていくのか、予測を立てることが出来るとも言えます。

今回は、企業のデータ活用の前進として、多数のデータサイエンティスト達と共同でデータ活用を進めるプロジェクトを推進するKaggleと呼ばれるプラットフォームと、その取組について焦点を当てていきます。

Kaggleとは

Kaggleとは、データサイエンティスト達が、自分たちのデータ分析力を磨く場として機能しているプラットフォームとなります。kaggleとはカグルと読み、kaggleに参加し、スキルを磨く方々をカグラーと呼びます。

the home of Data Science & Machine Learning

と表記されるように、データサイエンスと機械学習の家と呼ばれ、世界中の、機械学習・データサイエンスに携わる約40万人が集まるコミュニティです。

Kaggleの中では、企業や政府などの組織と、データ分析のプロであるデータサイエンティストや機械学習エンジニアを繋げるプラットフォームとして機能しており単純にエンジニアと企業をマッチングするのではなく、コンペも行われ盛り上がりをみせています。

どういう目的で利用している人がいるか

企業や政府などの組織とのコンペとは、企業や組織が競争形式で課題を提示し、賞金と引き換えに制度の高い分析モデルを買い取るという仕組みです。
開催されるコンペは多種多様で、

・住宅価格の予測を行うために、間取りや、駅からの距離等といった複数の要因から、戸建て住宅の最終的な価格を予測する。
・有事の際のTwitterの投稿の有用性に目を付け、災害の発生状況を正しく測定するために、tweetの内容と状況から、自動で災害に関するリアルタイムの情報を収集するアルゴリズムを作る。
・飛行機内のパイロットの状況をリアルタイムで観察し、危険な状態になった場合自動でアラートをあげるアルゴリズムを作成する。

といったコンペが行われています。

事例紹介「Twitterとデータ分析」

事例として紹介するのは「Twitterとデータ分析」となります。

2008年にサービスが開始され、幅広い知名度と利用者がいるSNS「Twitter」ですが、2019年時点で全世界の月間のアクティブユーザー数は3.3億人、日本においても4500万人が利用しており、LINEに次いで国内2位のユーザー数を誇ります。

匿名性で、リアルな人間関係の延長としてのコミュニケーション以外にも、趣味嗜好軸での繋がりの構築も可能である点が特徴で、老若男女問わず、そして日夜問わず利用されています。

主に、暇つぶしや余暇としての利用や、趣味嗜好に関しての情報収集として利用されている側面を持ちますが、災害時の情報収集における有用性にも注目されています。

災害時のTwitterの有用性(日本の場合)

日本における災害時のTwitterの有用性と聞いて、思い浮かぶのは2011年3月11日の「東日本大震災」ではないでしょうか。

津波や原発のメルトダウンといった未曽有の事態に、いち早く最新の情報を得たいと日本国民のほぼすべてが思っていた状態で、政府や報道機関の公式の見解はあまりに情報伝達スピードとしては遅く、非常にフラストレーションが溜まったことを覚えている方も少なくないでしょう。

そんななかで、注目されたのがTwitterでした。

専門家ではなくとも専門知識を持つ一般人の見解の拡散や、実際に現地にいる人からの情報の発信など、公的な見解ではないものの、情報が得られるということである程度、行動の判断に役立てることが出来る一面がありました。

とはいえ、根も葉もないうわさもあり、更なる混乱を招いたという声があることも事実でしょう。

このように、自然災害で公的な情報機関が混乱し、情報を得ることが出来ない場合等に、容易な発信ができる点や、拡散性の高さを持つというメリットと、匿名で投稿できることから、根も葉もないフェイクの情報が飛び交うというデメリットを持つTwitterですが、有用性に着目しているのは日本だけではありません。

災害時のTwitterの有用性(世界)

日本ではあまり見られないものの、ハリケーンの被害が絶えないアメリカ等でも災害時にTwitterは大いに活用されております。

2012年、アメリカを襲ったハリケーン「サンディ」の事例では、約3日間ほどのハリケーンによって、死者170人超、停電被害850万世帯、マンハッタンの地下鉄が3か月間浸水によって利用不可能になるといった被害が発生しました。

また、通信インフラにも大打撃となり、迅速な情報収集が困難になるという現場の状況下で、Twitterによる情報発信と情報収集が大いに役に立ったという記録が残っています。

どの地域で、どれだけの規模の被害が発生しているのかがリアルタイムでtweetされるため、情報の真偽の判断は必要であるものの、推測の一助となり、それによって救われた命も多数あるとのことでした。

とはいえ、中にはフェイク情報も含まれており、その情報を善意の第三者が拡散することで混乱を招くという事態も日本と同様に発生しております。

災害時のTwitter利用の課題

日本と海外の事例を通してもわかるように、災害時において非常に有用でありながらも、フェイクニュースも多く、膨大な発信の中から、有用な情報だけを選別し活用できるか、という点が、災害時のTwitter利用のカギとなっておりました。

そのような状況下で、AIを用いてtweetの内容を分析し、有用な情報だけを抽出するという試みが積極的に行われるようになりました。
その取り組みはkaggleでも行われており、今回はkaggleで行われた災害時のTwitter分析のコンペを元に、実際に現在はどのような活用がなされているのかを紹介していきます。

kaggleのコンペでは、主導で分類された約10,000件のtweetの中から、自然言語処理を用いて、実際の災害に関係のあるtweetかどうではないかを選別するというものでした。

例えば、下記の写真では

「昨晩は燃えるような夕日だった」

という意図のtweetで「ABLAZE」という単語が用いられていますが、これを文字通り「炎上」と捉えてしまうと、災害に関係があると機械が判断し、火災の可能性ありと判断されてしまう恐れがあります。

このように実際の災害に関係があるかどうかを、単語だけではなく、前後の文脈から判断するアルゴリズムを構築することで、より正確な情報収集に役立てるというわけです。

実際の活用事例

今回のコンペは海外の事例に基づくものですが、実際に日本の大手企業でも、災害時のtweetの分析は行われており、実用化されています。

NECの第一都市インフラプラットフォーム事業部では、防災や消防のインフラをICT化し、より安心安全な日本にする為に、見えにくかった情報を見えやすい形にするとして、Twitterの投稿をAIが士分けて、位置はやく自治体の担当者が必要な情報を検索できるプラットフォームを開発しました。

いままでは、膨大な災害情報を、担当者が目視で確認し、情報の信ぴょう性を判断するという形で運用がされてきましたが、当然膨大な量となりますので、網羅的に確認をすることや情報の真偽を判断することが難しい状況でした。

その為、AIによって、必要な情報のみを抽出するというシステムはまさに必要不可欠だったというわけです。

同社のシステムの特徴としては、自然言語処理を用いて、災害情報を分析し、地図上にマッピングするというもので、状況の程度に応じて色分けが自動でなされます。

その為、緊急度の高い恐れのある災害情報が、地図上のどの位置で発信されたのかがビジュアルでわかるという特徴を持ちます。

また、情報の真偽の判断としては、同じ地域で矛盾する情報があった場合は、担当者に通知がくるという仕組みを持つため、AIによる判断と担当者の判断のダブルチェックによって、より正確な現状把握がなされています。

同社システムによって探知可能な情報は地震や大雨などの災害時や道路トラブル、ライフラインなど。交通機関のトラブルも検知でき、

災害時以外でも、事件事故や天候不順、道路の渋滞、イベント会場での喧嘩や窃盗などのトラブルの検知も行うことが可能で、自治体や官公庁jの公的機関の他、一般企業にも採用されております。



いかがでしたでしょうか。

次回以降もKaggleのコンペを中心に多種多様な業界の取組の紹介や業界でのデータ活用の様子をご紹介していきますので、どうぞお楽しみに。

それでは、ここまでお読みいただきありがとうございました。

次回の記事でまたお会いしましょう。