オリンピックツイートを感情分析してみる
オリンピック関連ツイートに関しては、各社メディアで様々な分析が行われています。
7/28の日経新聞朝刊には、開催前と開催後ではネガポジが180度変換したという分析記事も掲載されています。
更にその後、産経新聞の分析記事がヤフーニュースにもトピック掲載されました。
本家産経ニュースでは14枚のワードクラウド(名詞のみ)を掲載し、その出現経緯で記事にしています。ところがこれがヤフーニュースに上がると、1枚のワードクラウドしか確認することができず、ほぼテキストとタイトルで判断しなければいけないことになります。
ヤフーニュースはトピックタイトルと本文出だしだけで、コメントされるケースが多いと思われます。特にトピックスは人的チョイスが故に、何かしらのバイアスがかかってしまうことも忘れてはならないポイントです。
さて、多くのメディアはワードクラウドもしくはネガポジ分析が多いので、ここでは感情推移を深堀りし、以前紹介した感情分析MLaskを使ってより詳細な推移を見ていきたいと思います。(※今回はML-Askの詳細は省きます)
投稿件数推移
まずは投稿件数の確認です。UTC時間で抽出しているため時差のずれが多少発生してしまいますが、開会式の23日に81万件の投稿がありピークとなっていることが分かります。
感情推移を分析
次にツイート本文をML-Askで分類していきます。
ML-Askは喜・怒・昂・哀・好・怖・安・厭・驚・恥の10種類を分類することができます。
ただし辞書を使ったルールベースの感情分析のため、特定の対象ワードが含まれていなければ、感情分類できません。以前実施した際もツイートデータでは全体の30~35%のみが分析対象となりました。今回も同様の割合となり、2週間分約4,500件のサンプル抽出したツイート(RT/メンション除外)を分析対象として分類していきたいと思います。
7/15時点では最も多かった青色の「嫌」の割合は36.5%でしたが、開会式の7/23にガクッと下がり、7/26には22%まで下がっています。
一方で赤色の「喜」は7/15時点では全体の18.5%でしたが、7/23日は約30%まで上昇しています。
ポジティブな感情だけに注目してみると、7/23の開会式にピークを迎えていることが分かります。
嫌と喜を比較
嫌と喜だけの推移を見てみると、開会式で逆転したものの、感染者数が増えているせいか、拮抗している状態が分かります。
ワードクラウド
最後に分析に利用した全ツイートを、ワードクラウドしてみると下記のような結果となりました。
以上、ML-Askを使用した感情分析推移でした。
ML-Askは辞書型のルールベース分類のため、機械学習のような柔軟性や面白みには欠けますが、明確に10種類に感情が分類でき、その分布推移などを読み取ることができるのである程度データのボリュームがあるものには有効なのではないでしょうか。
※当社ではTwitterやInstagramなどのデータ抽出や、ダッシュボード作成、データスクレイピングの代行なども行っています。ご依頼の際は、お問い合せフォームよりお気軽にお問い合せください。
▼合わせて読みたい