catch-img

「10万再給付ない」麻生大臣発言で大炎上した2万超のヤフトピコメントをAI解析する


目次[非表示]

  1. 8491件のコメントを抽出
  2. Googleの人工知能で感情分析
    1. Cloud Natural Language API
  3. ネガポジ分析
    1. 感情強度magnitude
      1. magnitudeの影響
  4. 分析して分かった3つのポイント
    1. POINT①使われたワード
    2. POINT② AIは文脈把握には弱い
    3. POINT③ ヤフーニュースのコメントは増加傾向!?

先日麻生財務大臣がテレビ東京記者の質問に「10万円の再給付はするつもりがない」と回答したことで、ヤフーニュースやTwitter界隈が大荒れとなりました。

特にヤフーニュース(産経新聞)には異例の2万件以上のコメントが付けられ、国民の感情を爆発させました。

このヤフーニュースには、実際にはどのようなコメントがあったのでしょうか。GoogleのAIを使って、口コミ分析を行っていきたいと思います。

8491件のコメントを抽出

まずはこちらの手法でヤフーニュースからコメントを取得します。

ヤフーニュースへのコメントは、そのニュースへの直接的なコメントと、投稿されたコメントに対する返信コメントの2種類で構成されています。

今回は直接的なコメントから抽出した8,491件の書き込みを対象に、Google Cloud Natural Language APIで分析したいと思います。

Googleの人工知能で感情分析

ここから抽出したテキストを自然言語処理していきます。前処理やモデル作成などしなくても機械学習を行えるAutoMLには、代表的なものでマイクロソフトやIBM、Amazonなどのツールが挙げられますが、今回は最も代表的なGoogleのサービスを使ってみたいと思います。

Googleの自然言語処理サービスには、AutoML Natural LanguageCloud Natural Language APIの2種類があります。

以前よりかなり改善されたとはいえ、Googleは相変わらず日本語解説が分かりにくく、この2つがどう違うのか一見分かりづらいのですが、乱暴に言ってしまえば独自学習できるのがAutoML Natural Language、すでに学習済のモデルを使うのがCloud Natural Language APIだと考えてしまうのが良いかと思います。

今回使用したのはCloud Natural Language APIで、すでに感情を学習しているGoogleのモデルを使って分析していきます。

Cloud Natural Language API

Cloud Natural Language APIは、自然言語処理によりテキストから感情を抽出し、ポジティブかネガティブかを-1.0~1.0までの数字で判断したり、エンティティ分析として固有名詞を抜き出したりすることができます。

使うコードは非常に短く、感情分析をPythonで実行する場合は下記8行で済んでしまうほど簡単です。

# Cloud Natural Language テキスト内感情分析
from google.cloud import language_v1

client = language_v1.LanguageServiceClient()
type_ = language_v1.Document.Type.PLAIN_TEXT

text_content = "text"
language = "ja"

document = {"content": text_content,  "type_": type_, "language": language}
encoding_type = language_v1.EncodingType.UTF8

response = client.analyze_sentiment(request = {'document': document, 
                                               'encoding_type': encoding_type})

ネガポジ分析

実際に対象データを感情分析したところ、ネガポジ比率は下記のように、ネガティブ中心となりました(ネガポジを分ける閾値はケースバイケースで独自設定するのが良いようです)。


ネガティブ比率上位

自民党には本当に失望した。 国民を安心させてもくれないし救ってくれない。 悲しいね。
今までの税金の使い方見てると3000公平な給付なんて嫌だ!3000俺にメリット無いじゃんってとってしまう。
年金受給者と公務員、生活保護受給者には絶対に給付しないでください。受給する資格がない。
期待してません。 期待するだけ無駄。
前回の給付時も同じ事やってた様な・・  批判の声が多くて結局撤回して結局10万給付してましたね
麻生、二階頼むから やめてくれ
せめて飲食店や医療従事者には給付をしてあげて欲しい
飲食だけ毎日6万の給付は絶対おかしい もっと苦しんでる人に給付すべき
それなら、ETF買いをもうやめてくれ!
麻生がのさばっているうちはダメだね。

ポジティブ比率上位(0.9)

それでいい
生活が困窮した世帯に限定して給付する選択肢についても、「考えにくい」と否定的な考えを示した  困ってなくても3000自分にお金が貰えない3000と必要ないっていう奴らが出てくるから3000考えにくい3000のは解る気がする  日本人って素晴らしいwww
おかわり下さいワン♪
なんか使ってないと言われたので綺麗さっぱりに使わせていただきましたよ
さすが特権階級 はっきりいいましたね!
じゃあこの人の給料も支払わなくて良いと思う
給付金いらんから年度始めの税金搾取やめてくれないかな これが一番助かる
こーやって炎上してる間も、何も気にせずのんびり寛いでます。
橋下徹さんがいいですな!
うん、まぁそれで良いと思います。


感情強度magnitude

Cloud Natural Language APIでは、「感情の傾向」だけでなく、magnitudeという独自の「感情の強度」を同時に出力できる点も特長です。このmagnitudeでニュートラルと混合とを分けることができます。

感情
サンプル値
明らかにポジティブ
"score": 0.8, "magnitude": 3.0
明らかにネガティブ

"score": -0.6, "magnitude": 4.0

ニュートラル
"score": 0.1, "magnitude": 0.0
混合

"score": 0.0, "magnitude": 4.0

https://cloud.google.com/natural-language/docs/basics?hl=ja#interpreting_sentiment_analysis_values

magnitudeの影響

私も一律支給は反対だな。10万円もらって、後で手数料と利息付きで納税するんじゃあまりに割に合わないし、「時間がないから緊急に」って状況でもない。

このmagnitudeは内容によってどう変わってくるのでしょうか。例えば今回の書き込みにもあった上記のコメントは、scoreが-0.69、magnitudeが0.69という結果となりました。

これに少しテキストを加えて感情を逆に加えていくと、下記のようにスコアが変化することが分かります。

コメント
score
magnitude
私も一律支給は反対だな。10万円もらって、後で手数料と利息付きで納税するんじゃあまりに割に合わないし、「時間がないから緊急に」って状況でもない。
-0.699999988079071

0.699999988079071

私も一律支給は反対だな。10万円もらって、後で手数料と利息付きで納税するんじゃあまりに割に合わないし、「時間がないから緊急に」って状況でもない。けどほんとは欲しい。

 -0.5

1.100000023841858

私も一律支給は反対だな。10万円もらって、後で手数料と利息付きで納税するんじゃあまりに割に合わないし、「時間がないから緊急に」って状況でもない。けどほんとは欲しい。ちょ、金欠やば…ぴえん

-0.10000000149011612
1.7000000476837158

上記のように少し人為的にコメントを付け加えてみると、magnitudeが上昇することが分かりました。

ちなみに今回一番magnitudeが高かったコメントが、下記のmagnitude10.5のものになります。

(score:-0.200000003 magnitude:10.5)

持続化200時短186=386万は一部の者だけに!!!負担は全国民で!!!  こんなの通用するわけない。税金上げるだ??ふざけるな!!! 税金が莫大なうえに何の見返りもないならどんな意味がある!!!払う意義を示せ!!!飲食店が潰れない??はぁ!!いらねーよ。すーぱーで買って作るわ!!!!金ねーんだよ!!!ふざけんな  都内の物件オーナーは全員数億レベル~数十億レベルの大金持ち!!なんでそんな大富豪の事業を一般国民が支えにゃならん!!  潰れるんなら潰れるならそれが経済!ゾンビ化した建物取り壊すいい機会!!東京大震災が30年以内に起こるから立て直したいいってたやんか!!金配って延命させてどうする!!!生き残れないなら潰すんや!!  それかみんなに一律に配るのが筋なんや!!!これが常識やで!!

感情が爆発しています。

分析して分かった3つのポイント

POINT①使われたワード

今回最も使われていたワードは、合計1,566回使われていた「国民」でした。

順位
ワード(名詞)
出現回数
1位
国民
1,566
2位
給付
1,142
3位
1,063
4位
政治
671
5位
604
6位
議員
547
7位
537
8位
麻生
521
9位
生活
495
10位
税金
485

POINT② AIは文脈把握には弱い

今回はニュース元の文脈を一切無視して分析したため、例えば皮肉として多かった「次の選挙が楽しみですね」といったコメントは全てポジティブとして判断されていたり、「思い知るが良い」をポジティブと判断したりと、皮肉などの独特の言い回しには弱い傾向が分かりました。

コメント
score
magnitude
次回の選挙が楽しみで楽しみで待ち遠しいデス
0.800000011920928
0.800000011920928
国会議員は懐が温かいからいいですね。
0.800000011920928
0.800000011920928
一律十万円はせずに、百万円なんですね!ありがとうございます!
0.699999988079071
1.39999997615814

※何故か一部scoreとmagnitudeが同数値となりました

POINT③ ヤフーニュースのコメントは増加傾向!?

今回2万を超える異例のコメントが付きましたが、他メディアと比較してボリュームはどれくらいなのでしょうか。

Twitterの検索結果と2ch(5ch)の書き込みボリュームを調べてみると下記のような傾向が分かりました。

2chの書き込み件数が最も多い結果となりました。ヤフーニュースのコメント件数は過去の比較数値がないため、今回は判断が付きませんが、この2万を超えるかどうかが一つの基準点になると言えるでしょう。

ヤフーの媒体資料によると60代のユーザー比率がPCでは32%と3人に1人がシニア層であることが分かります。今後高齢化が進むに連れ、この比率は更に高まることが想定されます。

こうしたユーザーの年代層変化や口コミの傾向など、広報PR活動に重要なポイントをしっかりと取得・分析していくことは今後ますます重要になるでしょう。

以上、ヤフーニュースのコメント分析でした。

当社では広報PR活動のサポートや、口コミデータの集計、データスクレイピング、集計したデータを活用した機械学習・AI導入のサポートなども行っております。問い合わせフォームよりお気軽にお問い合わせください。

▼合わせて読みたい

  【難解!?】Twitter APIを使って投稿データを収集する方法 | 広報・PR支援の株式会社ガーオン Twitter Search APIを非エンジニアの方にも、なるべく分かりやすく解説し、全体概要や費用などを解説した上で、具体的なデータ取得方法まで解説していきたいと思います。 広報・PR支援の株式会社ガーオン


  朝日新聞の要約AIはヤフートピックスの夢を見るか ~ディープラーニングを用いた令和時代のプレスリリースの作り方~ | 広報・PR支援の株式会社ガーオン 朝日新聞の記事データをもとに開発されたという、ディープラーニングを活用した自動要約生成APIをご紹介します。 広報・PR支援の株式会社ガーオン
  ソーシャルデータから読み解くボヘミアンラプソディの口コミ形成とメディア露出効果 | 広報・PR支援の株式会社ガーオン ボヘミアン・ラプソディの大ヒットにはSNSやテレビはどのような影響を与えていたのでしょうか。YouTubeとの相乗効果も合わせて検証します。 広報・PR支援の株式会社ガーオン
  Amazonの人工知能を使ってSNS等の口コミを感情分析する方法 | 広報・PR支援の株式会社ガーオン アマゾンの自然言語処理サービス Amazon Comprehendを使って口コミを分析してみます。 広報・PR支援の株式会社ガーオン
  【記事に繋がる】プレスリリースの書き方・送り方 | 広報・PR支援の株式会社ガーオン プレスリリースの書き方の”コツ”をPRプランナーがわかりやすく解説します。プレスリリースとはの解説から、7つのポイントや、6W5Hの使い方の他、広報PRにオススメの具体的なツールの紹介や、ヤフーニュースに掲載してもらうポイントを解説します。 広報・PR支援の株式会社ガーオン



関連記事

総務省の調査データからニュースメディアへの接触実態を可視化する

2021-10-19

総務省が毎年行っている『情報通信メディアの利用時間と情報行動に関する調査』より、2021年8月に発表された最新数値を元に、ニュースメディアへの接触動向を可視化していきたいと思います。

イカゲームのブームをTwitterデータから可視化してみる

2021-10-10

Twitter上のイカゲームに関する口コミ約13万件を抽出し、どのような口コミが派生しているのかを分析してみます。

Googleトレンド分析にPytrendsを使うべきたった一つの理由

2021-10-08

Googleトレンドには非公式APIとして、Pytrendsというものが公開されています。今回はこのPytrendsを使うことで得られるメリットをご紹介します。

時系列予測AIによる未来のTwitter投稿件数予測の検証結果

2021-09-25

時系列予測AIを利用した未来のクチコミ件数予測の結果を検証してみます。

Spotify APIで楽曲の分析データを取得する方法

2021-09-19

Spotify APIで楽曲の分析データを取得し、可視化しダッシュボードにまとめてみます。

Flourishで雑誌の部数アニメーションチャートを作ってみる

2021-09-11

話題のグラフチャートFlourishで雑誌の印刷部数データを元に推移グラフを作って見ます。

広報・PRやプレスリリースまわりでお困りのことはございませんか?
多数の企業サポートを行ってきた当社が解決いたします。
お気軽にお問合せください。