catch-img

朝日新聞の要約AIはヤフートピックスの夢を見るか~ディープラーニングを用いた令和時代のプレスリリースの作り方~

ヤフーニューストピックスは13.5文字のタイトルを編集部が人力で付けているそうです。このようなヤフーニュースやプレスリリースなどのタイトル付けは、近い将来全てAIがやってくれる時代がくるかもしれません。

今回は、朝日新聞の記事データをもとに開発されたという、ディープラーニングを活用した自動要約生成APIをご紹介します。

このAIを使えば、プレスリリースのタイトルを作ったり、ニュース記事のタイトルを自動で作ったりすることができます。

このAIは何故かあまり話題になっていませんが、実務レベルで使える非常に高い精度を実現しているので広報・PR業務に関わる方は是非最後までご覧ください。

朝日新聞の自動要約生成APIとは

過去30年分の朝日新聞の900万件の記事データをディープラーニングの手法を用いて学習させたもので、テキスト内容を入力することでその内容を要約し、8~40文字程度の適切な見出しタイトルを提案してくれるというものです。現在WEB上で無料APIが公開されています。

https://cl.asahi.com/

機械学習を用いて文章を要約する仕組みはいくつかのサービスでありますが、10文字程度の短いタイトル付けができること、そして実務にも活用できるくらいの非常に高い精度を持つのはこのAIくらいしかないのではないでしょうか。

ここからは実際のプレスリリースやニュース記事などを元に、その機能を解説していきます。

ヤフートピックスの13.5文字はすでにAIが作っている!?

ニュース記事からタイトル付けを行う作業の筆頭がヤフーニュースです。ヤフーニュース編集部は日々送られてくるニュースから、重要度を考慮しピックアップするニュースを選定、13.5文字のタイトルを設定し、ABテストをしながらヤフートップページに掲載しています。

にゃんこスター破局
https://www.news-postseven.com/archives/20200204_1539765.html

上記は2/4にヤフーニューストピックスに掲載された記事です。記事自体はすでに消えてしまっていますが、この記事の本文データ(NEWSポストセブン)を元に、タイトルをAIに提案させてみたいと思います。

  • 「にゃんこスター」は朝日新聞の歴史には一度も出てこないはず
  • 「にゃんこ」と「スター」は形態素解析でも固有名詞(人名)として捉えにくそう
  • 「にゃんこスター」はコンビ名なので複数の扱いが必要
  • →つまり「にゃんこスター」の文脈を解釈するには、人間的な背景認識が必要なのでAI解釈が難しいそう

実際にAIが提案してきたタイトルがこちら。

にゃんこスター、恋人破局
にゃんこスター、恋人だった
にゃんこスターが破局
にゃんこスター交際中カップル
にゃんこスターが同棲
にゃんこスターは恋人
にゃんこスター、恋人に
にゃんこスターは恋人だった
にゃんこスターは恋人?
にゃんこスターの恋人

AIはこのようなタイトルを提案してきました。

「恋人だった」という時系列を認識しているようにも思えます。読点の使い方が上手く、また恋人であったことが意外であることも認識している感もあり、非常に人間的なテキストを戻してくれました。

よく分からない難解なプレスリリースをAIにかけてみる

「反超放射で量子ビットを守る」

あなたはこう言われて「あーそうですか」と理解できるでしょうか。

実際にそのようなタイトルのプレスリリースが理化学研究所から発表されました。

反超放射で量子ビットを守る
https://www.riken.jp/press/2020/20200128_3/index.html

この良く分からないリリースの本文をAIにかけて、もっと良いタイトルがないかと探ってみたいと思います。

AIが提案したタイトルはこちら。

量子ビット短寿命化を阻止
量子ビット短寿命化は不可避
量子ビットの短寿命化阻止
量子ビットの短寿命化を阻止
量子ビット短寿命化阻止
量子コンピュータ短寿命化
量子ビット短寿命化、阻止
量子ビット短寿命化に反対
量子ビット短寿命化に懸念
量子ビット短寿命化阻止へ

うーん、かなり良くなりましたね。

量子ビットが何か分からなくても、もともと単寿命化しやすく、それを阻止することに成功したということがなんとなく分かります。

「反超放射」は恐らく手段であり、難解ワード過ぎてタイトルで使うべきワードではないのかもしれません。プレスリリースで使われている「守る」という抽象的なワードも一切使っていないのがポイントです。

AIが人間に勝った瞬間を垣間見たような気がします。

ちなみにITメディアはこの情報を下記タイトルで記事にしています。

反超放射により、量子ビットの短寿命化を阻止
https://eetimes.jp/ee/articles/2002/03/news018.html


東洋経済オンラインの最もバズった記事で検証

続いては(人間が付けた?)タイトルが正解だった事例として、東洋経済オンラインで過去1年で最もバズった記事を元に検証してみたいと思います。

大塚明夫「声優の大多数が仕事にあぶれる理由」
https://toyokeizai.net/articles/-/321702

ヤフーニュースは13.5文字(!などの半角が0.5文字)でタイトルを付けていますが、東洋経済オンラインは21~22文字でタイトルを付けています。

この記事はツイッターで34,911シェア、Facebookで3,531シェアを稼いだ記事となります。

この記事を要約AIにかけて、13文字のタイトルを出力させたのが下記結果となります。

大塚明夫氏の「声優論」
大塚明夫氏「声優論」
声優志望者の甘すぎる青地図
声優志望者の甘い青地図
大塚明夫氏が語る声優ブーム
大塚明夫氏「声優」語る
大塚明夫氏が語る声優論
声優に憧れる人が多い
声優に憧れる人は大変
声優になりたい

続いて26文字設定で出力した場合がこちら

声優志望者の甘い青地図 大塚明夫氏の「声優論」
声優に憧れる人、相変わらず大変 第1回声優論
声優に憧れる人、相変わらず大変 大塚明夫氏に聞く
声優に憧れる人、相変わらず大変 大塚明夫氏が語る
大塚明夫氏の「声優論」第1回 「職業の選択」のように
声優に憧れる人、相変わらず大変
大塚明夫氏の「声優論」第1回 あぶれる理由は?
声優に憧れる人、相変わらず大変 大塚明夫氏語る
声優に憧れる人、相変わらず大変多い
声優志望者の甘すぎる未来図

多くのタイトルで大塚明夫という固有名詞をタイトルに使っているところや「」を上手く使っている点など、人間もビックリの結果です。

「声優志望者の甘い青地図」というのは絶妙なタイトルです。この「青地図」という言葉は記事上で1回しか使われていません。

「理由」をタイトルで使っているところなどは、もはや東洋経済オンラインのタイトルの付け方の癖を一つの記事だけで学習してしまったのでしょうか。恐るべし。

日本語は形態素解析などが必要で、自然言語処理が難しい言語とも言われています。その中でこのAIは非常に精度が高く、PR実務にも強い見方となってくれそうです。

こうした技術は、プレスリリースなどで日々日本語を扱う広報パーソンにも、今後マストになるともいえるのではないでしょうか。

実施コードはこちら

さて肝心のこのAPIの使い方ですが、肝心のサイトには使い方の詳細は記載されていないので戸惑う方が多いかと思います。

下記にPythonでこのAPIを使うためのコードを記載しておきます。

import requests

headers = {
    'x-api-key': '●', #取得したAPIキーを指定
}

honbun = "解析したい本文をここに入力する"

data = {
  'text': honbun, #分析用のテキストを指定
  'types': 'head26', #タイトルの文字数を指定 指定できるもの paper,head26,head13,head10,shinkansen,long_sum
  'length': '0', #タイトルの文字数を任意に設定する 前行のtypesをpaperにしたときに発動
  'n_head': '5', #出力するタイトル案の数を設定
  "diverse": "1" #1を設定すると提案の幅が広がるが精度が落ちる
}

r = requests.post('https://clapi.asahi.com/headline-generation', headers=headers, data=data)

r.text #分析結果をテキストで出力する

ちなみにこの朝日新聞自動要約生成APIは、2020年3月までの公開予定だそうで、その後は、非公開もしくは有料サービスになってしまうかもしれません。お試しはお早めに!

最後のこのブログの本文をこのAIにかけてみました。

ヤフーニュースの自動要約生成APIをご紹介
ヤフーニューストピックスの自動要約生成APIって?
ヤフーニュースの自動要約生成APIをご紹介します
ヤフーニューストピックスの自動要約生成APIを公開
ヤフーニュースの自動要約生成APIって何?"

AIによるとヤフーニュースを押したほうが良いという結果でした。

  【朝日新聞】記事見出しを自動作成するAPIを公開中 ── 開発の裏側に迫る | Ledge.ai テクノロジーとは遠いイメージを持たれがちな新聞社ですが、実は社内には多くの技術者が働いており、最近では蓄積されたデータを活用したAIの研究が進められています。 朝日新聞社では、過去30年間およそ900万記事がデジタルデータとして蓄積されています。この膨大な言語資源を活用した取り組みが、AIによる見出しの自動生 Ledge.ai


  ヤフーニュースのコメントをスクレイピングで自動取得する方法 プログラミングを活用してヤフーニュースのコメントを自動取得する方法を解説します。 広報・PR支援の株式会社ガーオン


関連記事

朝日新聞の要約AIはヤフートピックスの夢を見るか~ディープラーニングを用いた令和時代のプレスリリースの作り方~

2020-02-14

朝日新聞の記事データをもとに開発されたという、ディープラーニングを活用した自動要約生成APIをご紹介します。

【広報担当者向け】複数のWEBニュースを自動キャプチャする方法【働き方改革】

2020-02-01

Pythonを使って複数のWEBニュースの掲載記事を自動キャプチャする方法を解析します。

2019年のワールドビジネスサテライトの報道傾向を分析する【WBS テレ東】

2020-01-19

2019年にワールドビジネスサテライトで放映されたニュースの傾向を見える化し、その傾向を探っていきたいと思います。

NewsPicksのコメントをスクレイピングで自動取得する方法

2020-01-15

NewsPicksのコメント欄をプログラミングで自動で取得する方法を解説します。

ヤフーニュースのコメントをスクレイピングで自動取得する方法

2020-01-06

プログラミングを活用してヤフーニュースのコメントを自動取得する方法を解説します。

1万件のヤフートピックスを分析して分かった傾向と対策

2019-07-17

1万件のヤフートピックスのデータから、傾向と対策、サイトの仕組みなどに迫ってみたいと思います。

広報・PRやプレスリリースまわりでお困りのことはございませんか?
多数の企業サポートを行ってきた当社が解決いたします。
お気軽にお問合せください。

企業情報

gaaaon