吉野貴晶のクオンツトピックス

No.7
AIによるテキスト情報の解析(経済テキストの指数化)2

2018年11月12日号

投資工学開発室
吉野 貴晶

金融情報誌「日経ヴェリタス」アナリストランキングのクオンツ部門で16年連続で1位を獲得。ビックデータやAI(人工知能)を使った運用モデルの開発から、身の回りの意外なデータを使った経済や株価予測まで、幅広く計量手法を駆使した分析や予測を行う。

投資工学開発室
髙野 幸太

ニッセイアセット入社後、ファンドのリスク管理、マクロリサーチ及びアセットアロケーション業務に従事。17年4月より投資工学開発室において、主に計量的手法やAIを応用した新たな投資戦略の開発を担当する。

極性辞書指数

3_4. 極性辞書指数の可視化

さて、実際に得られた極性辞書指数を図示してみましょう。以下のグラフは、月例経済報告の各項目毎における現状と先行きについて、前回作成した極性辞書を用いて指数化したグラフになります。

図7.極性辞書指数値の推移

AIと人間の判断に差異はあるか?

4.極性辞書指数と人間判断指数の比較と検証

AIで作成した極性辞書指数が、人間判断指数と感覚的に合うのか検証します。

4_1. AIの判断は人間の感覚に合うか?

実際に比較した結果が図8及び9になります。方向感は揃っている月の方が多く、人の感覚値とAIモデルから作成された指数は大きく乖離していない印象です。相関係数も算出していますが、この値からは、両指数間に相関がある可能性が示唆されます。

図8.景気の基調判断(現状)における「極性辞書指数」と「人間判断指数」の比較

景気の基調判断(現状)における比較

図9.設備投資の基調判断(現状)における「極性辞書指数」と「人間判断指数」の比較

設備投資の基調判断(現状)における比較

グラフを見て分かる極性辞書指数のメリットとしては、極性辞書指数は毎回の文章の細かな変化を表現できる点かと思います。一方、デメリット、と言いますか、今回の手法の懸念点として、感覚に合わない挙動が時折見られる点が挙げられます。例として、図8の黒破線で囲った部分では、極性辞書指数と人間判断指数の動きが逆になっています。

なぜAIと人で判断が分かれたのか?

4_2. 感覚に合わない文章

図8における破線部分の文章を実際に確認してみます。図10が文章の実例です。極性辞書による指数化では、以下の3事例では上から徐々にスコアが下がっていきます。一方、人の判断ではどうでしょうか?筆者の感覚では、2017年5月の文章よりも2017年6月の文章の方が明らかにポジティブな印象を受けます。2017年6月と2018年1月ではどうでしょうか?どちらも「回復」が主題になっており判断が割れるケースも想定されそうですが、2018年1月の方がやや言い切った雰囲気が感じられます。実際、新聞記事等から知ることが可能な政府の解釈も上方修正でした。

図10.月例経済報告の文章実例

発表日付 文章実例 指数値
20170524 景気は一部に改善の遅れもみられるが緩やかな回復基調が続いている 0.55
20170622 景気は緩やかな回復基調が続いている 0.33
20180119 景気は緩やかに回復している 0.25

4_3. ケーススタディ

なぜ極性辞書指数では感覚と合わない結果になったのでしょうか?感覚に合わなかった部分の原因を検証してみたいと思います。

ケース1:2017年5月と2017年6月の差異

文章を見てみると、景気については「緩やかな回復基調が続いている」で一致していますが、2017年5月には、状況を説明する文章として「景気は一部に改善の遅れもみられるが」が付随しています。この部分に極性値を割り振った場合、比較的絶対値が大きい極性値を持つ単語は「改善」と「遅れ」になります。極性値を比較すると、「改善」がプラス0.39 、「遅れ」がマイナス0.12となり、足し上げるとプラスが残ります。このため、2017年5月の状況説明部分が極性値プラスの効果を持ち、結果として文章全体でスコアが高くなってしまったようです。

図11.ケース1における文章構造の比較

ケース2:2017年6月と2018年1月の差異

こちらは2017年6月の方が極性値を持つ単語が多いことに起因します。「基調」がプラス0.09、「続く」がマイナス0.01であり、足すとプラスが残ります。この差が2017年6月と2018年1月の差に繋がっています。

図12.ケース2における文章構造の比較

改良可能性の検討

4_4. 改良は可能か?

ケース1及びケース2を対象として改良可能性について簡単に考えてみます。先にケース2を取り上げると、どちらも短い文章であり、かつ「景気は回復」という文章の骨格部分には差異がありません。「~基調が続いている」を言い切りに近い表現である「~している」よりも極性値が下がるように極性辞書型のモデルで表現できるようにするのは簡単にはいかないというのが筆者の感覚です。違うデータセットで辞書を作るか、違うAIモデルを試した方が良いかもしれません。

ケース1については、「遅れ」と「改善」の極性値を足し上げた結果がマイナスになれば条件を満たします。ただ、そのためには極性辞書を作る際に利用した景気ウォッチャー調査の理由集に、「遅れ」が大きくマイナスのインパクトを持つような傾向が見られる必要があります。その傾向が見られない場合は、極性値作成に使うデータを他のデータで試してみる等の工夫が必要です。

一方、ケース1は別の側面で見ると面白い事例ともいえます。これは、接続詞を挟んで複数の文章が存在する場合、どのように処理すべきか、というテーマとして捉えることも可能だからです。対応策としては、係り受け解析を考慮したモデルを組むという選択肢がありますが、日本語の係り受け解析をモデルに落とし込むのは、現状では困難です。他の手段としては、先行事例にもあるようにLSTMという手法が候補に挙がります。ただし、LSTMは極性辞書型とは違い、なぜそうなったのか?といった検証が困難という性格を持ちます。この点を許容できるのであれば、 (上手くいくかはケースに依りますが)LSTMは良い選択肢かもしれません。

また、極性辞書のような単語単位、かつ文章評価の理由が分かりやすい手法で対応したい、というニーズの元では、さらに別の手法を探ることも考えられます。例えば、スピンモデルを活用した指数化[参考文献6]が良いかもしれません。[参考文献6]では、隣り合った単語の極性値の向き(符号)が違う場合にペナルティーを導入しています。ケース1の場合だと、前半の文章に「遅れ(極性値マイナス)」、後半に「回復(極性値プラス)」があるので、ペナルティーが発生して従来より指数値が低下します。この方法だと、ケース1は改善の余地があるかもしれません。

5. 終わりに

今回のレポートでは、前回レポートで作成した極性辞書とその極性値を利用して、経済テキストデータである月例経済報告を項目別に指数化しました。また、人間の判断との感覚的な違いが起こる部分に関して、検証と改良案について考えてみました。次回レポートでも引き続きAIをテーマに取り扱う予定です。

Appendix

Appendix

A_1. PDFをテキスト化

今回対象とする月例経済報告ですが、内閣府のサイトにはPDF形式でアップロードされており、このPDFからテキスト情報を抽出して利用しています。PDFからテキスト情報を取得する方法は複数ありますが、今回はプログラミング言語pythonのライブラリーを利用しました。しかし、このライブラリーによる作業だけではデータの質は高くはありません。PDFからデータを取得する際に、PDFのページ番号が文章中に混ざり込む、改行がPDFの見え方と同じままになってしまう、うまく取得されない文字列が発生する、等が発生します。これらに対しては地道にテキストデータの前処理を実施しました。

A-2. 参考文献

  1. 小林のぞみ,乾健太郎,松本裕治,立石健二,福島俊一
    意見抽出のための評価表現の収集 自然言語処理 Vol.12 No.3 pp.203-222, 2005
  2. 東山昌彦, 乾健太郎, 松本裕治
    述語の選択選好性に着目した名詞評価極性の獲得 言語処理学会第14回年次大会論文集 pp.584-587, 2008.
  3. 伊藤友貴, 坪内孝太, 山下達雄, 和泉潔
    経済テキストデータを用いた極性概念辞書構築とその応用 第18回人工知能学会 金融情報研究会資料, 2017.
  4. 山本裕樹,松尾豊景
    景気ウォッチャー調査の深層学習を用いた金融レポートの指数化
    The 30th Annual Conference of the Japanese Society for Artificial Intelligence, 2016.
  5. 山澤 成康
    景気指標としての月例経済報告
    日本経済研究センター Discussion Paper
  6. 三菱UFJトラスト投資工学研究所
    実践 金融データサイエンス
  • 1
  • 2

前へ

吉野貴晶のクオンツトピックス一覧へ

「吉野貴晶のクオンツトピックス」ご利用にあたっての留意点

当資料は、市場環境に関する情報の提供を目的として、ニッセイアセットマネジメントが作成したものであり、特定の有価証券等の勧誘を目的とするものではありません。

【当資料に関する留意点】

  • 当資料は、信頼できると考えられる情報に基づいて作成しておりますが、情報の正確性、完全性を保証するものではありません。
  • 当資料のグラフ・数値等はあくまでも過去の実績であり、将来の投資収益を示唆あるいは保証するものではありません。また税金・手数料等を考慮しておりませんので、実質的な投資成果を示すものではありません。
  • 当資料のいかなる内容も、将来の市場環境の変動等を保証するものではありません。
  • 手数料や報酬等の種類ごとの金額及びその合計額については、具体的な商品を勧誘するものではないので、表示することができません。
  • 投資する有価証券の価格の変動等により損失を生じるおそれがあります。