セールスフォース、論文の要約AIを開発。【AI×教育】(論文解説)

   
↓はてなブックマークで応援お願いします!
このエントリーをはてなブックマークに追加

ネット上に溢れる論文

arXivに代表されるオープンアクセスの学術論文リポジトリの人気が高まるにつれ、新しい研究の発信は容易になりました。一方で、このようなプラットフォームには膨大な量の未審査の論文が集積されるため、関連の研究を特定したり、最新の知見を把握することは困難になりました。

この課題を解決するために、効率的に論文を読むことができるような技術が求められます。
科学論文を要約する技術は、最も重要な情報だけを人が読みやすいような形に凝縮することで研究者の作業を支援します。
近年では、記事の内容を言い換えて流暢な要約を生成するモデルが目覚ましい進歩を遂げています。

科学論文を、読み手が求める情報を抽出して要約する課題において、実際にどんな研究が行われているのでしょうか。アメリカにあるカーネギーメロン大学のHiroakiら研究者の発表を紹介します。

研究者らは、豊富な科学論文を収録したコーパスであるS2ORCを拡張することでこの課題の解決を試みました。

▼論文情報

著者:Hiroaki Hayashi, Wojciech Kryściński, Bryan McCann, Nazneen Rajani, Caiming Xiong
タイトル:”What’s New? Summarizing Contributions in Scientific Literature”
arXiv
URL:DOI

科学論文の要約技術を開発

まずはHiroakiらの研究におけるミッション・手法・結果をまとめました。

✔️ミッション
論文で共有されている重要な知見を簡単に特定できるようにする。

✔️解決手法
既存のコーパスを拡大させたデータセットにモデルを適用させた。

✔️結果
79%のケースで、従来の科学論文の要約よりも役に立つモデルとなっていうことが示唆された。

ミッションから説明していきます。

貢献と背景に注目した

最先端の論文要約技術では、論文のアブストラクトが教師データとして利用されます。しかしこのように論文の要約を行いアブストラクトを生成する技術においては、2つの注意点があります。

・アブストラクトには重要性の低い情報も含まれる場合がある
・多くの論文にはアブストラクトがついており、サマリーは不要

これらの欠点を解決するために、Hiroakiらはdisentangled paper summarizationというタスクを導入しました。このタスクの目的は、論文の新規性と貢献に焦点を当てた要約と、研究の背景や過去の取り組みを紹介する要約の2つを同時に生成することです。
このような要約は、多くの人のニーズに応えられます。シニア研究者や現場の専門家にとっては、論文の貢献を知ることは非常に有益です。新規参入者にとっては、背景の要約を読むことで、取り上げられた問題の複雑さを素早く理解し、最新の知見を得ることができます。
このタスクに対して、豊富な科学論文データのコーパスを拡張して、新しい大規模データセットとして導入します。データの整理と処理を行い、生成された貢献度と研究背景の要約を加えて、教師付きモデルの学習を可能にします。

独自データセットに対する教師ありモデルの適用

Hiroakiらは、既存の論文データベースをもとに新たなデータセットを作成し、それに対して2つの教師ありモデルを適用させました。

Hiroakiらは、複数のドメインにまたがる大規模な科学論文が収録されており、論文間の引用リンクやアノテーションされた引用スパンなどの豊富な引用関連メタデータを提供するS2ORCコーパスをベースに、新たなデータセットを構築します。

データのキュレーション
S2ORCコーパスに収録されている論文の中には、本文、アブストラクト、引用メタデータなど、要約タスクに必要な情報が揃っていないものがあります。このような論文を除外し、論文要約データセットを作成しました。
このデータセットでは、各論文は
・アブストラクトと本文
・少なくとも5つ以上のインバウンドとアウトバウンドの引用
を収録しています。20件以上の引用がある場合は、引用数の多い順にソートし、上位20件を残します。

インバウンド引用:対象の論文を引用している論文の集合
アウトバウンド引用:対象の論文が引用している論文の集合

リファレンス生成
Hiroakiらのアプローチは、貢献と背景の両方について、教師データとなる要約に依存しています。しかし、S2ORCコーパスでは、そのようなアノテーションは提供されておらず、また、専門家のアノテーションを集めるのはコスト的にも困難です。そこで、データ駆動型のアプローチを用いて、論文のアブストラクトから貢献と背景の要約を自動的に抽出して教師データとします。
まず、トレーニングセットから抽出した400本のアブストラクトに手動でラベル付けを行います。アノテーションは文レベルで行われ、貢献と背景に関連する文を示すバイナリラベルを付けます。これを第一標準リファレンスと呼ぶことにします。次に、第一標準リファレンスデータを用いて、文の自動分類器の微調整を行います。微調整された分類器を適用して、データセットのすべての例に対する参照ラベルを生成し、これを第2標準リファレンスと呼びます。

このようにして生成されたデータセットに対して、Hiroakiらは、エンコーダ・デコーダ・アーキテクチャに基づいた2つの手法を提案します。

図1 提案された2種類のモデルの構造

コントロールコード(CC )
モデル生成されたテキストを制御するための一般的なアプローチは、求める出力に関連する制御コードを生成手順に条件付けすることです。
これまでの研究では、学習中 / 推論中にモデルの入力に特別なトークンまたは説明的なプロンプトを前置することで、生成されたコンテンツに対するきめ細かい制御が実現できることが示されています。
この研究の流れを受けて、要約された記事にテキスト制御コードであるcontribution:またはcontext:を前置することで、トレーニングインスタンスを修正します。学習の際には、各データインスタンスに対してすべてのモデルパラメータが更新され、モデルは、提供されたプロンプトと正しい出力モードとの関連付けを学習することが期待されます。このアプローチは、アーキテクチャの変更を必要としないため、既存の大規模で学習済みのモデルと簡単に組み合わせることができます。図1の左にモデルの構造を示します。

マルチヘッド(MH)
生成を制御するもう一つの方法は、モデル内の層に必要な制御を明示的に割り当ることです。マルチタスクモデルを調査した先行研究では、単一のマルチタスク構造内で共有層とタスクに特化した層を組み合わせることの利点が示された。ここでは、エンコーダは2つの生成モードの間ですべてのパラメータを共有し、デコーダは2つに枝分かれする最終層を除いてすべてのパラメータを共有します。学習中、各ブランチは、関連するモードの勾配で個別に更新されます。図1の右にモデルの構造を示します。

従来手法より有益な要約の作成が可能に

結果、従来の手法を大幅に上回る要約制度を達成しました。

導入したタスクの有用性を評価するために、専門家のアノテーターを対象としたヒューマンスタディを実施しました。これは、仮想的な論文審査の場で、Hiroakiらの提案手法と従来の手法を比較するものです。
審査員は、両タイプの要約を並べて見せられ、論文審査を行う上でより役立つ方を選ぶように求められました。
実験では100個の例文を使用し、そのうち50個はS2ORCデータセットのテスト分割でデコードし、残りの50個はCOVID19に関連する論文を集めて最近導入されたCORDデータセットの論文から従来手法で生成しました。表1の結果は、アノテーターが従来手法で生成された要約よりも提案された手法で生成した要約を好んだ割合を示しています。S2ORCとCORDの例では、8割前後の人が提案手法を好む傾向が強いことがわかります。

表1 ヒューマンスタディの結果
(A1 : アノテーター1、A2 : アノテーター2、A3 : アノテーター3)

本論文では、科学論文要約の新しいタスクとして、モデルが論文の貢献と背景の要約を同時に生成する手法を提案しました。専門家のアノテーターによるヒューマンスタディを通じて、現在の科学論文の要約作業と比較して、このタスクの有用性が示されました。

研究紹介は以上です。

個人が簡単に論文を公開できるようになったことの弊害として、有益な論文を探しにくくなってしまいました。それぞれの論文の内容が分かれば、論文を探す効率がかなり向上し、より良い研究を行うことができるようになりそうですね。


関連記事


業界/カテゴリー

PAGE TOP