02月17日
(金)
2023年

科学論文のテキストマイニングで直面する3つの重要課題


 

研究者やデータサイエンティストは、テキストマイニングツールを使用して、膨大な量の公開情報から事実、主張、関連性を抽出し、解釈しています。このようなAI学習や機械学習プロジェクトは、研究プロセスを加速し、発見を増やし、競争力のある情報を提供します。企業にとっては、医薬品や製品開発パイプラインに関する潜在的な安全性の問題を特定するのに役立ちます。 

このようにテキストマイニングには多くのメリットがあるにもかかわらず、研究者は学術文献を検索する以前に多くの障壁に直面しています。 

ここでは、企業がテキストマイニングプロジェクトで使用する論文のコレクション(または「コーパス」)を構築する際に直面する3つの重要課題と、それを克服するためのヒントを紹介します。 

 

1. 論文の抄録に含まれる情報は不完全である

 

多くの研究者は、科学論文の抄録を活用してコーパスを構築しています。抄録はPubMedなどのデータベースから簡単に入手できるからです。しかし、抄録から得られるデータの価値には限界があります。論文全文(手法やプロトコルの詳細、全ての研究結果など)をマイニングすることができれば、研究者は重要データ、発見、主張を確実に探すことができますが、全文は抄録とは異なり、テキストマイニングに適した形式で出版社から入手できない場合が多々あります。

ヒント:複数の出版社/ソースからのデータは、多いほどよいでしょう。"Fear of missing out"(取り残されることへの恐れ)を減らすためにはフルテキストを大切に。フォーマットを統一して、マイニングツールへの取り込みをよりシンプルにできれば理想的です。 

 

2. コンテンツがXML形式で提供されないことがある

 

企業がジャーナルを購読している場合、ドキュメントはPDF形式で提供されることがよくあります。しかし、PDFはテキストマイニングソフトウェアで使用されることを想定していません。そのため、研究者やデータサイエンティストは、PDFをテキストマイニングソフトウェア用に適したXML(拡張可能マークアップ言語)に変換するのに時間をかけなければならなくなっています。XMLとは、コンピュータや「機械」が読みとれるようにドキュメントをエンコードするための言語であり、コンピュータプログラムがコンテンツを適切に解析、表示できるようにするために広く使用されています。PDFをXMLに変換するには、ソフトウェアツールを追加する必要があります。これは非効率的であるだけでなく、データや表が損失したり、文書セクションが「テキストの塊」に変換されてしまったり、誤った文字や非単語が表示されてしまったりなど、文書自体に問題を生じさせる可能性があり、データを失うリスクもあります。 

ヒント:特に標準スキーマ(JATSなど)に正規化されている場合は、PDFの変換ではなくオリジナルのソースXMLに注目してください。これにより、より質の高い結果を得ることができるはずです。よく言われるようにのです。

 

3. ライセンス条件と料金に一貫性がない

 

科学文献コーパス構築に向けてのアプローチはプロジェクトによって異なります。数件、数十件、数百件の論文を参照するプロジェクトもあれば、数十万件、数百万件の論文を処理するプロジェクトもあります。多種多様なプロジェクトが広範なコンテンツにアクセスして、各々が最良の結果を得ようとしています。XML形式のフルテキストの論文を使用するために、企業は複数の権利者や出版社と直接取引を行わなければなりません。料金体系や利用条件はその都度異なるので、最終的には生産性も低下してしまいます。出版社間で共通のフルテキストコンテンツ利用規約がない場合、研究者や情報管理者は、各権利者と一つ一つ条件を交渉しながら、テキストマイニングに必要なコンテンツや権利を取得するというプロセスを経ることになります。

ヒント:一括ライセンシングオプションを利用して、時間と労力を節約しましょう。交渉役を代行してもらうのです。ここでは、自社の購読管理担当者または部署 (通常ナレッジマネージャーまたは情報マネージャー) を巻き込むのも大事です。彼らは、会社が現在利用しているサービスを把握していますし、ライセンス手続きの合理化を手伝ってくれるパートナーとすでに提携しているかもしれません。

 

もっと読む:

テキストとデータマイニングのために科学文献を活用するナレッジマネージャーのための5つの考慮事項 (英文記事)
アナリティクスは質問からはじまる -  データをよりよく理解する方法(英文記事) 


CCCが出来ること 

 

RightFind® XMLを使えば、研究開発型企業の研究者は、論文の全文からしか得られない発見や関係性を得ることができます。詳しくはこちらをご覧ください。