09月08日
(金)
2023年
フルテキスト論文を自社のデータパイプラインに取り込むにあたっての3つの助言
本ブログ記事は2022年10月27日に原文が投稿されたものの翻訳になります。
今日、研究開発型の組織は科学文献に莫大な投資をしています。高レベルのナレッジ管理チームは、組織全体で研究データが重要であることを認識していて、従来から定期購読を契約している雑誌にデータフィードも追加することが増えています。また、AIおよび機械学習技術を用いてデータパイプラインでそれらを活用するために適切な権利も合わせて取得しています。
こうして取り込まれたデータは、特定のプロジェクトチームによって使用されたり、社内データレイクに保存されたりします。用途は、研究開発の初期段階から競合情報分析、M&A、ライセンス供与、製造販売後調査、安全性情報管理まで多岐にわたります。
しかし、よくあることとして、組織の投資に対して最大の成果を上げようとすると、これらのグループはさまざまな課題や機会に直面します。ここでは、フルテキストのXMLデータ標準化にあたって直面する課題の例と、解決のための助言をお伝えします。
送信方法の統合
データ提供者は資料をSFTP、API、AWS 3S バケットなどで送信してくるため、データ転送業務の適切なスケジューリングが必要になります。ここでは、人の手による介入は最小限に抑え、送信が予定通り行われなかったり、異常事態が発生したり(通常ではない量のデータなど)した時のみ、データフィードを監視および特定するのが理想的です。異常事態に気づいたり、対処したりするのは、上流であればあるほど良いでしょう。
助言:データフィードのベースラインを確認し、ベースラインから乖離している差異を定期的に算出し、その原因になっている可能性がある変化を探し出します。調べてみると、これらの変化は完全に説明がつくものかもしれません。例えば、雑誌のオーナーが変わったために、長期にわたる配信から消えているのかもしれません。しかし、そういった差異は単なるミスということもあり、そうであれば是正の機会になります。
データ解析
データ提供者間で、あるいは同一のデータ提供者でも、フォーマットの種類にはバリエーションがあります。時間と共に変化することもあれば、雑誌のオーナーが変われば、出版社ごとに変わることもあります、こういったことはデータ解析の段階で注意する必要があります。CCCが経験した実例プロジェクトでは、50社以上のSTM出版社のフルテキストデータを取り込んだところ、規定のXMLフォーマットでも10種類以上のバリエーションがあり(NLM、JATS、独自形式など)、それらを明らかにするたけでなく、規定フォーマットの遵守の程度がさまざまなことにも対応しなければなりませんでした。
助言:バリエーションがある可能性についてデータ提供者と事前に話し合い、時期や提供者の事業部門による違いについても調べましょう。
望ましいユーザーエクスペリエンス
データパイプラインの下流のどこかで誰かが、これらのデータを用いて何かをします。これらのデータを活用するのに、どれくらいの経験があればいいでしょうか?ニーズを満たすには、さらにデータを処理することが必要でしょうか?
考慮すべき事柄の例:
- ユーザーが表形式データや図を必要としていたら、それらは一貫した形式で提供され、データから適切に抽出されていますか?
- データフィードをレポジトリの他のデータの集計フィード(MEDLINEやPubMedなど)と統合する場合、パイプラインは重複する記録をどのように特定、管理して、エンドユーザーのニーズに合わせて適切なメタデータが確実に残るようにしますか?
- より長いテキスト情報はボキャブラリーあるいはオントロジーを用いてエンリッチメントあるいはアノテーションを行って、一貫した検索/発見、アナリティクス、ナレッジグラフのアプリケーションをサポートする必要がありますか?
助言:データ解析の要件をまとめてはっきりさせておき、自社のステークホルダーが下流に期待するビジネス上のメリットにそれらを結び付けます。このような要件があれば、業務の優先順位付けができ、スコープのフェーズを設定することができます。例えば、最初のフェーズで表形式データや図を抽出するのが困難であれば、アプローチを精緻化する間、残しておくことができます。
標準化されたXMLフォーマットの論文コンテンツに単一のポイントからアクセス
フルテキストの科学論文でなければ見つけられないインサイトは、間違いなくAI、機械学習、データ可視化プロジェクトを豊かにします。RightFind XMLを用いると、組織は柔軟性のある多様なモデルから選択して、標準化されたXMLフォーマットのフルテキスト科学論文にアクセスすることができます。テキストおよびデータの商用マイニングの許諾もすでに得られています。
関連記事をさらに読む:
- 科学論文のテキストマイニングで直面する3つの重要課題
- Fueling Your AI & Machine Learning Projects with XML Content – Why Flexible Retrieval Options Are Crucial(AIおよび機械学習プロジェクトをXMLコンテンツで推進 – 柔軟な検索オプションが必須の理由。英語記事)