07月26日
(火)
2022年
テキストマイニングの進化 – 研究開発企業に見られる傾向
By
※本ブログ記事は2021年5月11日に原文が投稿されたものの翻訳となります。
デジタルエコシステムから得られる情報が急速に拡大していることは周知の事実です。学術雑誌には年間300万件の論文が発表されていますが、これは、特許や臨床研究などの情報を迅速かつ容易に統合して入手したいと考える研究開発型企業にとって価値の高いコンテンツの一つです。
過去10年間で、研究開発型企業の間では、膨大な出版物の中から重要なインサイトを得るために、テキストマイニングの利用が増えています。テキストマイニングというと、大量のデータ処理が想起されます。結局のところ、膨大な情報を取り扱うなかで、特定の業務に携わる個人の研究者が行える定性分析には、どうしても限界があるのです。
これまで、テキストマイニングやデータマイニングはプロジェクトごとに行われる傾向がありました。あるビジネス領域から出された特定の「質問」にテキストマイニングを適用し、機械分析によって特定の結果や回答を導き出していました。テキストマイニングアプリやツールはこれまでにも使用されていたと思われますが、特定のプロジェクトに対するアドホックな使用で、たいていはプロジェクト完了後に使用されなくなっていました。
時代が進み、生成されるデータ量がさらに増えるにつれ、エンドユーザーの情報体験にテキストマイニングを「組み込む」ケースや、進行中のデータ処理パイプラインの一部としてテキストマイニングを適用するケースなど、テキストマイニングやデータマイニングは広く活用されるようになっています。自社にテキストマイニングを取り入れる方法を検討する際には、様々な要素が考えられます。
当社のお客様の傾向から、以下の要素について検討することをおすすめします。
ユーザーエクスペリエンス
ビジネス上の問題やその問題に対処するユーザーからは、テキストマイニングの適用可能性や適用方法について重要な知見を得ることができます。例えば、研究者のような単発的なエンドユーザーは、機能満載のテキストマイニングツールを利用したがらない可能性が高いでしょう。しかし、たとえシンプルなエンドユーザー向け検索・発見ツールであっても、テキストマイニングを用いれば、直感的な自動提案、同義語やクラスベースの検索といった便利なアシスト機能が提供できます。逆に、データサイエンティストやテキストマイニングの専門家は、より粒度の高い制御を必要としたり、テキストマイニングツールと相互に作用するAPIなどのプログラミングの要素を取り入れた手法を求めるかもしれません。
データソースとデータの属性
利用するコンテンツ/データやその形式はビジネスの目的にもよります。テキストマイニングが適するかどうかに関わるデータの属性には、量、頻度、タイプ、形式があります。例えば、科学文献のコンテンツは量が多く、デジタル形式で、テキストマイニングは権利上可能ですぐに利用できるでしょう。しかし、たとえ量が少なくても、手作業での処理が非効率的で、自動の機械分析で対処可能であるならば(ファーマコビジランスに関する専門家レビューなど)テキストマイニングを取り入れる価値があるかもしれません。
初期研究から医薬品安全性、競合情報分析に至るまで、どの業務に携わる人も、コンテンツの量と形式の急増に対処しています。つまり、目指すところは、それに圧倒されることなく、様々な形式の大量のコンテンツを活用することです。Copyright Clearance Center(CCC)は、幅広い科学系出版社から発表されるXML形式のフルテキストの論文に関して、使用許可、アクセス、セマンティックエンリッチメント、インデックス作成をシンプルにする統合ソリューションを開発しました。RightFind XML for Miningの詳細については、こちらをご覧ください。