09月29日
(金)
2023年
テキストマイニングを理解する:知っておくべき4つの用語と定義
本ブログ記事は2017年10月3日に原文が投稿されたものの翻訳になります。
テキストマイニングの使用がますます広まる今日、情報マネージャーは基本を正しく理解しておく必要があります。
テキストマイニングは、ソフトウェアを用いてテキスト素材から質の高い情報を引き出すプロセスで、わかりにくいコンセプトのパターンあるいは関係を明らかにするのに役立ちます。その結果、より早く発見し、より賢明な意思決定ができるようになります。
どこからスタートしますか? まずは、すべての情報マネージャーが知っておくべき、テキストマイニングの主要な用語4つを見ていきましょう。
XML
XMLはExtensible Markup Languageの略語で、情報をやり取りする時の標準であり、特にデータがソフトウェアで解釈される時に、ユーザビリティを向上させることが目的です。言い換えれば、文書をすぐに機械で読み取れるようにしたものです。XMLはセマンティックテクノロジ、テキストおよびデータマイニングテクノロジおよびその他の処理ソフトウェアで推奨されることが多いインプット方法です。
フルテキスト論文を入手する時、研究者は通常、PDF形式のみにアクセスが可能で、テキストマイニングのためにはXMLにコンバージョンが必要(リンク先は英文記事)です。これは骨が折れる作業で、エラーも起きやすいプロセスです。
セマンティックエンリッチメント
セマンティックエンリッチメントは未加工のコンテンツに意味のレイヤーを加えるプロセスです。意味に関する情報でコンテンツのエンハンスメントを行い、非構造の情報に構造を加え、コンテンツの統合と処理をさらに容易にします。例えば、科学文献は、遺伝子型/遺伝表現型、疾病、医薬品、作用機序、および文献中で言及されている生物医学的なコンセプトを説明するタグやインラインのアノテーションでエンリッチすることができます。セマンティックエンリッチメントは、インフォマティクスおよび情報管理のプロフェッショナルが担うさまざまな戦略的イニシアティブでカギを握るイネーブラです。
ホワイトペーパー:Semantic Enrichment & The Information Manager(英文記事)(セマンティックエンリッチメントと情報マネージャー)
TDMの権利
コンテンツはさまざまな権利が関わっています。情報管理プロフェッショナルとライブラリアンは著作権ライセンス供与、複製権機構、その他、コンテンツ消費者が著作権を尊重しながら、情報を使用、共有、拡散することを可能にするフレームワークや組織についてはよく知っているでしょう。
想像される通り、テキストおよびデータマイニング (TDM) プロセスにおいては、著作権に関して慎重になるべき行為がたくさんあります。使いやすい研究発表を作るために、コンテンツの複写、保存、アノテーション、エンリッチメント、スキャニングが行われることがあります。大抵の場合、商用TDMの権利は一般的な定期購読契約には含まれていません。出版社は「TDM権利」セットを標準として、あるいは特別な形で定期購読契約に含めるか、追加の権利として提供するようになるかもしれません。
機械学習
機械学習は、未加工のコンテンツあるいはセマンティックエンリッチメントが行われたコンテンツを統合して、インサイトを生み出すことができるアプローチです。
機械に情報の処理を指示する方法は数多くあります。1つの方法は、生じる可能性のある各インスタンスに厳しいルールを適用して処理させることです。例えば、「Aがインプットである時、Bが常にアウトプットである」というのも1つのルールです。これは理論的にはシンプルで、人間にとっては容易に理解できるものですが、実際にはこのプロセスで価値を維持、拡張、捕捉するのは困難なこともあります。
機械学習では、機械は異なる方法で情報を処理します。この場合、システムは特定のルールではなく、例によって「トレーニング」されます。例えば、人間の画像と猫の画像を分類することを目的とするシステムは、一連の画像を与えられて「これは人間」、別の一連の画像を与えられて「これは猫」と教えられます。ここから、システムは他の画像の分類に移り、継続的にフィードバックが与えられます。このフィードバックによって、システムは常に調整を行い、分類能力を向上させて、より良いインサイトを生み出します。
テキストマイニングとセマンティックエンリッチメントは、機械学習プログラムを可能にするデータ処理技術として用いられることがますます増えています。ここに(リンク先は英文記事)、機械学習が業界の進化にどのように役立っているかの例があります。
Copyright Clearance Centerのテキストマイニングソリューションについては、こちらをご覧ください。
もっと読む:
テキストマイニングの進化– 研究開発企業に見られる傾向
科学文献へのアクセス性の向上による競合情報分析チームの強化
What is Text Mining? And How is it Different from a Web Search?(英文記事)(テキストマイニングとは?ウェブサーチとはどのように違うのか?)