12月16日
(金)
2022年
CCCによる「データ管理に関する必読記事」シリーズ – 2022年秋編
※本ブログ記事は2022年10月11日に原文が投稿されたものの翻訳となります。
「今日の世界では、データの集計と分析、そしてデータの知見に基づく戦略による意思決定があらゆるところで行われている。私の世界でデータを使わない日はない」- 『アナリティクスは質問からはじまる - データをよりよく理解する方法』(執筆者:スティーブン・ハウ、以下すべてのリンク先は英文になります)
本日はCopyright Clearance Centerによる「データ管理に関する必読記事」シリーズ2022年秋編をお送りします。このシリーズでは、データの世界における「見逃せない」展開を解説した重要な記事を過去数ヶ月分から厳選してご紹介します。
データのライフサイクル全体を管理
多くの企業では、データは収集したり消費したりするだけの静的な資源と捉えられています。しかし、実はデータには天然資源と同じようにライフサイクルがあります。今年6月、IEEE Computer Society(IEEEコンピュータソサエティ)は「The Importance of Data Lifecycle Management (DLM) and Best Practices(データライフサイクル管理(DLM)の重要性とベストプラクティス)」を発表しました。データのライフサイクルの様々なステージを明らかにしつつ、データのキュレーションやメンテナンスの重要性を説いており、データのライフサイクル全体を管理することの重要性がよく分かります。
データ品質の課題に挑戦
データ品質の管理はあらゆる規模の企業で見られる課題です。LinkedInのエンジニアたちはこの問題に立ち向かい、自社が消費するデータ規模でその品質を管理することに挑戦しました。「Towards data quality management at LinkedIn(LinkedInにおけるデータ品質管理)」で、彼らは独自に開発したソリューション「データヘルスモニター」のアーキテクチャを説明しています。同ソリューションは機械学習の取り組みに使用するデータの品質を向上させることを目的としています。
BLOOMプロジェクトに潜入
機械学習と言えば、MITテクノロジーレビューに掲載された記事「Inside a radical new project to democratize AI(AI民主化における急進的プロジェクトの内情)」は、BLOOM(BigScience Large Open-science Open-access Multilingual Language Modelの略称)というプロジェクトを紹介しています。このプロジェクトは「言語モデルはソースコードにおいてもモデルの学習に使用されるデータにおいても不透明である」という批判を覆そうとするものです。プロジェクトデザイナーたちは、自分たちのモデルを他の有名な言語モデルと同じくらい強力なものにしたいと願っていますが、そのプロセスは透明性の高いものであると強調しています。
データベースをめぐる研究
データベースの基礎研究に興味がある方には、Communications of the ACM(コミュニケーション・オブ・ザ・ACM)の記事「The Seattle Report on Database Research(データベース研究に関するシアトルレポート)」がおすすめです。の最新情報を紹介し、今後5年間の有望な研究分野を明らかにしています。
「8 Levels of Reproducibility: Future-Proofing Your Python Projects(8段階の再現性 - 将来も使い続けられるPythonプロジェクト)」はPythonによる再現性を段階別に説明しています。著者が提唱する再現可能な研究とコーディングのためのフレームワークは、どんな言語を使ったデータサイエンスプロジェクトにも応用可能です。
もっと読む CCCの最新データ関連ブログ記事はこちら。