データ品質入門

参考:www.datapine.com/blog/data-quality-management-and-metrics/
イメージの参照:www.datapine.com

データ品質には多くの定義がありますが、一般に、データ品質とは、データがどれだけ使用可能であり、そのサービングコンテキストに適合するかの評価です。

次のような多くの要因がデータ品質の測定に役立ちます:

  • データの一貫性:データセットに対して定義されたセマンティックルールの違反。 .
  • データ精度: データベースに格納されているデータ値が実際の値に対応している場合、データは正確です。
  • データの一意性:特定のフィールド、レコード、またはデータセットのシステム内またはシステム間に存在する不要な重複の尺度。
  • データの完全性:データコレクション内に値が存在する程度。
  • データの適時性:データの経過時間が手元のタスクにどの程度充当されるか。

可用性、操作の容易さ、信頼性、通貨などの他の要因を考慮することができます。

なぜデータ品質が重要なのか?

データ品質の向上は、データが組織内のすべての活動の中核とみなされるため、重大な懸念事項であり、データ品質の低下は不正確な報告につながり、不正確な決定と確実に経済的損害をもたらします。

データ品質を向上させるには?

データ品質の向上は、以下によって達成されます:

  1. トレーニングスタッフ
  2. データ品質ソリューションの実装

3.1. 研修スタッフ

データ品質ソリューションの実装を考える前に、まずデータ入力などの組織内の人間活動によって生じるデータ品質の問題を最小限に抑 また、すべての開発者とデータベース管理者は、ビジネスプロセスに関する十分な知識を持っている必要があり、データベースとアプリケーションの開発と設

3.2. データ品質ソリューションの実装

データ品質を向上させるもう1つの方法は、データ品質ソリューションの実装です。 Data quality solutionsは、次のような品質タスクを実行する一連のツールまたはアプリケーションです:

  • ナレッジベースの作成:ナレッジベースは、情報の普及のための機械可読リソースです。
  • データの重複排除:セマンティックルールのセットに基づいて重複した情報を削除します。
  • データクレンジング:値から不要な文字や記号を削除します。
  • データプロファイリング:既存の情報ソースから利用可能なデータを調べるプロセスです(例: データベースまたはファイル)とそのデータに関する統計や有益な要約を収集します。
  • データマッチング:データマッチングは、レコードリンケージやエンティティ解決などの技術を使用して収集されたデータの二組を比較する取り組み

人気のあるデータ品質ソリューション

このセクションでは、市場で最も人気のあるデータ品質ソリューションのいくつかを紹介します。

4.1. IBM Infosphere information server

IBM InfoSphere®Information Serverは、市場をリードするデータ統合プラットフォームであり、データの理解、浄化、監視、変換、配信を可能にし、ビジネスとITのギャップを橋渡しするためのコラボレーションを可能にする製品ファミリが含まれています。 InfoSphere Information Serverは、大規模および小規模のすべてのデータボリュームを処理する拡張性と柔軟性の高い統合プラットフォームを提供するための超並列処理(MPP)機

InfoSphere Information Serverは、データ統合からデータ品質、データガバナンスに至るまで、独自の情報統合要件を柔軟に満たす機能を提供し、信頼できる情報をミッションクリティカルなビジネスイニシアチブ(ビッグデータと分析、データウェアハウスの近代化、マスターデータ管理、ポイント—オブ—インパクト分析など)に提供します。

  • : https://www.ibm.com/analytics/information-server

4.2. Informatica Data Quality

Informatica Data Qualityは、オンプレミスまたはクラウド内のすべてのビジネスアプリケーションのすべての利害関係者、プロジェクト、およびデータドメインに信頼

  • : https://www.informatica.com/products/data-quality/informatica-data-quality.html

4.3. Oracle Enterprise Data Qualityは、パーティ・データおよび製品・データに対する完全で最高のアプローチを提供し、信頼性の高いマスター・データを提供し、アプリケーションと統合してビジ

  • : http://www.oracle.com/us/products/middleware/data-integration/enterprise-data-quality/overview/index.html

4.4. Microsoft Data Quality Services

SQL Server Data Quality Services(DQS)は、ナレッジ駆動型のデータ品質製品です。 DQSを使用すると、ナレッジベースを構築し、それを使用して、データの修正、強化、標準化、重複排除など、さまざまな重要なデータ品質タスクを実行できます。 DQSを使用すると、参照データプロバイダーが提供するクラウドベースの参照データサービスを使用してデータクレンジングを実行できます。 DQSでは、データ品質タスクに統合されたプロファイリングも提供され、データの整合性を分析することができます。

  • : https://docs.microsoft.com/en-us/sql/data-quality-services/data-quality-services

4.5. Melissa Data Quality

1985年以来、Melissaは、データのプロファイリングと標準化、クレンジング、エンリッチ、リンク、重複排除など、幅広い機能を備えたエンタープライズデータ品質ツールを提供してきました。 私たちの使命は、より大きな洞察のための信頼性の高い、信頼性の高い、正確な情報を提供する最高の品種のソリューションを組織に提供することです。

  • : https://www.melissa.com/uk/data/data-quality

4.6. Talend Data Quality

Talendのenterprise data qualityツールは、データのプロファイル、クリーンアップ、マスクを行い、時間の経過とともにデータ品質を任意の形式またはサイズで監視します。 データの重複排除、検証、および標準化により、アクセス、レポート作成、分析、および操作のためのクリーンなデータが作成されます。 郵便の検証、ビジネスの識別、クレジットスコア情報などのための外部ソースでデータを強化します。

  • : https://www.talend.com/products/data-quality/

4.7. Syncsort Trillium Software Lead

SyncsortのTrillium Cloudは、Syncsortが管理する堅牢で安全なcolud環境の導入の容易さと運用の柔軟性を備えた業界をリードするエンタープライズデータ品質ソリューションを提供します。

  • : http://www.syncsort.com/en/About/Trillium-Software

4.8. SAS Data Qualityソフトウェアを使用すると、データの一貫性と整合性を向上させることができます。 データの品質を向上させると、分析結果の価値が高まります。SAS Data Qualityソフトウェアは、さまざまなデータ品質操作に対応しています。 データ品質操作では、データの特定のコンテキスト(名前や住所など)に適用される事前定義されたルールが使用されます。 データ品質操作の例には、大文字と小文字の区別、構文解析、ファジィマッチング、および標準化があります。

  • : https://www.sas.com/en_us/software/data-quality.html
  • C.Batini,C.Cappiello,C.Francalanci,A.Maurino,”データ品質評価と改善のための方法論,”ACM Computing Surveys(CSUR),vol. 41,p.16,2009.
  • McGilvray,”品質データと信頼できる情報への10のステップ,”MIT情報品質産業シンポジウム,2008.
  • R.Y.W.a.D.M.Strong,”beyond accuracy:What data quality means to data consumers,”Journal of management information systems,vol. 12,pp.5-33,1996.
  • Sidi Fatimah,Shariat Panahy,Payam Hassany,Lilly Suriani Affendey,Marzanah A.Jabar,Hamidah Ibrahim,Aida Mustapha,”Data quality:a survey of data quality dimensions,”In Proceedings—2012International Conference on Information Retrieval and Knowledge Management,CAMP’12,2012.
  • Herzog,Thomas N.,scheuren,f.j,winkler,”データ品質とは何か、なぜ私たちは気にすべきか”Journal of Industrial Engineering and Management,vol. 4(2),no.2nd edition,pp.1-9,2016.
  • M.ラウス,”ナレッジベース,”TechTarget,3 2007. . https://searchcrm.techtarget.com/definition/knowledge-base .
  • “データプロファイリング”、ウィキペディア、。 https://en.wikipedia.org/wiki/Data_profiling .
  • “データマッチングとは何ですか?、”Techopedia,. https://www.techopedia.com/definition/28041/data-matching .
  • “IBM Information Server,”IBM,. https://www.ibm.com/analytics/information-server .
  • “最高のデータ品質ソフトウェア、”G2Crowd、。 利用可能:https://www.g2crowd.com/categories/data-quality。 .
  • “Oracle Enterprise Data Quality,”Oracle,. http://www.oracle.com/us/products/middleware/data-integration/enterprise-data-quality/overview/index.html .
  • “Data Quality Services,”Microsoft,10 12 2013. . https://docs.microsoft.com/en-us/sql/data-quality-services/data-quality-servicesビュー=sql-server-2017。 .
  • “データ品質,”Talend,. 利用可能:https://www.talend.com/products/data-quality/。 .
  • “Trillium Software,”Syncsort,. http://www.syncsort.com/en/About/Trillium-Software .
  • “SASデータ品質およびデータ品質サーバー”SAS,. http://support.sas.com/software/products/dataqual/index.html

コメントを残す

メールアドレスが公開されることはありません。