私たちは過去にデータ品質について多くのことを話しました–悪いデータのコストを含めます。 しかし、データ品質の基本的な理解にもかかわらず、多くの人々はまだ正確に”品質”が何を意味するのか理解していません。

例えば、その品質を測定する方法はありますか、もしそうなら、どのようにそれを行うのですか? この記事では、これらの質問などに答えることを検討します。 しかし、最初に…

データ品質の神話を払拭する

decision-makers
データ品質を確保するための基盤は、基本的な要件が作成されたときに始まります

データ品質に関する最大の神話の一つは、完全にエラーフリーでなければな ウェブサイトやその他のキャンペーンでは、多くのデータを収集し、ゼロのエラーを得ることは不可能の隣にあります。 代わりに、データは設定された標準に準拠する必要があります。 「品質」が何であるかを判断するためには、まず3つのことを知る必要があります:

  1. 要件を作成する人
  2. 要件をどのように作成し、
  3. これらの要件を満たすという点でどの程度の緯度がありますか

多くの企業には、これらの要件を理解して設定し、エラーの許容レベルを決定する人であるという特異な”データスチュワード”があります。 データスチュワードが存在しない場合、データ担当者がそれに影響を与える可能性のある欠点を理解するようにする役割を果たすことがよくあります。

あなたはそれを良い、速い、または安いものにすることができます-二つを選ぶ

mcdonalds-junk-food

データの収集から会社のニーズに合うようにすることまで、すべてが潜在的なエラーに開きます。 100%完全で100%正確なデータを持つことは、非常に高価であるだけでなく、時間がかかり、ROIの針をかろうじてナッジします。

そんなに多くのデータが入ってくると、意思決定は迅速に行われなければなりません。 そのため、データ品質は非常に繊細なバランスのとれた行為であり、正確さと完全性をジャグリングし、判断します。 それは埋めるために背の高い順序のように聞こえる場合は、狂気への方法があることを知って喜んでいるでしょう、と最初のステップは、データプロファイ

データプロファイリングとは何ですか?

data-quality

データプロファイリングでは、データベース内のすべての情報を調べて、それが正確か完全か、およびそうでないエントリをどうするかを判断します。 たとえば、会社が製造している製品のデータベースをインポートし、すべての情報が正確であることを確認するのはかなり簡単ですが、競合他社の製品やその他の関連する詳細についての詳細をインポートするときは別の話です。

データプロファイリングでは、データの正確さも検討しています。 あなたが7/1/16に起動した場合、システムはそれを1916または2016として記録しますか? それはあなたも、あなたが得た情報をコーミングで重複やその他の問題を発見することができる可能性があります。 この方法でデータをプロファイリングすることは、私たちに出発点を与えます–私たちが使用している情報が可能な限り最高の品質であることを確

データ品質の決定

だから、私たちの情報が完全かつ正確であるかどうかを判断するための出発点があるので、次の質問は–エラーや問題を見つけたとき 通常、次の4つのいずれかを行うことができます:

  • エラーを受け入れる–それが許容可能な標準内にある場合(つまり、 メインストリートの代わりにメインSt)あなたはそれを受け入れ、次のエントリに移動することを決定することができます。
  • エラーを拒否する–特にデータのインポートでは、情報が非常に深刻な損傷または間違っているため、修正しようとするよりもエントリを完全に削除する方が良い場合があります。
  • エラーを修正する–顧客名のスペルミスは、簡単に修正できる一般的なエラーです。 名前にバリエーションがある場合は、名前を”マスター”として設定し、すべてのデータベースにわたってデータを統合して修正することができます。
  • デフォルト値を作成します–値がわからない場合は、何もないよりも何か(不明またはn/a)がある方が良い場合があります。

データの統合

異なるデータベース間で同じデータがある場合、エラーや重複の機会が熟しています。 統合を成功させるための最初のステップは、データがどこにあるかを確認し、そのデータを一貫性のある方法で組み合わせることです。 ここでは、データベース間で情報を調整して同期するのに役立つ、実績のあるデータ品質と精度のツールに投資することは非常に価値があります。

データ品質チェックリスト

clean-data

最後に、非常に多くの異なる分野で非常に多くのデータを処理しているため、可能な限り最高品質のデータを処理しているかどうかを判断するためのチ DAMA UKは、データ品質がどのように決定されるかについての全体像をよりよく把握するために使用できる”データ次元”に関する優れたガイドを作成しました。

それらのデータ品質の次元は次のとおりです。

完全性–1つ以上の値を含むデータの割合。 重要なデータ(顧客名、電話番号、電子メールアドレスなど)が重要です。)完全性はそれほど重要でないデータに影響を与えないので、最初に完了してください。

一意性–他のデータセットに対して測定した場合、その種類のエントリは1つだけです。

適時性–日付と時刻はデータにどのくらいの影響を与えますか? これは、以前の販売、製品の発売、または正確であるために一定期間にわたって依存している情報である可能性があります。

妥当性–データはそれに設定されたそれぞれの標準に準拠していますか?

正確さ–データは、それによって識別される現実世界の人物または物をどれくらいうまく反映していますか?

一貫性–データは先入観のパターンとどの程度整合していますか? 米国では標準はMM/DD/YYYYですが、ヨーロッパやその他の地域ではDD/MM/YYYYの使用が標準であるため、生年月日は共通の一貫性の問題を共有しています。

データ品質の全体像

ご覧のように、すべてのビジネスのすべてのタイプのデータの精度と完全性を維持するための”ワンサイズ適合”アプローチはありません。 また、ビッグデータの情報に対する欲求が日々高まっているため、データ品質の問題に正面から取り組むことがこれまで以上に重要になってきています。 それは圧倒的に見えることができますが、それはコンピュータが彼らが最善を尽くす何をやらせるためにデータ衛生ツールを入隊する価値があ

あなたが取ることができる最も重要なステップは、単に始めることです。 より多くの見通しが浮上し、新しい市場が発見されるにつれて、データは常に成長するため、データ品質の問題に取り組むための”最高の時期”になることは データ品質があなたの会社や組織に何を意味するかをマップするために今時間を割いて、改善された顧客サービスの波及効果を作成することができま

著者について:Sherice Jacobはビジネス所有者がウェブサイトの設計を改善し、強制的なcopywriting、ユーザーフレンドリーの設計およびスマートなanalyticsの分析によって換算値を IElectrifyでより多くを学びなさい。comは、今日のあなたの無料のwebコピーチューンアップと変換チェックリストをダウンロー

トラフィックを増やす

コメントを残す

メールアドレスが公開されることはありません。

lg