データを操作する前に、それが有効で正確で信頼性があることを確 ビッグデータの時代には、企業はそもそもデータの収集や購入に費やすのと同じくらい、健康の維持とデータのクリーニングに費やすことがあります。 値の欠落または間違った、重複、およびタイプミスに起因する可能性のある問題を検討してください。 計算の有効性、正確性、信頼性は、データを最新の状態に保つ能力によって異なります。 多くの見積もりによると、データの約30%が時間の経過とともに不正確になる可能性があり(JD Supra、2019;Strategic DB、2019)、小さなデータセットでさえ、数十または数十万のレコード

ファイル形式、データ量、または予算の広い範囲のためにそこに多くのデータクリーニングソリューションがあります。 ただし、データを迅速かつ効果的に処理できるように、Excelの機能と機能を使用して達成できることはたくさんあります。 アプリケーションを購入したり、従業員にデータクリーニングを割り当てたり、データをスクラブするサービスを雇ったりするのではなく、シートあたり百万以下のレコードのために、Excelはさまざまな機能と機能を使用して多くの時間と資金を節約できます。 表10.1に、データのクリーンアップに役立ついくつかの重要な機能を示します。

CLEAN は、印刷できない文字をすべてテキストから削除します。
TRIM は、単語間の単一のスペースを除くすべてのスペースをテキストから削除します。
連結 二つ以上のテキスト文字列を一つの文字列に結合します。
LEFT は、文字列の左側から指定された数の文字を含む文字列を返します。
RIGHT は、文字列の右側から指定された数の文字を含む文字列を返します。
MID は、テキスト文字列から特定の文字数を返します。
SEARCH SEARCHは、特定の文字またはテキスト文字列が最初に見つかった文字の数を返します。
FINDとFINDB 2番目のテキスト文字列内の1つのテキスト文字列を検索します。
UPPER テキストを大文字に変換します。
LOWER テキストを小文字に変換します。
PROPER は、テキスト文字列の最初の文字と、文字以外の文字の後に続くテキスト内の他の文字を大文字にします。 他のすべての文字を小文字に変換します。
TEXT 書式コードを使用して書式を適用することにより、数値の表示方法を変更します。
数値を表すテキスト文字列を数値に変換します。

表10.1Excelでのテキストおよびデータのクリーニング関数のサンプル。

以下のセクションでは、上記の機能の動作を示します。 Ch10_Data_Fileには四つのシートが含まれています。 ドキュメントシートには、当社のデータのソースが記載されています。 Text_funcシートには、間違った場所の改行、余分なスペースまたは単語の間のスペースなし、印刷されていない文字、不適切な大文字、すべての大文字、すべての小文字のテキスト、書式設定されていないデータ値など、データセットに表示されるさまざまな一般的なエラーがあります。 Datagen_Companiesシートには、https://www.generatedata.com/で生成された企業に関する”ダミー”(もっともらしいが、実際ではない)データのセットが含まれています。 Mockaroo_Carsシートは、https://mockaroo.com/で生成された消費者とその住所に関する”ダミー”データセットであり、このデータセットは差し込み印刷セクションに使用されます。 これらの”ダミー”データセットの両方は、教育目的のためにここにアーカイブされています。

以下の図10.1.1は、他のソースからインポートするデータに見られるさまざまな一般的なエラーを含むText_Funcシートを示しています。 CONCATENATE&トリム範囲は、2つのExcel関数をネストすることにより、3行の内容から1行のテキストを作成する方法の例です。 CONCATENATEはそれ自身で3つのセルを1つにマージしますが、それだけではテキストに表示される余分なスペースについては何もしません。 つまり、Excelが単語の間に必要な空白セルを追加するには、「」を追加する必要があります。

図10.1.1Text_Funcシートに、元のコンテンツとクリーニング済みのコンテンツが並んでいます。

列A:Cの左、右、中の範囲は、データを処理するために使用される別の一般的な関数セットを示しています。 多くの場合、データは大きな塊でマージされます。 Data>Text to Columns機能を区切り文字で使用して、データを分割する場所をExcelに指示することができますが、LEFT、RIGHT、MID関数は、文字列のどこに抽出するテキストま B9とB10は部品番号を示していますMID関数を使用しての部分をc9、C10に抽出できます。 B12とB13は、右と左の関数を使用しての部分をc12、C13に抽出できるコース番号を示しています。

図10.1.2は、列Aの式を示しています:C CONCATENATEとTRIMの組み合わせを説明するために、さまざまな方法でネストされており、LEFT、RIGHT、MIDの構文でテキストを表示する方法を出力するための最適な構成を見つけます下に表示されます。

図10.1.2列A:Cに対して”式を表示”オプションを有効にしたText_Funcシート

図10.1.3以下に、F:H列の式を示し、FINDとSEARCHの違いを説明し、それらの範囲のデータの内容を生成するために使用されるUPPER、LOWER、PROPER、VALUE、およびTEXT関数を示します。

図10.1.3列F:Hに対して「式を表示」オプションを有効にしたText_Func

Excelの一般的なテキスト関数のリストについては、Microsoftの公式サイトを参照してください。

比較的単純な数式とネストされた代替案を使用して達成できるさまざまなタスクを観察します。

“注:テキスト機能を使用して書式設定を変更できますが、それが唯一の方法ではありません。 数式なしで書式を変更するには、CTRL+1(またはMacのコマンドボタンアイコン” class=”alignleft”>+1のイメージ)を押してから、セルの書式設定>数値ダイアログ(ソース)。

データを消去するには、これらの関数の使用方法を検討してください。 私たちは、章の練習でこれらの関数と区切り文字の使用を再検討します。

帰属

Emese Felvégiによる章。 CC BY-NC-SA3.0. https://www.generatedata.com/とhttps://mockaroo.comからのダミーデータセットは、教育目的のためにここにアーカイブされています。

メディア属性

  • Figure_10-1
  • Figure_10-2
  • Figure_10-3

コメントを残す

メールアドレスが公開されることはありません。

lg