重複データの削除手順
- 列を選択
- 「データ」タブ
- リボンの「重複の削除」
- 「選択範囲を拡張する」
- 「重複の削除」(これを押してもまだ実行されないです)
- 一旦「すべて選択解除」
- 対象の列の名前のチェックボックスを選択
- 「OK」を押すと削除が実行される
- 「A会社」が2つあった場合、最初の「A会社のデータ横1行が残る」
必ずコピー
アウトプットしたデータファイルを必ずコピーしてオリジナルを壊さないようにすること。意外と夢中になってくると忘れがち。あとで悲惨な目に遭うわないようにすること。
データテーブル(エクセル表)の構成確認
もちろん闇雲に何でも削除ってことは100%ないので、まずを敵を知る必要があります。
目の前にあるエクセル表(のようなもの)が何を示しているのか、しばらくにらめっこの時間が始まります。
スレンダー化
そして欲しいデータが入っているカラム(列・フィールドとも言う)以外のカラムを削除する。横に拡がっているファットな状態をスリム化しましょう。ここらへんからはエクセルの基本操作とでも言いましょうか?そういうの覚えていると仕事がめっちゃ速くなります。それらは「そんなの知ってるよ!」と言われるような基本的なエクセル操作です。
例えば…
ctrl+矢印でデータが空白のセルの直前までワープできます。そしてshiftキーを足して、ctrl+shift+矢印で選択状態にすることができます。いらないカラムが60個あるならドラッグしなくても、列のアルファベットをクリックして、ctrl+shift+→で一気に削除対象として選択できます。または飛び飛びで選択するなら、2つ目以降のアルファベットをctrlを押しながらクリックして複数選択します。飛び飛びではなくつながっているなら、2つ目以降をshiftを押しながらクリックすると、クリックとクリックの間のアルファベットがすべて選択状態になります。
スレンダー化にはここらへんが使えるのではないでしょうか?
覚えたいエクセルの基本操作はたぶん200個くらいあります。でもそれだけで劇的にエクセル加工、整理、仕事が速くなるなら、独立してもいけそうなきがする~(天津木村)
重複削除
縦に長い表の重複データをカットします。もちろん目的にもよります。
例えば、A会社がいろんな種類の果物を買っていて、システム上、一種類ごとにレコード(横1行のデータ集合のこと)が作成される場合は、A会社というセルがたくさんあることになります。
目的が「何を買ったかはどうでもいいから、どんな会社がいるのか?」を知りたい場合は、「A会社」という複数の重複している行を削除し、「A会社」をひとつ残します。
比較データの抽出完了
上記を作業をおこなって、やっとわかりやすいシンプルなエクセルが完成します。
これらの作業は、コマンドプロンプトかRubyなどのプログラミング言語を使用すれば、作業をパソコンに丸投げすることができます。それはそれは素晴らしいことです。アホみたくカチカチ、カタカタしなくていいのですから。私達はしくみを作ることに集中したほうが良さそうです。
「最初の一回(これが大変)」の処理の流れをエクセルで実際に操作しながら、ロジックを組み立てるのはとても重要です。
定期的に作業するファイルがあるのであれば、それをとことん確認し、作業の流れをコマンドプロンプトやプログラミング言語に落とすことが私達にはとても重要です。
謎なこと
どういうわけか「システム(ソフトウェア)」というものを使った場合、エクスポートしたCSVファイルなどのファイルには、見る項目はいくつかだけなのに、何十個も…場合によっては何百ものカラムを要しているデータテーブルがある。意図があるのか、意外とシステムエンジニアやプログラマーの質が悪ければ、「使うユーザーにはわからないんだから動けばいいや!」とどっかから持ってきたものや雛形にしてシステムを作成することもある。私も開発者の端くれなのでそこらへんの裏はたまに目にする。
余談。ノイズが多すぎる。
ワンピースのニコ・ロビンの想いと同じである。「ただ歴史を知りたいだけなのに、私には敵が多すぎる」みたいな感じでしたか?