unix - テキスト処理: フィルタコマンド

代表的なフィルタコマンド

最初、または最後の数行を表示

最小の行をskipして表示したい場合

tail -n +<N+1> <file>

tail -n 6 test.txt

行単位でテキストを並べ替える。デフォルトではASCIIコード順なので大文字->小文字の順でソートされる。

-k: フィールド項目でのソートスペース区切りのテキストの場合 (lsやpsの標準出力など) は-kでフィールド番号を指定して、そのフィールド項目でsortできるので便利。
-n: 数字順のソート(-n) -oオプションで文字列を数値と皆して並べ替える。zero paddingされてない数字でも大丈夫。
-r: 逆順にソート(-r)

重複行を取り除く。 同じ内容の行が連続して重複する場合のみ有効なので注意 非連続な重複行を対象にする場合はsortしてから。

入力行の特定フィールドの項目を切り出して出力する。

cut -d <区切り文字> -f <フィールド番号> [<ファイル名>]

<区切り文字>は、Defaultはタブ区切り <フィールド番号>は1,4,6のようにカンマ区切りで複数指定が可能。

1文字単位の文字の置換。および、削除また、フィルタコマンドとして設計されているので、ファイルを指定して読み込むのではないのに注意。

<ファイル名>の小文字を大文字にする。a-zなどの指定可。

cat <ファイル名> | tr a-z A-Z

下記例のように、改行コードを取り除きたい場合によく使われる。

cat <ファイル名> | tr  -d "\n"