2009/03/18

Recent entries from same category

  1. VimConf 2023 Tiny に参加しました
  2. Vim で Go 言語を書くために行った引越し作業 2020年度版
  3. Vim をモダンな IDE に変える LSP の設定
  4. ぼくがかんがえたさいきょうの Vim のこうせい 2019年 年末版
  5. VimConf 2019 を終えて

vimはファイルを開く際、iconvを使用してfileencodingsの順に変換を試し、正しく変換出来た物をfileencodingとして使用する仕組みになっています。
つまり化けたファイルだと、どのfileencodingsにもマッチせずencodingで指定されたエンコーディングでファイルが開かれステータス行に「変換失敗」と表示される事になります。
しかしながらそのファイルのエンコーディングが分かっている場合もあります。vimでは++encオプションを指定する事で指定のfileencodingでファイルを開く事が出来ます。
:e ++enc=utf-8 foo.txt
この場合、vimはiconvで変換出来なかった文字を?という文字で置き換えてしまいます。
# echo あいうえお | iconv -f char -t utf-8 > utf8.txt
# echo あいうえお | iconv -f char -t cp932 > sjis.txt
# cat utf8.txt sjis.txt > bad.txt
# vim
cp932の場合は文字集合の区画が広い為、vimではutf-8が構成するバイト列をcp932の範囲内として開いてしまいます。 :e ++enc=cp932 bad.txt
縺ゅ>縺?縺医♀
あいうえお
またutf-8の場合はcp932の区画は範囲外になります。つまり :e ++enc=utf-8 bad.txt
あいうえお
??????????
この様に?に変換されてしまう事になります。ステータス行には何行目で変換が失敗したかを警告するメッセージも表示されますが、元のテキストは失われます。
こういったファイルを開くのにフィルタを使用する人もいるかもしれません。
:%!nkf -Ws
これでも良いのですが、nkfが変換出来ない文字は削られてしまいます。
実はvimの:eコマンドには++badオプションという物があり、この?の挙動を変更出来る様になっています。
                                                                *++bad*
The argument of "++bad=" specifies what happens with characters that can't be
converted and illegal bytes.  It can be one of three things:
    ++bad=X      A single-byte character that replaces each bad character.
    ++bad=keep   Keep bad characters without conversion.  Note that this may
                 result in illegal bytes in your text!
    ++bad=drop   Remove the bad characters.

The default is like "++bad=?": Replace each bad character with a question
mark.
例えば++badオプションに%を指定すると :e ++enc=utf-8 bad.txt
あいうえお
%%%%%%%%%%
となるのです。現在の所1文字の場合はその文字で置き換える様になっています。また++badオプションにkeepを指定すると、何も変換せずに開いてくれます。
:e ++enc=utf-8 ++bad=keep bad.txt
あいうえお
<82><a0><82><a2><82><a4><82><a8><82><a6>
さらにdropを指定する事で不正な文字を削除してファイルを開く事も出来ます。
あいうえお

vimでファイルが開けなくなってしまった方、一度++badオプションを試してみては如何でしょうか?
Posted at by | Edit