auto_efによる文字コード自動判別

2007.03.02 Author: hoge

Solaris10ネタです。

文字コードを自動判別する新機能が追加されました。

「auto_ef」という新機能としてSolaris10から追加されました。
「auto_ef」 は、可能性の高い文字コードを判別して、
出力することができるという優れものです。


Ex) 対象ファイル = testfile.txt
% /usr/bin/auto_ef testfile.txt
eucJP

上記の出力結果では"testfile.txt"が、
eucJP である可能性が非常に高いという結果を表します。
表示エンコーディングは、Solarisの"iconv"で利用可能な、
エンコーディングとなります。

"-a" オプションを指定すると、可能性があると判定された、
エンコーディングがスコアレポートと共に表示されます。


Ex)対象ファイル = testfile.txt
% /usr/bin/auto_ef testfile.txt
eucJP 0.94
zh_CN.euc 0.04
ko_KR.euc 0.02

eucJP である確率が94%、zh_CN.euc である確率は4%、
ko_KR.euc である確率は2%であると判定されています。

又、-l を指定することで、判別の精度をより高くする事も出来ます。
レベルは、"0"から"3"まであり、 "0"が最も精度が低く、
レベルが上がるに従って判定精度が上がります。
但し、レベルの上昇に伴い処理速度は遅くなります。


Ex)レベル"1"で判定
% /usr/bin/auto_ef -a -l 1 testfile.txt
eucJP 0.94
zh_CN.euc 0.04
ko_KR.euc 0.02