[Date Prev][Date Next][Thread Prev][Thread Next][Date Index][Thread Index]

Re: 文字カテゴリーを調べる方法



渡辺です。

On 02 Nov 2000 23:20:35 +0900, Koichi INOUE wrote:
> おお!これですね。
> かなり楽になりました。
> 記号類の分類がちょっと荒いですが、そこだけなんとかすればいいみたいです。
> いじってみます。

お、そこまで調べたのですか。全部食わせて調べたのですか? さすが。

私はとりあえず代表的な文字だけ調べて見ました。

(mapcar 
  '(lambda (x)  (list (char-to-string x) (char-category x))) 
'(?あ ?ぁ ?ア ?I ?; ?。 ?0 ?A ?a ?亜 ?A ?a ?0 ?:))

この結果を元に前のメールを整理すると

文字      Emacsでの文字カテゴリー
あ        Hj|
ぁ        Hj|>
ア        Kj|
ァ        Kj|>
半角ア    k|
0        Aj|
I        Aj|
A        Aj|
a        Aj|
;        j|>
全角空白  j|
マル数字  j| 
亜        Cj|

A         al 
a         al 
0         al 
:         al>
空白      al 

A は、英数字2バイト
H は、ひらがな
K は、カタカナ2バイト
j は、日本語2バイト
k は、カタカナ1バイト
l は、Latin
| は、ここで改行できる文字カテゴリー
> は、行頭禁則文字

r は、日本語ローマ1バイト

半角カナは jカテゴリーに属さないんだ。

半角及び全角英文字が大文字か小文字かはこれだけではわからないですね。
数字とローマ数字も区別できない。英文字と数字もこれでは区別出来ない。
ヒラガナとカタカナの小文字はおそらく">"の有無でわかりますね。