2010年4月27日火曜日

日本語が含まれるかどうかの判定

TwitterのストリーミングAPIから日本語が使われているTweetだけ取得したいので,
日本語マッチングをやってみた.
Matcher m = Pattern.compile("([\\p{InHiragana}\\p{InKatakana}])").matcher(text);
boolean isJapanese = m.find();
\p{InCJKUnifiedIdeographs}で漢字もとれるけど,漢字オンリーのつぶやきは中国系の人の物が多いみたいなので,ひらがなかカタカナが含まれるもののみにした.

0 件のコメント: