日本語マッチングをやってみた.
Matcher m = Pattern.compile("([\\p{InHiragana}\\p{InKatakana}])").matcher(text); boolean isJapanese = m.find();\p{InCJKUnifiedIdeographs}で漢字もとれるけど,漢字オンリーのつぶやきは中国系の人の物が多いみたいなので,ひらがなかカタカナが含まれるもののみにした.
ソーシャルメディアとか人狼とか計算社会科学を研究している研究者による適当なブログ.
Matcher m = Pattern.compile("([\\p{InHiragana}\\p{InKatakana}])").matcher(text); boolean isJapanese = m.find();\p{InCJKUnifiedIdeographs}で漢字もとれるけど,漢字オンリーのつぶやきは中国系の人の物が多いみたいなので,ひらがなかカタカナが含まれるもののみにした.
0 件のコメント:
コメントを投稿