東日本大震災が発生してから一ヶ月が経過しようとしています.
そんななか,
Twitter検索の@PENGUINANA_さんのご協力の下,
2011年3月5日から24日までのTwitterでつぶやかれた日本語のTweetのうち2億6688万9069Tweetを入手しました.
含まれているデータには,
・TweetID(1ツイート毎に割り当てられる唯一のID)
・ScreenName(ツイート当時の物)
・Contents(本文)
・Source(ツイート元)
・Time(ツイート時間)
・reply_to(Reply機能を使ったときのリプライ先TweetID)
・reply_to_sc(Replyを受けた人のScreenName)
があります.
2011/4/8追記
各Tweetに含まれるハッシュタグと,はてなキーワードを抽出したメタデータもあります.
また,@User関連のデータも作成予定です.
追記ここまで.
近いうちに公開したいと思いますが,
その前に共同で研究してくださる方を募集します.
ネタとしては,
・情報の信頼性分析
・情報伝播の分析
を考えていますが,これにこだわりません.
一緒に研究しようぜ!という方はメール(ご存じの方)か,Twitter(@toritorix)につぶやくか,このエントリーのコメントでご連絡ください.
あ,ちなみに本件に関して(今のところ)予算はありませんw
青岸
6 年前