過去の投稿記事 new!
・【画像】漫画でわかる外国人参政権
・東京電力のHPで停電状態が確認できたり(サービス再開!)
・戦国時代 ~ 江戸時代の徳川家康が熱かった
・vaio のバッテリは寿命が短いような気がする
・話題の Western Digital 製 WD20EARS を購入した
・C01LC をビックカメラで買ってきた
・2025年には空中都市が現実化?!
・【動画】わかりやすい「宇宙ひも理論」
・今世紀には「富士山噴火」「東海連動地震」「首都圏直下型地震」か?
・滅びた町、南浜町が Googleストリートビューで見れる

【 amazon 送料無料キャンペーン 】

バックリンクはご自由にどうぞ!     http://mfsocket.blogspot.com/feeds/posts/default?alt=rss リンク集 / ログイン

2011/08/29
Twitter Streaming API の filter を試してみた

 
先日 Google リアルタイム検索が廃止されたので、Yahooリアルタイム検索
乗り換えたのですが、こちらは使い勝手が期待外
 
ってことで、個人で Twitter API 使えないか調べた所、制限つきの API は
利用できるようです。
 
で早速 VC2005 で作ってみた。 
twitter_stream_api
趣味に限り「車輪の再発明」が好きなので Json の解析エンジンを実装したのですが、
C# や .net を使ったほうが開発速度は速いな…
 
 
Windows のコマンドライン上でひたすら twitter のコメントが流れる様は
中々面白い感じがしました。
 
さて filter API を使ってみた感想。
 
・検索キーワード track に日本語が指定できないかも
    ( SJIS,EUC,UTF-8,UTF16 一応すべてNG )
 
・緯度経度の locations が例題のサンフランシスコ、ニューヨーク以外
うまくいかない。 
For example locations=-122.75,36.8,-121.75,37.8 would track tweets from the San Francisco area. Multiple bounding boxes may be specified by concatenating latitude/longitude pairs,
for example: locations=-122.75,36.8,-121.75,37.8,-74,40,-73,41 would track tweets from San Francisco and New York City.
 
こちらのサイトを参考に、日本を大雑把に囲んだのですがダメだった。
 
 
日本のみをフィルタリングするなら、タイムゾーンでフィルタリングすれば
一応可能。lang での判定も出来ますね。特定のキーワードに関しても、
絞込みは自分で if() すれば可能。
  
と書いてますが、無料ユーザーでは「特定の日本語キーワードでの検索」
難しいかもしれませn…と思い検証したら日本語いけた。UTF-8 で。
 
というキーワードで検索かけたら、数分後引っかかった。 
twitter_utf8
ただし 暑い には引っかからず、ユーザーが という単語のみ入力したら
一致するっぽい。
 
予想では「暑かった。今日は」には引っかからず「暑 かった。今日は」には
引っかかる。
 
マルチバイト文字の場合、スペースや改行、記号が来るまでが1ワードして
扱われてる可能性が高い
 
ということで のみで検索してみた。
twitter_utf8_2
 
ほぼ確定。
 
単語が完全一致した tweet は拾われています。
 
どこのサイトも日本語は全くダメと記載していますが、twitter streaming api の
filter は、UTF-8 で日本語指定はできるみたい。
 
但し「部分一致で引っかからない、単語の定義が変」なのもあり使い勝手は最悪。
 
よって ほぼ使い物にならない が結論です。sample API から自力で
フィルタリングする方が現実的か。

0 コメント:

  • コメントには <b>, <strong>, <em>, <i>, <a> など一部の HTML タグを使用できます。