先日 Google リアルタイム検索が廃止されたので、Yahooリアルタイム検索に
乗り換えたのですが、こちらは使い勝手が期待外。
ってことで、個人で Twitter API 使えないか調べた所、制限つきの API は
利用できるようです。
で早速 VC2005 で作ってみた。
趣味に限り「車輪の再発明」が好きなので Json の解析エンジンを実装したのですが、
C# や .net を使ったほうが開発速度は速いな…
Windows のコマンドライン上でひたすら twitter のコメントが流れる様は
中々面白い感じがしました。
さて filter API を使ってみた感想。
・検索キーワード track に日本語が指定できないかも。
( SJIS,EUC,UTF-8,UTF16 一応すべてNG )
・緯度経度の locations が例題のサンフランシスコ、ニューヨーク以外
うまくいかない。
For example locations=-122.75,36.8,-121.75,37.8 would track tweets from the San Francisco area. Multiple bounding boxes may be specified by concatenating latitude/longitude pairs, for example: locations=-122.75,36.8,-121.75,37.8,-74,40,-73,41 would track tweets from San Francisco and New York City. |
こちらのサイトを参考に、日本を大雑把に囲んだのですがダメだった。
日本のみをフィルタリングするなら、タイムゾーンでフィルタリングすれば
一応可能。lang での判定も出来ますね。特定のキーワードに関しても、
絞込みは自分で if() すれば可能。
と書いてますが、無料ユーザーでは「特定の日本語キーワードでの検索」は
難しいかもしれませn…と思い検証したら日本語いけた。UTF-8 で。
暑 というキーワードで検索かけたら、数分後引っかかった。
ただし 暑い には引っかからず、ユーザーが 暑 という単語のみ入力したら
一致するっぽい。
予想では「暑かった。今日は」には引っかからず「暑 かった。今日は」には
引っかかる。
マルチバイト文字の場合、スペースや改行、記号が来るまでが1ワードとして
扱われてる可能性が高い。
ということで 。 のみで検索してみた。
ほぼ確定。
単語が完全一致した tweet は拾われています。
どこのサイトも日本語は全くダメと記載していますが、twitter streaming api の
filter は、UTF-8 で日本語指定はできるみたい。
但し「部分一致で引っかからない、単語の定義が変」なのもあり使い勝手は最悪。
よって ほぼ使い物にならない が結論です。sample API から自力で
フィルタリングする方が現実的か。
0 コメント:
コメントを投稿