先日 Google リアルタイム検索が廃止されたので、Yahooリアルタイム検索に
  乗り換えたのですが、こちらは使い勝手が期待外。
  ってことで、個人で Twitter API 使えないか調べた所、制限つきの API は
  利用できるようです。
  で早速 VC2005 で作ってみた。 
    趣味に限り「車輪の再発明」が好きなので Json の解析エンジンを実装したのですが、
  C# や .net を使ったほうが開発速度は速いな…
  Windows のコマンドライン上でひたすら twitter のコメントが流れる様は
  中々面白い感じがしました。
   さて filter API を使ってみた感想。
  ・検索キーワード track に日本語が指定できないかも。
      ( SJIS,EUC,UTF-8,UTF16 一応すべてNG )
  ・緯度経度の locations が例題のサンフランシスコ、ニューヨーク以外
  うまくいかない。 
  | For example locations=-122.75,36.8,-121.75,37.8 would track tweets from the San Francisco area. Multiple bounding boxes may be specified by concatenating latitude/longitude pairs, for example: locations=-122.75,36.8,-121.75,37.8,-74,40,-73,41 would track tweets from San Francisco and New York City. | 
こちらのサイトを参考に、日本を大雑把に囲んだのですがダメだった。
  日本のみをフィルタリングするなら、タイムゾーンでフィルタリングすれば
  一応可能。lang での判定も出来ますね。特定のキーワードに関しても、
  絞込みは自分で if() すれば可能。
  と書いてますが、無料ユーザーでは「特定の日本語キーワードでの検索」は
  難しいかもしれませn…と思い検証したら日本語いけた。UTF-8 で。
  暑 というキーワードで検索かけたら、数分後引っかかった。 
    ただし 暑い には引っかからず、ユーザーが 暑 という単語のみ入力したら
  一致するっぽい。
  予想では「暑かった。今日は」には引っかからず「暑 かった。今日は」には
  引っかかる。
  マルチバイト文字の場合、スペースや改行、記号が来るまでが1ワードとして
  扱われてる可能性が高い。
  ということで 。 のみで検索してみた。
    ほぼ確定。
  単語が完全一致した tweet は拾われています。
  どこのサイトも日本語は全くダメと記載していますが、twitter streaming api の
  filter は、UTF-8 で日本語指定はできるみたい。
  但し「部分一致で引っかからない、単語の定義が変」なのもあり使い勝手は最悪。
  よって ほぼ使い物にならない が結論です。sample API から自力で
  フィルタリングする方が現実的か。
   
 
 
 
 
 



 


 
   











0 コメント:
コメントを投稿
不具合のある方はこちらから