解説
BOARD
BOARD = "http://mamono.2ch.net/livemarket1/subject.txt"
これは2chの市況1から一覧を取得するためのURLです。
STOCK_CODE
市況1では株価コードをタイトルにつける習慣がありますので、それを利用します。ここに株価コードを書くと関連のスレッドを取得します。値動きの大きそうな銘柄を取得すれば、ニュースを拾いやすいかと思います。
NEWS_SITE
ここではロイターだけ取得していますが、増やしていくことができます。このURLを含むものだけをニュースと認めることにしないと、変なものまで拾いかねないし、また解析ルーチンの分岐にも使います。
煩雑なので挫折しましたが、Reuters()関数にURLを与えると解析して要約を作るつもりが、面倒なのでタイトルだけ切り出すことにしました。なおpreタグの中でtitleが化けるので、大文字に直しています。
NEWS_URL
かき集めたURLをガシガシ追加していきます。
class NewsHistory
同じニュースを複数回拾わないための簡易ルーチンです。
def HTTPGet(url)
HTTPダウンロードのルーチンです。今ならHpricotとWWW::Mechanizeを使うと思います。
今ならというのは、これはだいぶ前に作ったのですが、ブログに自動で載せるXMLRPCが上手く動かないので放置していたのです。
def crawl( name )
2chからdatファイルをゴリゴリ拾います。あんまりやるとバーボンハウス行きになるので、適当にsleepさせたほうがいいでしょう。
HTTPのRangeを使って既読は読まないようにしています。
def deleteDat(datArray)
もうDAT落ちしたスレッドはHDDから消します。
実行結果例
1223352577.dat 1223352577.dat<>【7201】日産自動車86【魅惑の500桁】 (404) 1223386159.dat 1223386159.dat<>【8411】みずほFG実況スレpart479【みずほFG】 (956) 1223441086.dat 1223441086.dat<>【8058】三菱商事46【商社必衰の理】 (83) 1223305809.dat 1223305809.dat<>【8306 MUFG】 三菱UFJ part89 【セリクラ!】 (975) 1223448527.dat 1223448527.dat<>【8306 MUFG】 三菱UFJ part91 【奈落】 (13) 1223443117.dat 1223443117.dat<>【7974】任天堂197【コツンと鳴らそ WiiMusic】 (53) 1222521984.dat 1222521984.dat<>【8001/8002/8031】総合商社2【伊藤丸紅三井物産】 (564) 1222499315.dat 1222499315.dat<>【8316】 三井住友FG 【SMFG】 (831) 1223254670.dat 1223254670.dat<>【7203】トヨタグループ104【車離れ、大人株離れ】 (743) 1223337060.dat 1223337060.dat<>【6758】ソニー 53【SONY】 (332) 1223451572.dat 1223451572.dat<>【9984】ソフトバンク288【もうすぐ3ケタ】 (9) 1223081066.dat 1223081066.dat<>【9020,9021,9022】JR総合15両目【東,西,東海】 (126) 1222746610.dat 1222746610.dat<>【7267】ホンダ【急転】 (291) 1223437807.dat 1223437807.dat<>【5411】JFE Part15【まさかの1000円台も?】 (26) 1222055756.dat 1222055756.dat<>【3436】SUMCO33【糞株】 (205) 1223033158.dat 1223033158.dat<>【9984】ソフトバンク287【ストレスで禿るな株主】 (1001) 1223263529.dat 1223263529.dat<>【7974】任天堂196【芸術の秋、WiiMusicの秋】 (1001) 1223102806.dat 1223102806.dat<>【8058】三菱商事45【なにこれ安い】 (1001) 1212110589.dat 1212110589.dat<>【9433】KDDI【そろそろ天井?】 (756) 1222134989.dat 1222134989.dat<>【5411】JFE Part14【低PER売り残多すぎw】 (1001) 1221714659.dat 1221714659.dat<>【9202.9205】全日空/日本航空【ANA/JAL】 (340) 1218065363.dat 1218065363.dat<>【8411】みずほヒナンシャルコマンドー【こいよ】 (349) 1223307110.dat 1223307110.dat<>【8411】みずほFG実況スレpart478【みずほFG】 (1001) 1219116475.dat 1219116475.dat<>【8411】みずほFG実況スレpart449【S高】 (174) Getting http://mamono.2ch.net/livemarket1/dat/1223352577.dat Getting http://mamono.2ch.net/livemarket1/dat/1223386159.dat Getting http://mamono.2ch.net/livemarket1/dat/1223441086.dat Getting http://mamono.2ch.net/livemarket1/dat/1223305809.dat Getting http://mamono.2ch.net/livemarket1/dat/1223448527.dat Getting http://mamono.2ch.net/livemarket1/dat/1223443117.dat Getting http://mamono.2ch.net/livemarket1/dat/1222521984.dat Getting http://mamono.2ch.net/livemarket1/dat/1222499315.dat Getting http://mamono.2ch.net/livemarket1/dat/1223254670.dat Getting http://mamono.2ch.net/livemarket1/dat/1223337060.dat Getting http://mamono.2ch.net/livemarket1/dat/1223451572.dat Getting http://mamono.2ch.net/livemarket1/dat/1223081066.dat Getting http://mamono.2ch.net/livemarket1/dat/1222746610.dat Getting http://mamono.2ch.net/livemarket1/dat/1223437807.dat Getting http://mamono.2ch.net/livemarket1/dat/1222055756.dat Getting http://mamono.2ch.net/livemarket1/dat/1223033158.dat Getting http://mamono.2ch.net/livemarket1/dat/1223263529.dat Getting http://mamono.2ch.net/livemarket1/dat/1223102806.dat Getting http://mamono.2ch.net/livemarket1/dat/1212110589.dat Getting http://mamono.2ch.net/livemarket1/dat/1222134989.dat Getting http://mamono.2ch.net/livemarket1/dat/1221714659.dat Getting http://mamono.2ch.net/livemarket1/dat/1218065363.dat Getting http://mamono.2ch.net/livemarket1/dat/1223307110.dat Getting http://mamono.2ch.net/livemarket1/dat/1219116475.dat Write:index.html
- Newer: Adsenseのダメ広告を探す
- Older: ニュース自動収集スクリプト2
Comments:0
Trackback+Pingback:0
- TrackBack URL for this entry
- http://blog.neoneet.jp/2008/10/08/%e3%83%8b%e3%83%a5%e3%83%bc%e3%82%b9%e8%87%aa%e5%8b%95%e5%8f%8e%e9%9b%86%e3%82%b9%e3%82%af%e3%83%aa%e3%83%97%e3%83%883/trackback/
- Listed below are links to weblogs that reference
- ニュース自動収集スクリプト3 from 週刊(月刊?)プレカリアート














