LDRFullFeed SITEINFO for developer works 決定版
IBM Developer Works って日本語のヤツと英語のヤツがあるのか。
http://twitter.com/taizooo/status/3815553555
そう、日本語版のページと英語版のページが全然構造が違うのでした。日本語版の方が古いのかも。
あ! url の正規表現が
http://twitter.com/taizooo/status/3815915985
で、なにも考えずに英語版用のヤツを追加したら日本語版の方が動かなくなってしまったと。で、調べましたよ。否定先読み? まあ、よくわかっとらんね。
(?!regexp) http://www.kt.rim.or.jp/~kbk/regex/regex.html#NEGATIVELOOKAHEAD
http://twitter.com/taizooo/status/3816241102
これで気がつきました。
url ^http://[^.]+\.g\.hatena.ne\.jp/(?!keyword) xpath id("days")/div[@class="day"]/div[@class="body"] type GENERALhttp://wedata.net/items/954
ということで url に jp という文字を含むか含まないかというので分離。
url ^https?://www\.ibm\.com/developerworks/(?!jp/).+/library/ xpath id("ibm-content-main")/div[@class="ibm-container"] type INDhttp://wedata.net/items/29695
url ^https?://www\.ibm\.com/developerworks/jp/.+/library/ xpath //table[@class="no-print"][1]/following-sibling::*[not(@class="no-print")] type INDIVIDUALhttp://wedata.net/items/2452