LDRFullFeed SITEINFO for developer works 決定版

IBM Developer Works って日本語のヤツと英語のヤツがあるのか。

http://twitter.com/taizooo/status/3815553555

そう、日本語版のページと英語版のページが全然構造が違うのでした。日本語版の方が古いのかも。

あ! url の正規表現

http://twitter.com/taizooo/status/3815915985

で、なにも考えずに英語版用のヤツを追加したら日本語版の方が動かなくなってしまったと。で、調べましたよ。否定先読み? まあ、よくわかっとらんね。

(?!regexp) http://www.kt.rim.or.jp/~kbk/regex/regex.html#NEGATIVELOOKAHEAD

http://twitter.com/taizooo/status/3816241102

これで気がつきました。

url 	^http://[^.]+\.g\.hatena.ne\.jp/(?!keyword)
xpath 	id("days")/div[@class="day"]/div[@class="body"]
type 	GENERAL
http://wedata.net/items/954

ということで url に jp という文字を含むか含まないかというので分離。

url 	^https?://www\.ibm\.com/developerworks/(?!jp/).+/library/
xpath 	id("ibm-content-main")/div[@class="ibm-container"]
type 	IND
http://wedata.net/items/29695
url 	^https?://www\.ibm\.com/developerworks/jp/.+/library/
xpath 	//table[@class="no-print"][1]/following-sibling::*[not(@class="no-print")]
type 	INDIVIDUAL
http://wedata.net/items/2452