yahoo news上のautopagerize
yahoo news上のautopagerizeの動作がすげえ
http://twitter.com/negipo/status/3887819132
これだ かっこいい http://wedata.net/items/29667
http://twitter.com/negipo/status/3887836511
Item Details: Yahoo!ニュース・トピックス [記事全文]
url ^http://(?:dailynews|headlines)\.yahoo\.co\.jp/(?:fc|hl) nextLink id("detailHeadline")/a[contains(text(),"[記事全文]")] pageElement id("detailHeadline")|id("ynDetail") exampleUrl http://dailynews.yahoo.co.jp/fc/domestic/tax_evasion/ insertBefore id("detailHeadline")/a[contains(text(),"[記事全文]")]/following-sibling::brhttp://wedata.net/items/29667?rev=38486
たしかに今まで考えたことが無いかんじだった。insertBeforeがポイントか。
Yahoo!ニュースのトピックスページは時間経過に応じて、ヘッドラインが表示されたりニュースが表示されたりするみたい。なのでもうちょっと汎用性を高めて
ちょっと改造した [記事全文]っていうリンクがあれば展開するように。
http://twitter.com/taizooo/status/3890590994
Item Details: Yahoo!ニュース・トピックス [記事全文]
url ^http://(?:dailynews|headlines)\.yahoo\.co\.jp/(?:fc|hl) nextLink //a[contains(text(),"記事全文")] pageElement id("detailHeadline")|id("detailNewsOpen")|id("ynDetail") exampleUrl http://dailynews.yahoo.co.jp/fc/domestic/tax_evasion/ insertBefore //a[contains(text(),"記事全文")]/following-sibling::*|//a[contains(text(),"記事全文")]/../following-sibling::*|//a[contains(text(),"記事全文")]/../../following-sibling::*http://wedata.net/items/29667?rev=38638
ミソは insertBefore で nextLink の次の要素を探してみてる。
pageElement のid("ynDetail") 以外はダミーみたいなもんなんだけど、該当ページ上に、一致する pageElement が無いと AutoPagerize が起動しないから必須。
ここのページのここらあたりのページが対象。
こんなページもあった。