XML parser滿天飛,但能處理不符格式的HTML parser沒幾個,Ruby Cookbook裡有一些說明,用內建的REXML parsing XML,可以用DOM,也可以用SAX,看Cookbook或google一下就有範例code。
Cookbook的《Recipe 11.5. Parsing Invalid Markup》介紹幾個lib,試用後都失敗,無法處理我遇到的invalid HTML,到del.icio.us找了一下,一堆人推Hpricot ,試用後驚為天人,處理速度快又正確,支援XPath或CSS Path的方式索引HTML,可以處理XML和HTML,真是太威了。
以下為官網的說明:
若要觀察XPath或CSS Path的話,可以用firefox的extension:Web Developer ,裝好後按個Ctrl+Shift+Y,把滑鼠移到網頁上會看到該塊的CSS Path。
沒有留言:
張貼留言