2007年4月10日 星期二

Parse invalid HTML by Hpricot

XML parser滿天飛,但能處理不符格式的HTML parser沒幾個,Ruby Cookbook裡有一些說明,用內建的REXML parsing XML,可以用DOM,也可以用SAX,看Cookbook或google一下就有範例code。

Cookbook的《Recipe 11.5. Parsing Invalid Markup》介紹幾個lib,試用後都失敗,無法處理我遇到的invalid HTML,到del.icio.us找了一下,一堆人推Hpricot ,試用後驚為天人,處理速度快又正確,支援XPath或CSS Path的方式索引HTML,可以處理XML和HTML,真是太威了。

以下為官網的說明:

若要觀察XPath或CSS Path的話,可以用firefox的extension:Web Developer ,裝好後按個Ctrl+Shift+Y,把滑鼠移到網頁上會看到該塊的CSS Path。

2007-04-11 Updated

REXML Tutorial

沒有留言:

張貼留言