fcamel's blog: Parse invalid HTML by Hpricot

2007年4月10日星期二

Parse invalid HTML by Hpricot

XML parser滿天飛，但能處理不符格式的HTML parser沒幾個，Ruby Cookbook裡有一些說明，用內建的REXML parsing XML，可以用DOM，也可以用SAX，看Cookbook或google一下就有範例code。

Cookbook的《Recipe 11.5. Parsing Invalid Markup》介紹幾個lib，試用後都失敗，無法處理我遇到的invalid HTML，到del.icio.us找了一下，一堆人推Hpricot ，試用後驚為天人，處理速度快又正確，支援XPath或CSS Path的方式索引HTML，可以處理XML和HTML，真是太威了。

以下為官網的說明：

安裝說明
parse HTML
parse XML

若要觀察XPath或CSS Path的話，可以用firefox的extension：Web Developer ，裝好後按個Ctrl+Shift+Y，把滑鼠移到網頁上會看到該塊的CSS Path。

2007-04-11 Updated

REXML Tutorial

fcamel's blog

2007年4月10日星期二

Parse invalid HTML by Hpricot

2007-04-11 Updated

沒有留言:

張貼留言

2007年4月10日 星期二

Parse invalid HTML by Hpricot

2007-04-11 Updated

沒有留言:

張貼留言

2007年4月10日星期二