2007年4月14日 星期六

MSRA推出Benchmark Datasets for Learning to Rank(LETOR)

剛才收到老師轉寄給lab的信,Microsoft Research Asia推出LETOR。研究ranking的最大問題在於沒有共通測量標準,於是某學者參考了99個model後提出了第100個model,但沒有人知道這100個model差在那,適用在什麼樣的資料。

MSRA推出的LETOR想建立一個通用標準,幫助評量各種model。在machine learning裡,讀入一堆traninig data改善model內部結構稱為learning,machine learning的做法多為自訂一個model,透過learning建出model後,就能拿來應用,比方ranking web pages(PageRank不是machine learning)。

官網也提到MSRA會在SIGIR’2007用LETOR辦個workshop,看起來很有意思,也有助於MSRA建立LETOR的地位。目前來看,MS Research的東西看起來都挺有趣的,只要在十年內能弄出強大的新功能,MS又能站穩它們的地位吧。

另外那篇公告是放在users/tyliu/目錄下,看了一下tyliu的介紹,真是強的亂七八糟,SIGIR’2007上三篇!中文介紹上寫他是清華大學電工系畢業,先做multimedia再轉information retrieval,完全是不同等級的人。看來若想做學術研究,當教授不如進MS/Yahoo/Google Research吧。

額外想到的事,ranking的特徵是order,clustering的關鍵是定義相似度,可以看成比order弱的屬性。若ranking的標準成立了,是否能帶出clustering的標準呢?比方以ranking相近表示相似度,再看怎麼把ranking的benchmark轉過去。

沒有留言:

張貼留言