第四位講者是沈向洋博士,職稱是微軟亞洲研究院院長,以及洪小文博士,副院長。沈向洋13歲上大學,天才型的人物,從來沒看過有人能講話如此快而條理分明,不到半小時的演講就能感受到沈向洋的個人魅力,google一下發現許多有趣的新聞,像是”姚期智vs.沈向洋:天才要有成就 也須發憤努力”,”沈向洋的絕招”。
Research 2.0分成兩個主題:
- web as a research platform
- deployment driven research
中心思想是web彙集大量的使用者提供巨量資料分析,而帶來新的研究方向,值得慶幸的是,兩個主題都用中文。
Web as a Research Platform
比方我們有大量的圖形資料庫(ex: flickr),記錄著圖片以及圖的描述或標題,就能透過keyword搜尋或圖形比對找出新的特徵,像是一張海邊風景,裡面可能包含”落日”、”海灘”、”大海”等不同特徵,retrievr是個類似的例子,但只有做以圖找圖,沒用到tag的資訊,不知道Microsoft做到什麼程度。講者有提到一個有趣的應用,用手機照觀光景點,將照片上傳比對,可以找出該景點的旅遊介紹。或是程式的bug report system,透過大量的回報,可以比對出類似的bug,是因為OS不同、還是安裝的軟體衝突。Q&A時有人問大家都不回報的話,Microsoft要怎麼辦?講者回答目前回報狀況良好,不用擔心,看來不回報的是我們這類人吧。
為了方便從web取資料,Microsoft自己弄了個WebStudio,目的是方便取出想要的資料。就像是預先收集好整個Internet形成一個small world在Microsoft裡,再用自訂的infrastructure組織,提供API讓研究者能用script language取出想用的資料,比方想專做台灣新聞的data mining(雖然可能挖不出資訊),就寫script從small world裡取出台灣新聞的資料,不用自己寫spider去crawl,省去crawl這累人又沒效率的苦差事,研究員能更專注在上層的思考。
UIUC也做了類似的事,一個月前UIUC的Prof. Chen-Chuan Chang來交大演講,說他們做Data Mining但沒資料可玩,於是先搞了個small world和設計取用的API(大概是指MetaQuerier),弄這個small world投了一堆paper都上top conference,可惜沒聽到Prof. Chen-Chuan Chang的演講。大家也許會質疑,為什麼不和Google拿?Google一開放這種服務,搞small world的就得回家吃自己了。Microsoft和Google在競爭,做來情有可原;UIUC好像有和Google要過資料,但Google沒給,聽朋友講的,大家自行參考。
Deployment Driven Research
提倡另一種做研究的方式,不用自己辛苦的把研究做得很完備再發表,先丟出alpha或beta版,看大家的反應再做改進比較有效率,反正研究本來就沒有完成版。這個想法不錯,缺點是浪費大家的時間,大家不見得會理你,Deployment Driven Research前提是東西要夠新穎,夠吸引人,或像Microsoft這樣,bug一堆大家還是愛用(包括我),自然有人來回報錯誤(不包括我)。講者舉了統計使用率來改善使用者介面的例子,Office 2007有偵測功能的使用率,發現”select all”使用頻率過低,才注意到2007的”select all”位置不明顯,修正按鈕位置後,”select all”的使用率就回歸正常了。
另外提到微軟對聯,藉由使用者的回饋來改善對聯功能,運用工人智慧改進人工智慧的好例子!微軟對聯要用簡體字,可以用繁轉簡網站或Word轉好再貼上,我試了一下,上聯是”飛天駱駝”,下聯看來怪怪的,選了一個最中意的”入戶鴻雁”,還可以下橫批,結果如下:
雖然怪怪的,不過我很中意。另外試了”飛天駱駝遨遊四海”,結果選了”登月鴻雁漫步乾坤”,橫批竟然是”春安夏泰”、”大家歡歌”,一些匪夷所思的句子。
值得注意的是,用大量測試改善系統是很好的想法,去除回饋收集的問題,實行上仍有很大困難。以微軟對聯來說,必須要定義”好詞”、”相似”、”相反”這些概念,並能把使用者回饋加入權重改變,unsupervised feedback agent在AI裡是很難的系統,設計不當還會把好的結果調爛了。有興趣了解”像不像”的運用,可以玩一下我寫的小程式”猜數字特別版(Bull & Cow)”(Java applet),並有附source code,如果一開始亂答的話,後來就不太可能猜中了。
沒有留言:
張貼留言