2008年9月30日 星期二

碩士研究生涯回顧 (3)

前回,仗著大學時抵掉四門選修,碩一上我只選了一門課。多出來的時間...又被雜事耗掉了。

當時 Web 2.0 風潮正在快速成長,引起我的興趣,開始試著自己架 wiki 管理知識、架 Blog 寫文章、從 delicious 中找不同的知識。當時覺得 web mining 很有趣,資料容易取得(就 crawl 嘛),又貼近生活,若研究有所發現,樂趣更多。當時已有一大票人發表 Blog 相關 paper,但不知為何,bookmark 相關的 paper 到不多,而我覺得 bookmark 的知識價值很高,於是就選定 delicious 做為奮鬥目標,試著從中找點子。於是碩一上就這麼結束了。

那麼這個只修一門課的學期,我到底在做啥?

OpenHouse 資訊組組長(這網址每年都會變,舊的大概都不會留)、當 DS 助教、帶專題生、在教研所打工、看閒書、思考人生以及寫 Blog,這段時間也是我學生時期事最雜(一堆會和待做小事,還特地找了記事工具)、閒書看最多和Blog 寫最多的時期。這段生活很有意思,不過研究產能只算過得去吧。寒假時先參加一個有趣的英文營隊,兩週就沒了。看看小說,接 case 學 Rails,花一週 Ruby 特訓,就碩一下了。

唔...名為研究生涯回顧,結果這個時期都在做管理和 coding。

2008年9月28日 星期日

碩士研究生涯回顧 (2)

前回,從兩年前的暑假(2006/07)開始,我的研究方向轉為交通相關的 data mining / data management。想想,我覺得解決塞車問題似乎最有趣也最實用,老師也對這很有興趣,之前有專題生做過簡化版問題,於是就朝此方向前進。

CS 領域內,解決塞車的 paper 到沒很多,不過在 Operation Research 和一些不清楚分類的領域裡,有不少相關作品。塞車相關的研究滿有趣的,像有一篇討論塞車有多糟,或從另一角度來看,我們能解決塞車到什麼程度。印象中這篇 paper 估計,最糟的情況下,無管制的行車時間會是有管制的兩倍慢。另外也有看到其它領域如何解決塞車,像倫敦用塞車稅(congestion road tax)的作法很有意思。我個人是認為經濟學(?)的作法比較實際,以價治量是合理且有效的作法。不過反正問題還沒徹底解決,也可以想想自己的做法。

理想的作法是大家都聽政府或某有公信力的單位指示開車,假設 server (central or distributed) 算得夠快,理論上塞車量會降到最低。於是我將問題切成如下三個部份,準備各個擊破:

1. 若我們有部份車子的車速和位置,如何將這些資料轉為表示即時車速的 graph?
2. 若有表示即時車速的 graph,當我們告知駕駛人如何前進時,如何即時更新 graph,以避免大家走同一條,造成一段時間後的新塞車點?
3. 若有表示即時車速的 graph,也知道如何依駕駛人選的路徑來更新它,要如何在極短時間內算出大量不同需求的最短路徑?

當一切規劃差不多後,我發現這問題很難,三個月顯然作不完,但這題目還沒有趣到讓我想和它奮鬥兩年,於是又找老師商量,可不可以換題目啊...。幸好開明的老師又讓我換方向,但要求我帶新的專題生接手做下去,這是個有趣的插曲,待日後分享心得。

隨著我再度更改研究方向,第一個暑假也差不多結束了,即將邁入正式的碩一。這個暑假到沒做太多研究,被一些「外務」耗掉時間,例如:

  • 花了整整一週寫 Wow! Dice War!!
  • 看完十季的 Friends。一開始還有一邊切換無字幕、英文字幕、中 + 英字幕,後來乾脆都用中文字幕了。
  • 摸索 Web 2.0 相關東西,像 Blog、Wiki、Online Bookmark 等,這大概是和研究唯一有關的外務,後來我轉往這方向找研究點子。

另外還有協助將 lab 學長的論文投出去。我滿喜歡這篇的,完整版的內容比較多,可說是讓有的點都做到了,學長想出兩個新方法,一個可快速找到近似解,另一個可找到最佳解,且效率大勝暴力法。實驗結果說明前者的效率大勝後者,且和後者最佳解的誤差極小。後來論文投上了 DASFAA 2007,老師原本希望我去報告,可藉機認識學術研討會,也許可激發我做研究的熱情。不過我覺得自己不是第一作者,熱情不足,若研討會上有人提出討論,我大概也會興致缺缺,這樣似乎不太好。結果最後老師自己衝去,兩三天內來回的樣子,辛苦老師啦。

2008年9月22日 星期一

碩士研究生涯回顧 (1)

大四上申請上研究所後,花了許多心力找老師,當時我不確定自己對什麼最有興趣,最後挑和 AI 稍微相關的 data mining 做為研究方向,結果發展到後來,沒用到太多 AI 的東西,挺多看別人論文時可以嘴炮一下自己懂的 AI 知識(比方說 Simulated annealingA*之類的)。

無視於大學時期 20% 達成率的偉大計畫,升上碩士前,我又給自己定了一個偉大目標:在碩士結束後,要投上三篇好的 Conference,並且至少要有一篇是 ACM 的。雖說做研究不是為了投論文,研究成果也不是要就會順利出來,當時想說,這樣至少畢業時能投上一篇吧?多少能逼自己更用心地體會學術生活,以便日後決定是否要讀博班。結果在老師的協助上,算有三篇第一作者的論文,不過都只是過得去的成果而已,只有一篇和 ACM 差到邊,和以往的計畫一樣,沒 100% 達成,但也差強人意地可接受啦。

這兩年多內,研究方向轉換超大,大致上的轉換流程如下:

  1. sensor network related problems
  2. social network / graph mining
  3. solve the traffic congestion
  4. social bookmark related problems: focus on tags
  5. social bookmark related problems: focus on bookmarks (URLs)
  6. joint clustering with the connected constraint
  7. social bookmark related problems: focus on users

回顧起來,真是亂七八糟啊...

一開始是大四寒假前夕時,指導老師要我看看 sensor network 裡的 multi-path 問題,類似 network routing 問題,印象中目的是在 sensor network 內傳輸資料,並要省 energy、減少 latency,而且不要過渡消耗特定的 sensors,並免沒電就不通了。但我對網路相關的研究興致不大,也不太能接受 sensor network 的研究方式(或說是前提假設),在和老師反映後,老師建議改看看 social network 或是 graph mining。結果看了一篇 graph mining 的 survey paper,和翻了一些書後,感覺太抽象太難懂,當時又對 social network 有些反感,所以也提不起勁做研究。加上大四下修課花不少時間,就這樣不知不覺地進入升碩一的暑假,並且題目換成交通相關的研究。

老師看我一直換題目,開始擔心我會不會耐不住性子做完一個題目,希望我這回試久一點。想想也對,這次我就試比較久,待下回再來細細分曉。

2008年9月15日 星期一

終於畢業了

隨著碩士生涯的結束,我短暫的學術生活也到一段落。

我一直覺得碩士是很難得的機會,一生一次,長時間投入自己感興趣的事,不用在意是否能成為產品、使用者是否覺得好用,只要自己覺得這解這問題有意義,就已足夠。大學生課業繁重;博士生畢業門檻高,做起論文難免會有得失心,相對來說,碩士簡單多了,可以丟掉學界的包袱,放手一摶。當然這一切的前提都是要找到一個肯讓學生放手試的指導老師啦。我當初找老師時就以此點為第一考量,結果也還不錯。回顧做研究的過程,當真是九彎十八拐,之後再來一一回顧這兩年的心得(連關西行在內,欠一堆稿了...)。

碩士時的生活作息也很難忘,由於我沒什麼課,有課大概也沒去上,我大多是在家做正事一兩小時,休息一兩小時,有時則連續做個三五小時不等,週一到週日維持差不多的生活型態,我滿享受這種生活週期,把做正事和休閒的時間切成許多小循環。可惜上班後就難以維持了(除非能在家工作)。對我來說,一天八小時實在是沒效率的做法,依過去經驗,一天只能全神慣注地做六小時,一天四小時比較不會累,剩下的時間只能做些簡單的事。

除生活作息外,和朋友間的互動也很有趣,可惜的是,當初想多了解各實驗室的研究領域,結果沒能達成。一但專心切入自己的題目,訂好一些時程後,就會開始沒止盡的衝刺,而沒心思顧及其它不相干的研究。