Jan 15th, 2010 by Mr. Thursday
Posted By Mr. Thursday
前兩篇分別定義了機器學習的問題,以及數學基礎知識的補充。這一篇終於要正式介紹,SVM問題定義最佳化問題的這一步驟。
首先讓我們回想一下前兩篇使用的例子,把照片分成兩類的這個學習問題。下面這張圖是最後機器看待這個問題的方式:
紅色和藍色的座標軸,分別代表紅色和藍色的強度座標軸。因為現在每張照片只有紅色和藍色強度兩個特徵,所以每張照片依照這兩個特徵,可以在平面上這個「二度空間」,座落在某個座標點上面。除了座落在平面上某個點以外,在機器學習的訓練階段,每個學習範例,除了本身特徵讓自己座落在空間裡面某個地方以外,還有正確答案的標記,像是在照片分類問題裡面,要分成有橘子和沒有橘子兩類,在上圖中,圈圈代表那一張照片裡面有橘子,叉叉代表那一張範例照片裡面,沒有橘子。
當每張照片都在特徵 (feature)空間裡面找到一個地方以後,範例照片也依照正確答案標記圈圈叉叉以後,在機器訓練階段,未知的東西,就是要求出一條直線,或是在高維度空間裡面,一個超平面(hyper-plane),這條直線會當成機器在訓練階段求出來的模型 (model),之後在機器預測階段,會拿來預測特徵空間裡面新加進來的照片,可是這個時候沒有圈圈叉叉,必須要依靠學習出來的直線,在直線右上方預測為有橘子 (也就是預測是圈圈照片的一份子),在直線左下方,就預測為沒有橘子 (也就是預測為是叉叉照片的一份子)。
那麼現在在訓練階段,機器有每張範例照片的座標點,也有目標要學習出一條直線當作日後預測的模型 (model),那這個目標和範例們,要怎樣子化成最佳化問題(optimization problem),也就是把目標化成數學的「目標式」(goal),範例帶來的條件限制,化成數學的「限制式」(constraint),請看以下說明。
閱讀全文 »
Tags: optimization , SVM , 最佳化
Posted in AI , Machine Learning | 2 Comments »
Jan 11th, 2010 by Mr. Thursday
Posted By Mr. Thursday
在SVM之旅(1) - 問題定義篇 裡面,把機器學習怎樣子提出問題和解決問題的想法,稍微介紹了一下,簡單地說就是有已知,有未知,在訓練階段想要經由範例所提供的已知和未知的正確對應,學習出一個模型。在我們舉的例子裡面,學到的模型是用平面上的一條直線來表示,而這條直線在應用和預測的階段,就會拿來預測沒有正確答案的未知的東西。
這篇文章則是再進入第二個景點,也就是SVM問題定義之前,想要多作一些補充說明,因為SVM問題正式的定義,無可避免地一定會使用到數學符號,然而有些讀者可能對SVM有興趣,可是大部分數學背景已經忘的差不多了,因此這篇文章希望像是鐵路局週末加開的列車一般,讓數學快忘記的讀者,可以裝滿彈藥,後面的文章也就能夠勝任有餘,對數學沒有恐懼感,反而覺得親切囉!
本篇文章大致會介紹下面幾點:(1) 將上次問題定義的符號稍作調整,方便下篇討論的符號使用。(2) 平面上的直線怎樣子把平面上的點分成左右兩邊。(3) 「空間」的概念,以及如何從平面的二度空間,進一步理解三度空間,甚至更高維度的空間概念。
閱讀全文 »
Tags: space , SVM , 空間
Posted in AI , Machine Learning | 1 Comment »
Jan 5th, 2010 by Mr. Thursday
Posted by Mr. Thursday
各位2010年新年快樂!今天要和大家一起拜訪SVM第一個景點 — 問題定義篇。在之前有先把整個SVM之旅的各景點做個大綱介紹,今天是第一個景點,我們要先把SVM想解的問題定義清楚再繼續往下走。
(1) - (1) 從「已知」到「未知」
所謂SVM是Support Vector Machine的縮寫,中文可以翻成「向量支援機」,是一種機器學習的演算法。我們先談談機器學習的動機好了。機器學習 (Machine Learning) 顧名思義,就是想讓機器如同人類一樣具有智慧,有學習能力,可以幫助人類自動化完成一些原來人力才能完成的事情。
然而機器和人類,為什麼要先學習呢?因為機器和我們一樣有各種接觸外界的輸入裝置,像人類有眼睛可以看,有耳朵可以聽,看的到的聽的到的,就是我們的「已知」。然而我們想要解決的事情,常常是看不見聽不到,「未知」的事情。譬如說一堆還沒照年代排序好的書本,我們看的到每一本書的出版日期,是「已知」,然而把書本排好,在解決問題之前,就是「未知」的部分了。又如同今天股市收盤價,是我們的「已知」,但是明天股價會漲還是跌?未來的事情,尚未解決,就是「未知」了。
接著又因為我們有學習的能力,因此無論是尚未完成的事情,還是未來的事情,還是物品分類的事情,只要我們有智慧學習,都可以從「已知」來求得「未知」的事物。人類上課學習,機器如何學會的這們學問,就稱為「機器學習」吧!
(1) - (2) 機器學習兩階段–訓練和預測
閱讀全文 »
Tags: SVM
Posted in AI , Machine Learning | 1 Comment »
Dec 23rd, 2009 by Mr. Thursday
Posted By Mr. Thursday
在〈機器學習與腦機介面的願景 〉裡面曾經稍微提到一下SVM,最近筆者正在重新複習SVM當中,因此打算寫幾篇相關文章,就SVM這個主題,做一些簡介。本篇文章會先整理一下Google到的相關資源,以及針對SVM數學部分,做一個大鋼的整理,猶如旅行之前,先安排一下行程,真正旅行的時候在一個個景點拜訪,出發之則是有個行程表,讓旅行途中有個目標,不至於迷路了!
接下來讓我們先看看網路上有哪些SVM簡介相關的資源吧!
SVM相關網路資源
閱讀全文 »
Tags: libsvm , Support Vector Machine , SVM
Posted in AI , Machine Learning | 1 Comment »
Oct 19th, 2009 by Mr. Thursday
Posted By Mr. Thursday
Web2.0簡單地說,就是集中人的智慧,在網路上分享內容,以求三個臭皮匠勝過一個諸葛亮的效果。雖然這種群體智慧 (collective intelligence) 有時候被稱為是工人智慧,不過我想就如同一個國家從未開發到已開發一樣,只要方向走對,工人智慧總有一天會變成人人智慧,您說是吧?
原文於2008/11/28 發表於MMDays 。
Google 最近推出新的搜尋介面,稱為 SearchWiki ,使用者可以對自己搜尋的結果 作修改,譬如說修改搜尋結果網頁的先後次序 ,或是直接移除 某一項搜尋結果 (刪錯可以救回來) ,以及為某一項搜尋結果加上一些文字註解 。下面這段影片可以讓各位比較清楚地看到整個介面和操作的流程:
這項功能目前要使用者在登入Google帳號 的狀態下才會出現,並且要選英文介面 才可以,中文介面暫時還沒有這項功能出現。
這個功能可以讓使用者自己排序搜尋結果,不過只會影響自己的搜尋結果,會和別人分享的只有文字註解。因此,針對個人化排序結果的分享,我想到了有三種方式,或許可以對應到各種不同的資訊來源或是使情境:個人使用、完全公開、以及朋友傳遞鏈。
閱讀全文 »
Tags: Google , SearchWiki , Web2.0
Posted in AI , Web2.0 | No Comments »
Oct 19th, 2009 by Mr. Thursday
Posted By Mr. Thursday
Web2.0簡單地說,就是集中人的智慧,在網路上分享內容,以求三個臭皮匠勝過一個諸葛亮的效果。雖然這種群體智慧 (collective intelligence) 有時候被稱為是工人智慧,不過我想就如同一個國家從未開發到已開發一樣,只要方向走對,工人智慧總有一天會變成人人智慧,您說是吧?
原文於2009/2/27 發表於MMDays 。
現在網路上有許多相片服務 網站,像是Flickr、Picasa、以及各類相簿空間 網站。基本功能通常都是上傳相片,分享給朋友,增加註解或標示人名地點等等。今天想要提出來的,則是拼圖功能 的構想。為什麼要拼圖 呢?我想分為幾個部分來探討,簡單來說,對使用者可以有趣味 和社交 的功能,對電腦來說可以有類似 reCAPTCHA 的學習看懂圖片 的功能,對於平台提供者來說,也許是另外一種服務搭配廣告的模式。
接下來讓我們先回想一下一般拼圖遊戲 的規則。通常就是一張圖,然後在電腦上面,可以用電腦自動切割成很多片。每一片拼圖之間,都會有一些凹凸的部分,作為使用者拼圖的線索。因此無論是風景照片、人物照片、商品照片,都可以先用電腦切割,變成拼圖遊戲。不過接下來,也許還可以有一些變化。
閱讀全文 »
Tags: CAPTCHA , Web2.0 , 影像辨識 , 拼圖
Posted in AI , Web2.0 | No Comments »
Oct 19th, 2009 by Mr. Thursday
Posted By Mr. Thursday
Web2.0簡單地說,就是集中人的智慧,在網路上分享內容,以求三個臭皮匠勝過一個諸葛亮的效果。雖然這種群體智慧 (collective intelligence) 有時候被稱為是工人智慧,不過我想就如同一個國家從未開發到已開發一樣,只要方向走對,工人智慧總有一天會變成人人智慧,您說是吧?
原文於2008/9/30 發表於MMDays 。
人類是會說話的動物,如果人類不會說話,恐怕得用肢體語言 (body language) 作為日常溝通的方式,每天上演動作片了。在各種話語裡面,有時候是「睜眼說瞎話」,有時候是「空口說白話」,有時候是「癡人說夢話」。不管是哪一種,共同的地方就是「說」和「話」。只是這三種話裡面,「夢話」似乎是一個比較特殊的話,牽涉到人潛意識的層面,而且只要有睡覺,通常就可以有夢產生。另外日有所思,夜有所夢,也是夢話的另外一個特點。因此有一個夢話網站的構想,也就是一個網站,讓大家提供自己的夢境,在網站上面說「夢話」,這樣子的網站要如何和一般討論區不同,又有哪些可能的商業模式,甚至是否對於社交網站有所幫助呢?下面就慢慢列出這個夢話網站的構想供大家參考。
使用者的角色
平常我們可能日有所思,夜有所夢,夢境可能反映出我們擔心的事情、關心的事情、或是期待的事情。分享夢境的好處是,只要有睡覺,有作夢,內容就源源不斷地產生 ,因此對使用者來說,生產夢境的內容並不是很大的負擔。此外,夢境千變萬化,也不用合乎邏輯,因此各式各樣的夢都可以被分享。分享夢境也可以幫助我們在網路社交活動上,有一個分享的活動,甚至相同類似的夢境,可以經過網站比對,讓我們經由夢境來找到網路上新的朋友 。如果覺得有些夢境是有關個人的隱私,沒關係,網站也可以提供匿名分享 的方式,讓使用者在匿名狀況下透過夢境交友,但是夢話的作者可以有匿名的功能,和作者本身的歷史資料脫離,免去隱私權的負擔。
閱讀全文 »
Tags: Web2.0 , 說夢話
Posted in Web2.0 | No Comments »
Oct 19th, 2009 by Mr. Thursday
Posted By Mr. Thursday
Web2.0簡單地說,就是集中人的智慧,在網路上分享內容,以求三個臭皮匠勝過一個諸葛亮的效果。雖然這種群體智慧 (collective intelligence) 有時候被稱為是工人智慧,不過我想就如同一個國家從未開發到已開發一樣,只要方向走對,工人智慧總有一天會變成人人智慧,您說是吧?
原文於2008/2/27 發表於MMDays 。
如果想要用另外一種語言在電腦上打字,我們通常要學習另外一種輸入法,即使是同一種語言也有不同的輸入法可以選擇。繁體中文常用的注音輸入法 ,只要會唸某個字,就可以把字打出來,不過出現同音字的時候需要選字,使用久了有可能會忘記一個字怎麼寫。倉頡輸入法 是根據字的形狀拆解成不同字根,讓同字根的字減少,加快打字的速度,然而學習字根的過程需要比較多的練習。無蝦米輸入法 也是字根,然而比倉頡容易聯想,學習比較快。
因此除了拼音文字以外,中文輸入法,不管是依照字型 拆解,還是各種拼音 輸入法 (漢語拼音 、注音符號 ),對於一開始學習的人來說,練習是加快速度最好的方式。然而師父領進門,修行在個人。即使有專門輸入法教學班、教學軟體,「練習 」仍舊是把輸入法學習好的關鍵。本篇試著構想一個提供輸入法練習環境的網站,以及這個網站在商業模式、教學上的優缺點分析。
閱讀全文 »
Tags: Web2.0 , 打字練習
Posted in Web2.0 | No Comments »
Oct 19th, 2009 by Mr. Thursday
Posted By Mr. Thursday
Web2.0簡單地說,就是集中人的智慧,在網路上分享內容,以求三個臭皮匠勝過一個諸葛亮的效果。雖然這種群體智慧 (collective intelligence) 有時候被稱為是工人智慧,不過我想就如同一個國家從未開發到已開發一樣,只要方向走對,工人智慧總有一天會變成人人智慧,您說是吧?
原文於2008/2/2 發表於MMDays 。
在學習英文的時候,有不同的部分需要學習,有聽、說、讀、寫,有文法,有單字,有句子。有時候我們把單字背起來,但是使用上可能無法非常適切 ,因為我們使用英文的頻率,以及週遭的環境,沒有辦法讓我們全天候暴露在英語的學習環境 下面。因此即使偶而有 long time no see (好久不見) 這種一一對應的英文句子,有時候我們常常用錯單字,或是寫出來的句子外國人很少有這種寫法 (people mountain people sea: 人山人海),即便文法上這個句子是對的。在追求國際化的過程中,英語是目前最普及的世界語言,因此本篇以英文句子網站 為出發點,嚐試一些分析,並且探討更多可能性,譬如說多國語言的句子學習網站等等。
閱讀全文 »
Tags: Web2.0
Posted in Web2.0 | 1 Comment »
Oct 19th, 2009 by Mr. Thursday
Posted By Mr. Thursday
Web2.0簡單地說,就是集中人的智慧,在網路上分享內容,以求三個臭皮匠勝過一個諸葛亮的效果。雖然這種群體智慧 (collective intelligence) 有時候被稱為是工人智慧,不過我想就如同一個國家從未開發到已開發一樣,只要方向走對,工人智慧總有一天會變成人人智慧,您說是吧?
原文於2008/11/2 發表於MMDays 。
Web2.0主要的想法,就是希望讓使用者 同時也是生產者 ,譬如說 Wikipedia ,除了讓使用者閱讀,使用者也可以貢獻內容,如果是文字以外的內容,譬如說影像或音樂,Web2.0也希望成為一個平台,讓使用者容易產生 或重製 內容的工具。然而除了內容共同製作、重新製作會產生著作權的問題之外,經濟面上的考量,大概是就獲利 的部分了。首先必須讓使用者有動機 來生產內容,其次,即使使用者願意不收代價貢獻內容,提供平台 的第三者又要怎樣子獲利?除了廣告模式,目前似乎還沒有很好的商業模式 (business model) 。本篇文章也先不談到這個部分,不過先談談商業模式的前一步,Web2.0生產力 的分析。也許透過對Web2.0生產力特性的分析,我們可以把Web2.0如何生產內容看的更清楚,進而有機會想到除了廣告模式之外,有哪一種新的商業模式可以在Web2.0網站上實行。
那麼,使用者會怎樣子透過Web2.0的方式來分享和貢獻內容呢?在這邊我分成三大部分來探討:(1) 使用者圍繞既有內容外圍產生新的內容 。(2) 使用者透過分割重組 方式產生新的內容。(3) 產生內容對於獲利可能的關鍵步驟 。
閱讀全文 »
Tags: Web2.0 , 生產力
Posted in AI , Web2.0 | No Comments »