語意搜尋 (Semantic Search): 挖掘搜尋產業的整座冰山


Posted By Mr. Saturday
您可能已經覺得搜尋等於 Google,您也可能覺得搜尋市場早就已經成熟到不能再更熟了,實在是不知道對於一些想要在網路創業的人,搜尋還有什麼機會可言。但是事實是,專家都認為,現在存在於網路上的搜尋功能,其實只把搜尋的所有潛在能力開發了 5% 而已。是的,只有百分之五,簡直就是冰山一角,下面還有整座冰山等著我們去發掘。這座冰山的本體就是今天 Mr. Saturday 要來介紹的語意搜尋 (Semantic Search,也有人作語義搜尋)。
現在網路上的資訊和網頁都是設計給人看的,人們在網路上可以暢行無阻。比如說我今天可以上網想辦法四處收集「便宜的 iPhone」的資訊,也許我以 Google 為起點開始搜尋,或是我先上 eBay 找看看有沒有人開始在拍賣 iPhone 了,然後自己把相關的資訊彙整起來。又比如說我今天想要找「我家附近便宜又好吃的餐廳」,那我的第一步也許就是上去一些美食網看一看大家對於一些餐廳的評價,彙整起來之後再決定要去哪一家餐廳用餐。對於人來說,這些都是再簡單也不過的事情,但是對於電腦來說,這些動作卻極其困難,在沒有人類的輔助之下,我們的電腦現在還沒有聰明到可以幫我們自動完成以上的事情。
因此,Semantic Search 想要解決的問題就是,讓人們可以用自然語言的方式來指示電腦去幫我們完成指定的工作,以上面舉出的例子而言,我們可以直接對搜尋引擎下指令 「便宜的 iPhone」或是「我家附近便宜又好吃的餐廳」,然後電腦就開始自己跑去網路上幫我們匯集資訊,也許電腦看到我們的指令之後,還會聰明地進一步詢問「您所說的便宜是大概希望在什麼價位呢?」或是「您希望吃些亞洲的食物呢?還是西餐?還是沒差?」,然後跳出一個互動式的選單讓我進一步表達我的意見,而且這個意見我也可以用自然語言來輸入。
這樣的一個願景,想像起來很容易,但是實行起來卻相當不容易,有賴各方技術的成熟,首先我們考慮到的會是自然語言處理的問題,自然語言的 query 現在在搜尋引擎上並非主流,大家都知道現在主流的搜尋引擎都是以關鍵字 (keyword) 查詢為主,使用者輸入分開的幾個關鍵字,搜尋引擎幫我們找資料,有很少的機會我們會去輸入整個句子當作是 query。為什麼呢?因為自然語言的處理還有很大的改善空間,人們輸入的句子千奇百怪,電腦理解的能力還很有限。美國有一些 startup 主要就是在解決這方面的問題,其中做得比較好 (或是說跑得比較前面,因為這類技術距離令人滿意還有一大段距離) 的一家公司是 AskMeNow,這家公司也是做搜尋的,不過完全是作 mobile 手持裝置的搜尋,他們已經整合了一些自然語言處理的技術到他們的搜尋引擎裡面,在今年的 CTIA WIRELESS 2007 中亮相 demo 給大家看。不過他們的 Semantic Search 目前僅支援 directory、運動類、以及企業資料等特定領域的搜尋。這又告訴我們另外一件事情,那就是 domain knowledge 對於 Semantic Search 的重要性。
就如同先前所提到的,現在網路上的資訊主要是給人看的,如果想要讓電腦也能夠像人類這樣收集和瀏覽資訊,就有賴於一些另外的技術。我們都知道,網路上的資料都是以 HTML 的方式呈現,而不是用電腦可以理解的方式呈現,HTML 給我們的頂多就是一些資料的呈現方式 (formatting),對於電腦來說,夾在這些 HTML 標籤之間的內容完全沒有意義。當然我們可以用人工智慧的方式讓電腦去分析這些夾在標籤之間的內容,問題是這樣相當地耗費運算資源,分析結果恐怕也是差強人意,怎麼想都不是一個好方法,另一方面只有 HTML 的時候,網路上自動化的資料交換,也是一個大問題。後來為了資料交換的便利性,就有了 XML 的出現,XML 讓必須透過網路交換資料的實體有了統一資料格式的一個方法,讓交換資料的雙方可以制定相同的標籤來組織資料和決定資料的呈現方式。不過呢,讓電腦理解網路上的資料這件事情,還是沒有個譜。
於是乎 RDF (Resource Description Framework) 這個技術就出現了,目的就是為了讓大家有一套描述網路上內容的方法,賦予這些內容意義。讓電腦進一步可以透過人們使用 RDF 對於內容的註記,來對這些內容進行類似於人類的推論,像人類一般真正理解這些內容,產出 knowledge。RDF 其實說穿了,也就是 metadata 的一種,只是表達方式都是為了讓電腦能夠容易去進行自動化的處理和進行自動的邏輯推演。然而使用 RDF 這件事情,就會牽涉到人們對於同一個領域知識的理解往往是不同的,如此就會造成對於資料描述的不一致,進而影響電腦的理解。因此 AskMeNow 和其他在做 Semantic Search 的機構之所以會從一個一個領域的垂直搜尋開始一步一步去做,原因就是如此。不同於現在 general 的搜尋引擎主要是用演算法來進行搜尋,semantic search 會像垂直搜尋引擎一樣,直接牽涉到特定領域知識,因此處理起來棘手許多。
也因此,一個 universal semantic search engine 的出現,也意味著我們已經打造出了一個 semantic web,在這個 web 之中,所有的內容都被人類賦予了意義,電腦可以自動地在這些內容之間游走,透過人類賦予的意義組織和架構這些內容,並透過邏輯演繹的演算法產生出原本不存在的知識。這樣的願景,也代表著我們必須把 RDF 和 OWL 等等技術引進整個網路,逐漸地把現在網路上散亂的內容整合並且賦予意義。這不僅僅是技術上成不成熟的問題,更是時間上的問題,網路已經存在許久,大部分的內容都是毫無組織,打造出一個真正的 semantic web,難度不小。但是的確有為數不少的公司,已經開始著手處理 semantic search 的相關問題,除了以上提到的 AskMeNow 之外,Xerox 近日也宣稱他們已經打造出了一個 semantic search engine: 名為 FactSpotter,並且即將在明年推出,另外一方面,自然語言處理的相關技術在搜尋產業中,已經被廣泛地應用在提供自動廣告上 (像是 AdSense 等等)。至於 Google 這些大公司有沒有想要跨入這個未來的搜尋呢?大家當然會猜有,而事實上答案也是肯定的。
很多人在爭論 Web 3.0 的定義,但事實上 Tim Berners-Lee 早在 2001 年已經提出了 Semantic Web 這一個願景,至於最後 Web 3.0 會不會跟 Semantic Web 畫上等號呢?其實,好像也不是那麼重要。最重要的是,當有一天我們能夠以自然語言在網路上搜尋且暢行無阻時,毫無疑問這個網路絕對是新一代的網路。

原文連結於此:http://mmdays.wordpress.com/2007/07/04/semantic-search/

分享到Google Plus

About Akiraken Chiu

版主:小王子(本名:邱明憲)。彰化人、國際領隊、旅遊作家。擅長島嶼旅遊以及彰化旅遊,目前同時進行彰化旅遊環境改善與推廣,並以旅咖啡為基地,服務更多來到彰化的旅人。,每年仍計畫不斷旅行島嶼,累積更多旅遊經歷,並定期開團。
    Blogger Comment
    Facebook Comment

0 意見 :