導(dǎo)語(yǔ):
“我們把世界看成數(shù)學(xué),并且把你也看成數(shù)學(xué)”--用這句話(huà)來(lái)說(shuō)明數(shù)據(jù)挖掘技術(shù)的復(fù)合性和應(yīng)用的廣泛性似乎再好不過(guò)。如今,雖然一些行業(yè)在應(yīng)用這一技術(shù)上仍然缺乏足夠的主動(dòng),但一個(gè)不能阻擋的趨勢(shì)是:已經(jīng)有越來(lái)越多的人在快樂(lè)而有效地使用這一技術(shù)并且不由自主地成為它的“挖掘”對(duì)象。
引子:
禽流感該如何更好地監(jiān)控?今天你寫(xiě)B(tài)log了嗎?
你是否覺(jué)得這兩個(gè)問(wèn)題連在一起問(wèn)很無(wú)厘頭?
事實(shí)上,美國(guó)一家公司正在試圖讓這兩個(gè)事件之間的關(guān)系日漸明了。
這家公司目前正在通過(guò)從全球的Blog網(wǎng)頁(yè)中作挖掘出和禽流感相關(guān)的信息,從而建立一個(gè)預(yù)警機(jī)制。這一項(xiàng)目考慮到Blog已經(jīng)成為新聞傳播的重要途徑,先從網(wǎng)上抓取有關(guān)禽流感的網(wǎng)頁(yè),存入到公司的數(shù)據(jù)倉(cāng)庫(kù),再指定“國(guó)家”為關(guān)鍵目標(biāo)詞,然后利用關(guān)聯(lián)分析技術(shù),即可得到和禽流感關(guān)聯(lián)最大的國(guó)家,由此可以判定該國(guó)的禽流感傳染可能比較嚴(yán)重。
就在此前,已經(jīng)有很多人在抱怨,網(wǎng)上多如牛毛的Blog除去浪費(fèi)了人們數(shù)以十萬(wàn)年的閱讀時(shí)間之外,還有多少用處?如今,商業(yè)智能領(lǐng)域中的數(shù)據(jù)挖掘技術(shù)正在力圖從這些爆炸式增長(zhǎng)的Blog中“挖”出更有價(jià)值的東西,同時(shí)它也正在更多領(lǐng)域中展示其非凡的力量。
工具篇:前方是岔路口
數(shù)據(jù)挖掘其實(shí)并非單純的IT技術(shù),而是數(shù)學(xué)家和計(jì)算機(jī)科學(xué)家之間的合作產(chǎn)物。在過(guò)去十年中,高等數(shù)學(xué)和計(jì)算機(jī)建模的聯(lián)姻改變了科學(xué)和工程技術(shù),以至于有人認(rèn)為這一合作已經(jīng)開(kāi)創(chuàng)了一個(gè)全新的商業(yè)領(lǐng)域。
有關(guān)數(shù)據(jù)挖掘技術(shù)的定義有很多版本,綜其要點(diǎn),主要在于應(yīng)用一系列統(tǒng)計(jì)與人工智能技術(shù)來(lái)發(fā)現(xiàn)以前并不了解的數(shù)據(jù)規(guī)律,并解決實(shí)際業(yè)務(wù)問(wèn)題。如今,數(shù)據(jù)挖掘技術(shù)已經(jīng)從最開(kāi)始的一個(gè)簡(jiǎn)單的算法包,發(fā)展出通用挖掘平臺(tái)和專(zhuān)業(yè)挖掘工具兩大種類(lèi)。其中,像IBM、NCR、 SAS、微軟、SPSS、StatSoft等廠商的數(shù)據(jù)挖掘產(chǎn)品(模塊)基本都是通用型工具平臺(tái);而像美國(guó)的 Unica 公司、費(fèi)爾艾薩克公司(Fair IsaacCorporation)則主要專(zhuān)注于諸如營(yíng)銷(xiāo)自動(dòng)化、信用卡積分等細(xì)分領(lǐng)域,屬于后一種工具。
具體來(lái)看,目前在數(shù)據(jù)挖掘領(lǐng)域聲勢(shì)頗大的大多是通用型工具平臺(tái),像IBM、NCR、SAS、微軟、Oracle 、SPSS、StatSoft等都是如此。
“現(xiàn)在IBM更側(cè)重的是平臺(tái)優(yōu)勢(shì)?!盜BM軟件部中國(guó)區(qū)DB2信息管理技術(shù)經(jīng)理劉晶煒明確表示。目前,IBM的 DB2中包含Intelligent Miner for Data和Intelligent Miner for Text兩個(gè)數(shù)據(jù)挖掘模塊,將數(shù)據(jù)挖掘和數(shù)據(jù)倉(cāng)庫(kù)整合到一個(gè)平臺(tái)之上。其中,前者主要針對(duì)結(jié)構(gòu)化信息,主要分為建模、瀏覽、Scoring Service三個(gè)部分;后者則是針對(duì)文本的挖掘模塊,其主要功能是特征抽取、文檔聚集、文檔分類(lèi)和檢索。
NCR Teradata的數(shù)據(jù)挖掘工具同樣也是與其數(shù)據(jù)倉(cāng)庫(kù)整合在一起。具體來(lái)說(shuō),其數(shù)據(jù)挖掘工具可以按照挖掘的步驟主要分成Profiler、ADS Generator、Warehouse Miner和模型管理器四塊。目前Teradata最新版的數(shù)據(jù)挖掘方案是Teradata Warehouse Miner 4.1。
SAS 公司和SPSS公司作為兩家從傳統(tǒng)的統(tǒng)計(jì)分析技術(shù)發(fā)展而來(lái)的數(shù)據(jù)挖掘廠商,二者在業(yè)內(nèi)的影響力可謂有目共睹。其中,SAS 公司提供了SAS Enterprise Miner 、SAS ETS(時(shí)間序列預(yù)測(cè))、SAS OR(運(yùn)籌學(xué))、SAS STAT(統(tǒng)計(jì)分析)、SAS QC(質(zhì)量控制)等一系列工具;SPSS公司也提供了Clementine和AnswerTree兩項(xiàng)產(chǎn)品。
總起來(lái)看,像IBM、NCR、Oracle、微軟這些平臺(tái)工具廠商基本上都是以提供“整車(chē)”為己任。一句話(huà),只要用戶(hù)不是很挑剔,基本上都可以在某一家那里即可買(mǎi)全包括數(shù)據(jù)挖掘工具在內(nèi)的全套商業(yè)智能產(chǎn)品。而像SAS、SPSS、StatSoft等公司雖然也宣稱(chēng)提供工具平臺(tái),但提供“整車(chē)”的實(shí)力有限,主要在統(tǒng)計(jì)分析和數(shù)據(jù)挖掘領(lǐng)域延伸提供盡可能多的工具組件。
相對(duì)于這些挖掘工具平臺(tái),專(zhuān)業(yè)挖掘工具可能在市場(chǎng)的聲勢(shì)并不大,但是像Fair Isaac 公司、Unica 公司的發(fā)展卻也相當(dāng)不錯(cuò)。比如像Fair Isaac 公司就已經(jīng)占據(jù)了全球信用卡積分市場(chǎng)70%-80%的份額,幾乎達(dá)到壟斷。該公司的創(chuàng)始人發(fā)明了一個(gè)信用評(píng)分卡(即費(fèi)寇分?jǐn)?shù),F(xiàn)ICO score),由此可以預(yù)測(cè)人的未來(lái)償付行為,為消費(fèi)者信用行業(yè)提供一個(gè)有效的預(yù)測(cè)工具。同樣,美國(guó) Unica 公司的 Affinium Model 則是一款專(zhuān)注于市場(chǎng)營(yíng)銷(xiāo)自動(dòng)化的數(shù)據(jù)挖掘工具軟件。
那么,面對(duì)這兩種工具,用戶(hù)該如何選擇?換句話(huà)講,哪種工具才是未來(lái)的發(fā)展方向呢?
中國(guó)傳媒大學(xué)調(diào)查統(tǒng)計(jì)研究所副所長(zhǎng)、數(shù)據(jù)挖掘研究室主任沈浩認(rèn)為,平臺(tái)化肯定是將來(lái)的一個(gè)發(fā)展方向,而且,中國(guó)的市場(chǎng)足夠廣闊,也可以容得下一批這樣的平臺(tái)廠商。IBM軟件部中國(guó)區(qū)DB2信息管理技術(shù)經(jīng)理劉晶煒也表示,正與SAS進(jìn)行更多的合作,以便進(jìn)一步統(tǒng)一數(shù)據(jù)挖掘領(lǐng)域的技術(shù)標(biāo)準(zhǔn)。而Teradata數(shù)據(jù)倉(cāng)庫(kù)專(zhuān)家盛秋戩博士則認(rèn)為,目前的平臺(tái)工具雖多,但從根本上講,都是在用橫向的數(shù)據(jù)挖掘工具解決縱向的行業(yè)業(yè)務(wù)問(wèn)題。他表示,如果從用戶(hù)出發(fā),用戶(hù)應(yīng)該更歡迎那些專(zhuān)業(yè)挖掘工具。
現(xiàn)在數(shù)據(jù)挖掘領(lǐng)域的確存在平臺(tái)化趨勢(shì),但專(zhuān)業(yè)工具也占領(lǐng)了一些市場(chǎng)。有些公司就是只選出并優(yōu)化某些算法,再加上行業(yè)經(jīng)驗(yàn),就可以使建模過(guò)程更加優(yōu)化。另?yè)?jù)SYBASE商務(wù)智能總監(jiān)廖鋼城介紹,其實(shí)在日本,就有公司專(zhuān)門(mén)銷(xiāo)售一種類(lèi)似“黑匣子”的專(zhuān)業(yè)工具,銀行積累的數(shù)據(jù)在里面跑一遍,就直接出來(lái)結(jié)果。這種工具用得也很好。而在另一方面,他也認(rèn)為,提供平臺(tái)的廠商會(huì)越來(lái)越少。
如此看來(lái),業(yè)界對(duì)于工具的發(fā)展方向似乎并無(wú)太大異議,即平臺(tái)工具會(huì)保持在一個(gè)適當(dāng)?shù)臄?shù)量,而專(zhuān)業(yè)工具顯然更得用戶(hù)的寵愛(ài)。而現(xiàn)在,數(shù)據(jù)挖掘技術(shù)的發(fā)展剛好到了一個(gè)岔路口,一邊指向通用型,一邊指向?qū)I(yè)型,就看企業(yè)要往哪個(gè)方向走了。
微軟在SQL Server 2005中在數(shù)據(jù)挖掘方面的突破與創(chuàng)新曾被人看作最令人驚艷的地方。Microsoft SQL Server 2005 Data Mining 平臺(tái)的確引入了大量的數(shù)據(jù)挖掘功能,其本身就是一個(gè)開(kāi)發(fā)智能應(yīng)用程序的平臺(tái),而非一個(gè)獨(dú)立應(yīng)用程序。而且,這一平臺(tái)與所有 SQL Server 產(chǎn)品實(shí)現(xiàn)了集成,包括 SQL Server、SQL Server Integration Services 和 Analysis Services。據(jù)稱(chēng),SQL Server 2005 中最重要的數(shù)據(jù)挖掘功能就是其處理大型數(shù)據(jù)集的能力,它允許模型對(duì)整個(gè)數(shù)據(jù)集運(yùn)行,從而消除了采樣方面的挑戰(zhàn)。