騰訊旗下微信團隊和香港科技大學于11月30日宣布成立聯(lián)合實驗室南寧人工智能電銷機器人系統(tǒng),WeChat-HKUST Joint Lab on Artificial Intelligence Technology,簡稱南寧人工智能電銷機器人系統(tǒng):WHAT Lab。該實驗室將以人工智能為主要研究方向,旨在改善用戶南寧人工智能電銷機器人系統(tǒng)的生活服務(wù)體驗,借助大數(shù)據(jù)拓展機器學習的邊界。
微信發(fā)展至今,在人工智能領(lǐng)域,在統(tǒng)計機器學習,自然語言處理,圖像分析和語音識別方面有很多積累。其產(chǎn)品包括大家熟悉的語音轉(zhuǎn)換文字,微信用戶斑馬分析系統(tǒng)、掃一掃功能(掃碼、掃產(chǎn)品,書和電影廣告,掃詞翻譯),搖音樂、搖電視以及“為盲人讀書”等公益項目。在深度學習,基于統(tǒng)計學習的語音、文本理解和大數(shù)據(jù)挖掘方面都有專門的研究人員。
在中國的社交媒體應(yīng)用上,微博是開放性的社交平臺南寧人工智能電銷機器人系統(tǒng);與國外對應(yīng)的是Twitter。微信作為封閉式的社交平臺,在國內(nèi)馬上有了趕超微博之勢;微信在國外對應(yīng)的是Facebook。在人工智能的發(fā)展上,Twitter于2014年和2015年分別收購了人工智能公司Madbits和Whetlab,F(xiàn)acebook早于2013年就和NYU成立了自己的人工智能實驗室FAIR。而和香港科技大學組成的人工智能聯(lián)合實驗室正是微信的有力出擊。
WHAT Lab聯(lián)合實驗室位于香港科技大學校園內(nèi),由香港科技大學計算機科學與工程系主任楊強教授負責。
楊強是美國電子電器工程師協(xié)會院士(IEEE fellow)、國際人工智能協(xié)會首個華人院士(AAAI Fellow),于2012年獲華為邀請參與創(chuàng)辦從事人工智能及大數(shù)據(jù)研究的諾亞方舟實驗室。楊教授是多本國際期刊的編委,包括IEEE大數(shù)據(jù)期刊創(chuàng)始主編,他曾組織多個人工智能和數(shù)據(jù)挖掘的國際會議。
InfoQ對成立WHAT Lab的事件,同時采訪了香港科技大學的楊強教授和微信技術(shù)架構(gòu)部模式識別中心總監(jiān)陳波。
關(guān)于合作:
為什么選擇香港科技大學南寧人工智能電銷機器人系統(tǒng)?
香港科技大學在人工智能,機器人和大數(shù)據(jù)領(lǐng)域在世界上都是處于領(lǐng)先地位。香港科技大學的機器學習研究團隊和學生曾經(jīng)獲得多項世界比賽冠軍,包括ACM KDDCUP大賽的多次冠軍,諾基亞大賽冠軍,以及在ImageNet計算機視覺大賽上,與互聯(lián)網(wǎng)公司合作的冠軍。在遷移學習,統(tǒng)計機器翻譯和深度語音學習領(lǐng)域也引領(lǐng)世界研究潮流。學校研究的情感機器人被“科學美國人”報道,大學出來的創(chuàng)新公司包括世界聞名的“大疆”公司。大學云集國際著名協(xié)會的院士,包括幾十名IEEE Fellow。楊強教授本人也是國際高等人工智能協(xié)會(AAAI)的首名華人院士,2015年國際人工智能大會的主席,以及IEEE“大數(shù)據(jù)”期刊的創(chuàng)始主編。
楊強教授在接受SCMP采訪時提到:“我們的學生有很好的理論能力,善于建模,但是需要真實數(shù)據(jù)來訓練和測試。”而微信提供的數(shù)據(jù)能讓該實驗室下的博士生們來驗證他們的模型。“有了這么多的數(shù)據(jù),我們就可以更好的建立一個理解人類語言,理解人類意圖,更友好動人的系統(tǒng)”。
同時InfoQ的小編也詢問了香港科技大學的人工智能團隊開發(fā)出來的最有意思的模型是什么,楊強教授回答說:
我們香港科大的團隊在遷移學習領(lǐng)域有很多有意思的模型。比如,我們把照片或畫作和文本當作兩個不同的領(lǐng)域,運用遷移學習的模型,利用文本的模型來幫助對照片分類。同時,我們也可以通過對照片或畫作的分析,找到最貼切的文本,比如詩詞,來搭配。這就像是古人的詩中有畫,畫中有詩的道理。
研究重點:
WHAT Lab的研究的主要方向是:數(shù)據(jù)挖掘、機器人對話、機器視覺、語音識別。研究重點是:“在微信大數(shù)據(jù)下的人工智能相關(guān)技術(shù)的突破,使得互聯(lián)網(wǎng)+實現(xiàn)更智能的+,使得微信的連接可以更深入和延伸?!?/p>
數(shù)據(jù)挖掘:
微信官方最新公布的活躍用戶是6.5億,在不涉及用戶聊天等隱私的情況下,如此龐大的用戶群仍然會在開放平臺信息交互,線上線下互動等微信生態(tài)體系中產(chǎn)生大量數(shù)據(jù),如何通過數(shù)據(jù)挖掘的手段科學的分析這些數(shù)據(jù)中所體現(xiàn)的信息與知識,并將其應(yīng)用到微信生態(tài)體系中產(chǎn)生價值,促進應(yīng)用方產(chǎn)生數(shù)據(jù)反饋來修正系統(tǒng),形成一個良性的閉環(huán)是研究上需要持續(xù)關(guān)注的問題。
數(shù)據(jù)挖掘現(xiàn)在是大家耳熟能詳?shù)母拍?,前不久微信也宣傳了自己的斑馬系統(tǒng),在數(shù)據(jù)挖掘方面微信主要關(guān)注哪些方面,有什么不一樣的理解,微信回答說:
針對我們的業(yè)務(wù),我們對以下五個方面比較關(guān)注:
首先是多源異質(zhì)數(shù)據(jù)的聯(lián)合建模。比如朋友圈中公開的文字和圖片,甚至用戶主動簽到的地理位置信息都應(yīng)該是一體的,這種cross domain的聯(lián)合建模使得我們的挖掘結(jié)果更加精準;
其次是用戶畫像數(shù)據(jù)生命周期的管理。人的生活狀態(tài)是會隨著時間變化的,比如用戶關(guān)注了婚慶公司的公眾號,不代表TA永遠處于新婚狀態(tài),數(shù)據(jù)挖掘系統(tǒng)需要能自動管理這種時間衰減,以及其他的基于時間依賴關(guān)系的數(shù)據(jù)更新邏輯;
第三是進行數(shù)據(jù)挖掘分析的時候如何盡可能的刻畫因果關(guān)系。很多時候大家看到的數(shù)據(jù)分析結(jié)果感覺與預(yù)想的結(jié)論是一致的,只是數(shù)據(jù)量化了,但是究竟是什么樣的隱性因素促成了這樣的結(jié)果呢?這需要我們盡可能的開發(fā)高維,多樣,精細挖掘工作,從蛛絲馬跡中尋找這種隱性因素;
第四是超大規(guī)模的機器學習并行化計算平臺。大家都知道數(shù)據(jù)挖掘中有一項技術(shù)是機器學習,在超大規(guī)模的數(shù)據(jù)面前要想充分發(fā)揮機器學習的威力,我們有時候需要建立更加復雜的模型來學習刻畫數(shù)據(jù)的內(nèi)在特質(zhì)。這種超大規(guī)模數(shù)據(jù)和模型的并行化機器學習需要一個非常強大的并行化計算平臺來支撐;
最后,如何實現(xiàn)線上線下的數(shù)據(jù)應(yīng)用和融合。微信天然的具有線下應(yīng)用的優(yōu)勢,如何把我們的數(shù)據(jù)挖掘模型,用戶畫像系統(tǒng)應(yīng)用到現(xiàn)實生活中,聯(lián)合線上線下建立時間和空間的關(guān)系,幫助進行更加科學的決策也是我們非常關(guān)心的。
對于微信,每一處的改進惠及的將是億萬的用戶。
對數(shù)據(jù)進行有效的挖掘,意味著需要在保護用戶隱私之間做最合適的權(quán)衡。對于微信用戶來說最關(guān)心的問題始終是大數(shù)據(jù)下的用戶信息隱私。InfoQ詢問了現(xiàn)在微信團隊采取了哪些舉措在保護用戶的權(quán)益。
首先是保證隱私的數(shù)據(jù)不可以動。還有就是在用戶同意的情況下,利用數(shù)據(jù)挖掘來幫助建立有利于用戶的服務(wù)。比如,在“為盲胞讀書”的活動中,用戶的語音是在用戶同意的基礎(chǔ)上上傳的。
機器人:
在人工智能領(lǐng)域,機器人是個熱點,各大巨頭都先后推出自己的問答機器人,如:Apple Siri、Google Now、Microsoft Cortana、Facebook M。同時微信也對外介紹了自己的智能機器人小微。微信機器人已經(jīng)在客服系統(tǒng)上落地,比如微眾銀行、微信團隊、騰訊游戲等背后的客服機器人都是來自于小微的技術(shù)。機器人旨在提高人類的生存質(zhì)量和幸福指數(shù),“讓每個人都有自己的貼身小秘書”,楊強教授說。而微信具有這樣的生態(tài)圈,有如此巨大的數(shù)據(jù)量和用戶基礎(chǔ),機器人的發(fā)展肯定會越來越好,越用越智能,相信能取得意想不到的進展。
對于微信云端機器人服務(wù)功能的定位,微信回答說:
對話是天然的交互方式,而機器人正是對話交流最好的載體,同時機器人也應(yīng)該是一個有情感、個性化、能為用戶提供服務(wù)的實體。在這個方面,微信有著獨特的優(yōu)勢:IM平臺、永久在線、大數(shù)據(jù)、用戶畫像、閉環(huán)服務(wù)等,通過人工智能機器人來連接人和服務(wù),人和人。我們的機器人研究也著眼于這個想法,為千萬服務(wù)號提供自動、實時、智能的服務(wù),同時也希望有一天它能成為用戶的貼心朋友,能為用戶解決生活中的一些問題。
語音識別:
本著讓世界更開放連通的宗旨,語言服務(wù)是社交軟件的必經(jīng)之路。
InfoQ詢問了目前微信自然語言處理或語音識別功能的研究里除了中英文是否還能支持分析其他小語種語言,如果不支持原因是什么。
目前微信語音識別支持中英粵三種語言,尚且不支持其他小語種。主要原因是數(shù)據(jù)采集以及小語種語音學專家知識的欠缺,不過目前一些端到端的方案為快速開發(fā)小語種引擎提供了可能,我們也正在研究。
微信未來的發(fā)展:
正如微信的產(chǎn)品定位,“微信,是一種生活方式”,在這個信息化的時代,社交網(wǎng)絡(luò)越來越多的參與到了人們的生活中。社交網(wǎng)絡(luò)用各種方式滿足人們的需求。我們不得不思考什么樣的技術(shù)變革能導致下一個微信級的產(chǎn)品出現(xiàn),InfoQ詢問了未來的社交網(wǎng)絡(luò)會是什么樣的。
未來的社交網(wǎng)絡(luò)應(yīng)該不僅是人與人之間的交流,而且是人與服務(wù)間的交流。人與人之間的交流,只要把通道做好就行了。人與服務(wù)之間的交流需要服務(wù)提供方理解用戶的意圖,痛點,和需求。需要把行業(yè)知識轉(zhuǎn)化為答案。這就需要知識的學習和管理,需要知識的遷移能力和對用戶的推薦精度。這些都是人工智能的長項,也需要人工智能來實現(xiàn)。應(yīng)該說,在社交網(wǎng)絡(luò)上,通過大數(shù)據(jù)和人工智能,最有可能讓每一個用戶都擁有自己的貼心秘書。
最后InfoQ特地詢問了楊強教授對人工智能領(lǐng)域的工作人員有沒有什么指導性的建議。
人工智能機器學習今天的成就取決于幾個條件的滿足:首先,有優(yōu)秀的算法,然后,有大數(shù)據(jù),最后,有并行和分布式的高性能計算資源。這些條件在圖像,語音,在線推薦都得到滿足,因而在這些領(lǐng)域人工智能都有了長足的發(fā)展。
今后,我們可以預(yù)期有更多的領(lǐng)域會滿足這樣的條件,因而成為人工智能的下一個成功所在。社會網(wǎng)絡(luò)的數(shù)據(jù)量和互聯(lián)網(wǎng)+的強勁需求會使得移動社交平臺成為人工智能成功的下一個熱點。
采訪嘉賓介紹:
楊強:香港科技大學計算機系主任,大學冠名講座教授。他是國際人工智能協(xié)會(AAAI)的首個華人Fellow和IEEE等國際協(xié)會的Fellow,ACM杰出科學家。主要研究興趣包括人工智能和數(shù)據(jù)挖掘,大數(shù)據(jù),遷移學習與智能推薦。他指導的團隊曾經(jīng)贏得了ACM KDDCUP,諾基亞移動大賽等國際數(shù)據(jù)挖掘大賽的冠軍。他是國際人工智能協(xié)會(IJCAI)的理事,中國人工智能協(xié)會常務(wù)理事,以及2015年國際人工智能大會(IJCAI 2015)的程序主席,系A(chǔ)CM Transactions on Intelligent Systems and Technology 和 IEEE Transactions on Big Data 的創(chuàng)刊主編,清華大學出版社出版的《學術(shù)研究,你的成功之路》一書的共同作者。于2012年任華為諾亞方舟實驗室創(chuàng)始主任,對企業(yè)界也有重要的影響。
楊強于1978年畢業(yè)于北京大學天體物理專業(yè),于1989年在美國馬里蘭大學獲得計算機博士學位。于1989至2001年在在加拿大滑鐵盧大學和Simon Fraser 大學任教。
陳波:微信技術(shù)架構(gòu)部模式識別中心總監(jiān),清華大學碩士畢業(yè),2008年加入騰訊,2011年開始負責微信人工智能相關(guān)的基礎(chǔ)研究管理工作,團隊涉及領(lǐng)域有語音識別、圖像分析、對話系統(tǒng)、數(shù)據(jù)挖掘等。
精選留言
關(guān)注該公眾號可參與留言
關(guān)注該公眾號可參與留言
加載中
以上留言由公眾號篩選后顯示
如需要了解產(chǎn)品詳情,可電話咨詢專業(yè)客服人員:15358521011(微信同號)