
搜狗語音交互技術(shù)中心總經(jīng)理王硯峰
搜狗推出語音轉(zhuǎn)寫文字工具“搜狗聽寫”,基于搜狗知音引擎的長時語音聽寫技術(shù),可實現(xiàn)小時級文字轉(zhuǎn)寫功能,文本語音同時生存?,F(xiàn)已上線Android、iOS移動端和Web版本,提供“聽寫”和“轉(zhuǎn)寫”兩種模式,辦事免費,主要面向記者、編纂、作家等文字工作者。
活動現(xiàn)場,搜狗方面體現(xiàn),后期將重點推進(jìn)人工智能技術(shù)的落地,并透露將在可穿戴、車載、客廳等場景領(lǐng)域自主研發(fā)硬件。搜狗方面透露,搜狗將于近期推出一款面向家庭和兒童的機(jī)器人產(chǎn)品。
據(jù)介紹,搜狗語音輸入法錯誤率已經(jīng)下降到3.8%,語音識別辦事每日請求PV為2. 6 億次,每天產(chǎn)生語料 22 萬小時?;谝?guī)模性的用戶語音數(shù)據(jù),聽寫產(chǎn)品將搜狗的語音識別、自然語言理解等技術(shù)進(jìn)一步延展落地。
傳統(tǒng)語音轉(zhuǎn)錄產(chǎn)品主要包孕兩大類,錄音類、語音輸入法+備忘錄。前者只能錄音不能實現(xiàn)文字轉(zhuǎn)寫,不能標(biāo)注重點;后者無法長時語音輸入,可能被打斷,無法生存原始錄音。搜狗認(rèn)為語音轉(zhuǎn)錄產(chǎn)品具備剛性需求?;谏鲜鐾袋c,搜狗聽寫提供聽寫和轉(zhuǎn)寫模式,聽寫模式可邊收音邊展現(xiàn)識別結(jié)果,轉(zhuǎn)寫模型支持離線上傳文件給出識別結(jié)果。
在功能設(shè)計上,搜狗聽寫提供語音和文字無縫對齊,便利重點內(nèi)容定位;支持重點標(biāo)注,對應(yīng)的文本和語音可同時標(biāo)注。產(chǎn)品可在手機(jī)端邊聽邊寫,實現(xiàn)手機(jī)端和網(wǎng)頁端內(nèi)容同步。此外,搜狗聽寫還提供外接藍(lán)牙鍵,與手機(jī)配對,便利用戶錄音過程中實時標(biāo)注。搜狗聽寫還可按照語義自動添加標(biāo)點,標(biāo)點正確率高達(dá)96%,標(biāo)點類型在滿足逗號、句號、問號、嘆號的基礎(chǔ)上,還率先擴(kuò)充了書名號。
在應(yīng)用場景上,搜狗聽寫針對用戶的使用場景,如開會,寫小說等場景進(jìn)行優(yōu)化。識別效果較通用效果提升15%以上;還針對未便于大聲說話而又有使用語音的場景,提供了耳語識別技術(shù),在人的說話音量低至 30 分貝以下的情況下,依然可以準(zhǔn)確識別。
相較于此前的輸入法語音識別,搜狗聽寫的使用場景更加復(fù)雜,在算法模型層面,搜狗進(jìn)行了優(yōu)化。據(jù)介紹,聽寫模式采用業(yè)內(nèi)領(lǐng)先的端到端深度神經(jīng)網(wǎng)絡(luò)技術(shù)Deep LC-CLDNN+CTC技術(shù),轉(zhuǎn)寫模式使用了Deep CNN+CTC的方式,語言模型基于T級海量輸入法文本數(shù)據(jù)使用神經(jīng)網(wǎng)絡(luò)進(jìn)行建模,語音識別準(zhǔn)確率高達(dá)97%。
在語音文字轉(zhuǎn)寫工具領(lǐng)域,,科大訊飛已經(jīng)推出錄音寶、訊飛聽見等產(chǎn)品。當(dāng)談到搜狗聽寫的差異性,搜狗語音交互技術(shù)中心總經(jīng)理王硯峰認(rèn)為,搜狗聽寫的優(yōu)勢在于可支持長時錄音,轉(zhuǎn)寫辦事免費。在功能設(shè)計上,搜狗更看重垂直場景的體驗提升,好比加入藍(lán)牙鍵,提供改寫、標(biāo)注、發(fā)摘要等在線編纂功能。(侯迪憬)