POST TIME:2018-12-03 21:21
PMCAFF():最大互聯(lián)網(wǎng)產(chǎn)品社區(qū),是百度,騰訊,阿里等產(chǎn)品經(jīng)理的學(xué)習(xí)交流平臺(tái)。按期出品深度產(chǎn)品不雅觀察,互聯(lián)產(chǎn)品研究首選。
作者:項(xiàng)宇,網(wǎng)易發(fā)展部用戶研究員
有一個(gè)比方非常恰當(dāng):產(chǎn)品如同蓄水池,,用戶比如池中之水。池子中每時(shí)每刻都有新用戶源源不停地加入,也有一部分用戶選擇離開。
如果用戶流失超過(guò)新用戶的補(bǔ)給,且速度越來(lái)越快、規(guī)模越來(lái)越大時(shí),產(chǎn)品如若不警惕,蓄水池遲早會(huì)干涸。
這是用戶流失研究的配景。產(chǎn)品階段差別,重心也會(huì)從拉新轉(zhuǎn)移到留存,對(duì)于一個(gè)成熟的產(chǎn)品和飽和的市場(chǎng)而言,獲取一個(gè)新用戶的成本可能是留住一個(gè)老用戶的數(shù)倍,流失率的降低也意味著營(yíng)收的增加,在這種條件下,流失研究的價(jià)值是顯而易見(jiàn)的。
而研究流失用戶所面臨的主要問(wèn)題,是如何衡量用戶流失的規(guī)模,重中之重是梳理清楚“流失用戶”和“流失率”的定義?;蛟S你腦海中早已經(jīng)羅列好了幾點(diǎn)困惑:
為了給流失一個(gè)明確、又能符合產(chǎn)品特征的定義,而且相對(duì)準(zhǔn)確地識(shí)別出可能流失的用戶,我們引入二元邏輯回歸作為定量流失研究的模型。
在模型中,我們將一段時(shí)間內(nèi)用戶的一系列行為特征數(shù)據(jù)(如在線天數(shù)、充值金額、積分等級(jí)、點(diǎn)擊次數(shù)……),代入二元邏輯回歸方程中,就可以計(jì)算出相應(yīng)的流失概率。
也可以用下圖數(shù)據(jù)采集與流失預(yù)測(cè)的時(shí)間窗口來(lái)理解這一過(guò)程。選擇產(chǎn)品中一部分老用戶,不雅觀察和收集他們?cè)谝粋€(gè)月內(nèi)的行為數(shù)據(jù)(深藍(lán)色部分),通過(guò)這些數(shù)據(jù),我們可以預(yù)測(cè)其在未來(lái)一段時(shí)間內(nèi)(紅色部分)的流失與留存情況。
在預(yù)測(cè)周期 1 內(nèi)出現(xiàn)但周期 2 未出現(xiàn)的,說(shuō)明在周期 2 內(nèi)流失了,如果兩個(gè)周期內(nèi)都沒(méi)有出現(xiàn),那么可能在不雅觀察期內(nèi)就流失了,上述兩種都屬于流失;而周期 1 和周期 2 都有出現(xiàn)的用戶,則是留存用戶。
但是,在通過(guò)定量模型來(lái)研究流失的過(guò)程中,往往存在著幾個(gè)常見(jiàn)的誤區(qū):
一、數(shù)據(jù)僅為工具,產(chǎn)品理解貫穿始終
如何界定流失用戶,制止概念誤區(qū)
在構(gòu)建流失模型時(shí),通常以月作為分析和數(shù)據(jù)提取的周期,好比在上圖時(shí)間窗口中,以連續(xù)一個(gè)月沒(méi)有使用算作流失。但這種簡(jiǎn)單粗暴的劃分方法往往會(huì)帶來(lái)三方面的問(wèn)題。
1、流失周期受用戶使用間隔決定,差別周期劃分影響用戶結(jié)構(gòu)比例
如果以 1 個(gè)月作為流失周期,那么十月出現(xiàn)但十一月沒(méi)有出現(xiàn)(藍(lán)色圓點(diǎn)代表出現(xiàn))的用戶在十一月流失了,而實(shí)際上,他在十二月又出現(xiàn)了,是一個(gè)回訪用戶(見(jiàn)回訪3),并沒(méi)有真實(shí)流失。
如果我們以 2 個(gè)月為周期,則“回訪3”的用戶在10~ 11 月, 12 月以后兩個(gè)周期內(nèi)都出現(xiàn)過(guò),應(yīng)該是一個(gè)留存用戶。周期劃分對(duì)用戶流失界定有著直接影響。
2、如果簡(jiǎn)單以一個(gè)月為周期進(jìn)行用戶分類,回訪用戶過(guò)多(好比占總體15%),無(wú)法忽視且難以處理
無(wú)論以何種周期劃分,一定存在必然比例的回訪用戶,將回訪用戶作為缺失值、算作留存用戶或者作為流失用戶,均對(duì)模型準(zhǔn)確率有較大影響。
3、流失周期劃分會(huì)影響模型的準(zhǔn)確率與平衡性
如下表,以總樣本100w為例,別離以 4 周、 5 周、 6 周作為流失尺度,劃分出的流失和留存用戶是差別的,對(duì)應(yīng)的流失留存預(yù)測(cè)準(zhǔn)確率也差別。
流失周期過(guò)短,流失預(yù)測(cè)的準(zhǔn)確率低,因?yàn)槎x為流失的用戶中有大量實(shí)際留存的用戶,只是其使用間隔長(zhǎng)罷了(好比以 1 周沒(méi)登錄就算流失,但實(shí)際上很多留存用戶2~ 3 周才登錄一次,也被劃分成流失用戶);同時(shí)周期過(guò)短,定義為留存的用戶實(shí)際上后來(lái)也會(huì)流失。
因此,分歧理的周期造成預(yù)測(cè)準(zhǔn)確率低且不服衡,我們需要不停嘗試周期劃分,在保證整體準(zhǔn)確率的情況下尋求流失與留存準(zhǔn)確率最佳的平衡點(diǎn),才能更為準(zhǔn)確地同時(shí)預(yù)測(cè)流失及留存情況。
如果流失準(zhǔn)確率有90%但留存只有50%,那么雖然我們預(yù)測(cè)流失的用戶幾乎都是真正會(huì)流失的,但可能只識(shí)別出了總體用戶中一小部分流失用戶,還有大量流失用戶被劃分在了留存用戶中,導(dǎo)致留存準(zhǔn)確率過(guò)低。
在這種情況下,選擇恰當(dāng)?shù)亩x方法顯得至關(guān)重要。通過(guò)查閱資料,我們發(fā)現(xiàn)對(duì)流失比較經(jīng)典的定義是“一段時(shí)間內(nèi)未進(jìn)行關(guān)鍵行為的用戶”,關(guān)鍵點(diǎn)在于如何界按時(shí)間周期(流失周期)和關(guān)鍵行為(流失行為)。