POST TIME:2018-12-03 21:21
PMCAFF():最大互聯網產品社區,是百度,騰訊,阿里等產品經理的學習交流平臺。按期出品深度產品不雅觀察,互聯產品研究首選。
作者:項宇,網易發展部用戶研究員
有一個比方非常恰當:產品如同蓄水池,,用戶比如池中之水。池子中每時每刻都有新用戶源源不停地加入,也有一部分用戶選擇離開。
如果用戶流失超過新用戶的補給,且速度越來越快、規模越來越大時,產品如若不警惕,蓄水池遲早會干涸。
這是用戶流失研究的配景。產品階段差別,重心也會從拉新轉移到留存,對于一個成熟的產品和飽和的市場而言,獲取一個新用戶的成本可能是留住一個老用戶的數倍,流失率的降低也意味著營收的增加,在這種條件下,流失研究的價值是顯而易見的。
而研究流失用戶所面臨的主要問題,是如何衡量用戶流失的規模,重中之重是梳理清楚“流失用戶”和“流失率”的定義?;蛟S你腦海中早已經羅列好了幾點困惑:
為了給流失一個明確、又能符合產品特征的定義,而且相對準確地識別出可能流失的用戶,我們引入二元邏輯回歸作為定量流失研究的模型。
在模型中,我們將一段時間內用戶的一系列行為特征數據(如在線天數、充值金額、積分等級、點擊次數……),代入二元邏輯回歸方程中,就可以計算出相應的流失概率。
也可以用下圖數據采集與流失預測的時間窗口來理解這一過程。選擇產品中一部分老用戶,不雅觀察和收集他們在一個月內的行為數據(深藍色部分),通過這些數據,我們可以預測其在未來一段時間內(紅色部分)的流失與留存情況。
在預測周期 1 內出現但周期 2 未出現的,說明在周期 2 內流失了,如果兩個周期內都沒有出現,那么可能在不雅觀察期內就流失了,上述兩種都屬于流失;而周期 1 和周期 2 都有出現的用戶,則是留存用戶。
但是,在通過定量模型來研究流失的過程中,往往存在著幾個常見的誤區:
一、數據僅為工具,產品理解貫穿始終
如何界定流失用戶,制止概念誤區
在構建流失模型時,通常以月作為分析和數據提取的周期,好比在上圖時間窗口中,以連續一個月沒有使用算作流失。但這種簡單粗暴的劃分方法往往會帶來三方面的問題。
1、流失周期受用戶使用間隔決定,差別周期劃分影響用戶結構比例
如果以 1 個月作為流失周期,那么十月出現但十一月沒有出現(藍色圓點代表出現)的用戶在十一月流失了,而實際上,他在十二月又出現了,是一個回訪用戶(見回訪3),并沒有真實流失。
如果我們以 2 個月為周期,則“回訪3”的用戶在10~ 11 月, 12 月以后兩個周期內都出現過,應該是一個留存用戶。周期劃分對用戶流失界定有著直接影響。
2、如果簡單以一個月為周期進行用戶分類,回訪用戶過多(好比占總體15%),無法忽視且難以處理
無論以何種周期劃分,一定存在必然比例的回訪用戶,將回訪用戶作為缺失值、算作留存用戶或者作為流失用戶,均對模型準確率有較大影響。
3、流失周期劃分會影響模型的準確率與平衡性
如下表,以總樣本100w為例,別離以 4 周、 5 周、 6 周作為流失尺度,劃分出的流失和留存用戶是差別的,對應的流失留存預測準確率也差別。
流失周期過短,流失預測的準確率低,因為定義為流失的用戶中有大量實際留存的用戶,只是其使用間隔長罷了(好比以 1 周沒登錄就算流失,但實際上很多留存用戶2~ 3 周才登錄一次,也被劃分成流失用戶);同時周期過短,定義為留存的用戶實際上后來也會流失。
因此,分歧理的周期造成預測準確率低且不服衡,我們需要不停嘗試周期劃分,在保證整體準確率的情況下尋求流失與留存準確率最佳的平衡點,才能更為準確地同時預測流失及留存情況。
如果流失準確率有90%但留存只有50%,那么雖然我們預測流失的用戶幾乎都是真正會流失的,但可能只識別出了總體用戶中一小部分流失用戶,還有大量流失用戶被劃分在了留存用戶中,導致留存準確率過低。
在這種情況下,選擇恰當的定義方法顯得至關重要。通過查閱資料,我們發現對流失比較經典的定義是“一段時間內未進行關鍵行為的用戶”,關鍵點在于如何界按時間周期(流失周期)和關鍵行為(流失行為)。