大數據帶來大改變。受大數據沖擊,傳統收視率行業也面臨前所未有的創新命題,或者說是個難題,難在如何兼顧守正與出新。
收視率的正統出身是統計,是有限樣本的代表性推論,是基于概率抽樣計算的推斷結果,偏重于統計而非算法。大數據被認為是收視率創新的方向,但是大數據容易實現的是算法,難以解決的是統計,比如數據孤島帶來的統計上的以偏概全問題。
統計的基礎規律之一是大數定律,在大數定律的作用下,收視率數值傾向于收斂和穩定;算法則不然,基于算法的結果取決于算法定義規則,規則不同結果便不同,定義規則本身有很強的主觀性、誘導性。
用統計結果反觀內容與營銷,具有結論的概然性和歸因的合理性,是先有假設再做檢驗;用算法結果反觀內容和營銷,算法本身的選擇性決定內容與營銷結果的呈現,算法既定假設,結果反而成必然。
基于統計的收視率讓內容與受眾之間具有時間軸上的因果關聯,內容上的議程設置表現為收視率的統計結果;基于算法的收視率則不然,算法可以弱化甚至打破時間軸上的因果鏈而僅僅強調關聯,算法可以通過設定內容邏輯從而成為議程設置本身。
可見對于內容與營銷,基于受眾的統計是收視率之本,而基于大數據的算法則不是。對收視率抱有成見而推崇以大數據算法替代收視率統計是不恰當的做法,帶來的只能是更多的抱怨和混亂,這是本末倒置的結果。
不過收視率統計也并不排斥算法,如果算法能夠用來補充和優化收視率數據的統計過程。但是其間需要厘清人和端的對應關系。
正統的收視率統計是基于人的,而大數據主要來自于端,盡管端所連接的仍然是人。在收視率統計中人是優先于端的,而且可以根據一人多端的行為情況進行累計計算,從而形成多端跨屏的收視率統計;在運用大數據算法時則往往端優先于人,不同端的數據可以疊加合并,但未必是真實的人的行為。正是因為有這樣的區別,所以才有收視率統計中的同源樣本建設的必要,以及大數據算法需要考慮的不同端數據整合過程中的行為去重難題。在人與端的數據交換中,一人一端是最容易處理的情形,多人一端和一人多端都帶來大數據算法上的挑戰。
收視率的計算離不開到達率和忠實度兩項指標。無論以人還是端為口徑計算,以時間花費測量的忠實度指標含義基本一致;但到達率指標就不是一回事了,人的到達在時間軸上是單調累加的,而端的到達,其中有一部分未必是人的行為造成,另外端的到達還可以進行跨空間的平行累計。以端的數據模擬人,就需要設定一個基礎端,以這個基礎端的行為確定所模擬人的主要行為,其他端的數據則以不與基礎端數據產生時空沖突為前提而進行補充加總。
所以在收視率這個問題上還是不能迷信大數據,特別是當大數據以算法的形式施加對內容和營銷的直接影響的時候,大數據收視率事實上就陷入了自我循環的純數據邏輯,而忽視了人的非數據本性。
現在市面上一下子出現了好多打著大數據旗號的收視率報表,多數的報表已經實現內部自洽,但是相互之間仍是一片混戰。越是這樣的時候越要考慮清楚收視率的根本,以經得起檢驗而且經過檢驗的坐標來定位新坐標,守得正才能出得新,人云亦云的所謂大數據帶來的收視率革命其實還并不存在。