第三部分 电视放送事业篇
第十章 收视率计算和误差
上回我们说到操纵收视率这玩意,哦不对,上回我们说到收视率这种产品是谁生产的、为什么生产、用什么生产。这回我们来窥流水生产线内部,原料进去后怎么变成收视率数字出来的。
我们说过收视率计测的最小单位是一分钟,所以收视率都是根据每分收视率最终算出来的。平时说某节目某一集的收视率,其实已经是省略了,指的应该是这一集的平均收视率。因为节目是有时间长度的,有从头一直看到尾的,也有时间中途才打开电视看这个台,还有节目没结束就调台了的。每分收视率中,最高的那一分钟的收视率叫做瞬间最高收视率,一分钟的长度远不止一瞬间这个就不用吐槽了。
我们来用极简化法举例,假设以下三个电视台各自播出了时长十分钟的节目,八点钟开始、八点十分结束。三个台各自的每分收视率,以及根据其得出的节目瞬间最高收视率、平均收视率,假定如下:
最后会公布的这三个节目的收视率是多少,用的就是平均值那一列的数字。我们上回说过节目的平均收视率中,会无偿公布给大众的占比例已经很少了,瞬间最高收视率更少更少。会直接无偿公布的瞬间最高收视率,仅限于关注度达到国民级程度的大热门节目个体,比如超人气的电视剧而且是最终回啊、大型体育赛事啊、或者红白这种等级的节目。
于是再多扯一句就是节目整体的平均收视率,可不是单纯平均,就是说不是每集收视率的总和再去除以集数,而应该是加权平均。不过这个反正一般对于特摄及动画节目来说问题不大,因为基本上每集时长相同,电视剧各集时长不等就比较常见了,尤其是初回或最终回出长时间特别节目的现象。
那我们来具体到各种类的收视率,首先是世带收视率。不厌其烦地重复一下,世带是家庭的意思,世带收视率不是世代收视率。还是举极简化的例子,假定样本不是九百户了,总共就八户家庭。
这个情况下:
- 八家中有六家至少一台电视机为打开状态,全局世带收视率= 6/8 = 75.0%
- 八家中有三家至少一台电视机调到EX,朝日电视台的世带收视率= 3/8 = 37.5%
- 八家中有三家至少一台电视机调到AX,日本电视台的世带收视率= 3/8 = 37.5%
- 八家中有两家至少一台电视机调到CX,富士电视台的世带收视率= 2/8 = 25.0%
- 八家中有一家至少一台电视机调到TBS,东京放送的世带收视率= 1/8 = 12.5%
- 八家中有一家至少一台电视机调到TX,东京电视台的世带收视率= 1/8 = 12.5%
这里有两个引申概念可以说一下,一个是全局世带收视率,一个是收视份额。
全局世带收视率就是所有放送局的世带收视率,但计算方法上面已经给出来了,不是各放送局的世带收视率相加,就是因为一家不一定只收看一个台。各局的数字相加可能大于也可能小于百分百,而全局世带收视率也是收视率,收视率不会大于百分百。
收视率是看电视与不看电视的问题,而收视份额是看哪个台的问题,一个电视台的收视份额就是这个台的收视率占各个台收视率相加的比率。电视是关机状态,自然就不计入收视率,视开了就一定是在某个台,肯定计入收视份额,所以收视份额相加一定为百分百。
还是以上表为例,这个情况下各电视台的收视份额如下。
- 世带收视率相加= 37.5% + 37.5% + 25.0% + 12.5% + 12.5% = 125%
- 朝日电视台的收视份额= 37.5% / 125% = 30%
- 日本电视台的收视份额= 37.5% / 125% = 30%
- 富士电视台的收视份额= 25.0% / 125% = 20%
- 东京放送的收视份额= 12.5% / 125% = 10%
- 东京电视台的收视份额= 12.5% / 125% = 10%
趁着我们还停留在世带收视率,复杂程度还不及个体收视率,先来说清楚收视率的误差值问题。我们说过收视率本质是抽样调查了,所以当然有不可忽视的误差范围,这里绕不过数学统计学相关的事了,尽量说通俗些点到为止。
从很好理解的概念说起,两种分布,二项分布和正态分布。二项分布是离散的,正态分布是连续的,先说二项分布。最简单的例子是抛硬币,硬币落地后朝上的是哪一面,结果只有两个可能性。多次抛硬币,每次的结果都是独立的,这次抛得正面还是反面,无法决定下一次一定得正面还是反面。像这样,一种结果只有两个可能性的行为,多次进行这种行为,每次的结果是相互独立的,实验结果的概率分布就呈一个二项分布。
对应到收视率的事上,调查最小单位的收视率,说白了只有两个可能性为结果,看了还是没看。多次进行这个行为,意思就是调查多个家庭,每个家庭是独立的。进行这个行为的次数以n表示,各次得到甲结果的概率以p表示,那么各次得到乙结果的概率为q = 1 – p。得到甲结果的次数以y表示,y的期待值以μ表示。期待值是什么东西,可以这么说,以n次为一组,进行无限组这个行为后,y的平均值。
平均值μ = np,方差为σ2 = npq。证明略,不过也还算是好理解的。比方抛硬币得正反面的概率各为0.5,假设抛得正面得两分、抛得反面不得分,那反复抛反复抛后平均分应该趋近于一分。再比方已知一个大堂里有一成人是天朝人,随机逮一个人出来,这个人是天朝人的概率为0.1,随机逮一百人出来,这里面天朝人数量的期待值为十人。
然后是正态分布。正态分布的曲线是一个形似山峰的轴对称曲线,或者又形似一口大钟,所以可以叫叫钟形曲线。正态分布的基本特点是,平均数、中位数、众数全部是同一个值。
还是想象进行抛硬币的行为,把这个二项分布作成条形图,横轴为抛得正面的次数,纵轴为概率。总共抛十次的话,其中有五次为正面的概率是多少,有四次正面的概率又是多少,只有三次呢、两次呢,概率越来越小了,于是条形图从五次开始往左越来越矮。还是从五次开始,有六次正面的概率是多少,达到七次呢、八次呢,概率又是越来越小了,于是条形图从五次开始往右越来越矮。这样就形成了以横轴值五为中心的,中间高、两边渐低的条形图。这是离散的二项分布,如果画成连续的曲线图呢,就是一个正态分布的钟形曲线例子。
若y呈二项分布,那么当其样本数n足够大时,就趋近于是一个正态分布,而且z = (y – μ) / σ还呈标准正态分布,证明略。标准正态分布就是这个正态分布的平均值μ为0,标准偏差值σ为1,当然了这样方差σ2也就为1了。画在直角坐标系上,μ为0的正态分布就呈现出,坐标系的纵轴即为该曲线的对称轴。这里μ和σ还是分别表示y的平均值和标准偏差值,如上述μ = np,σ2 = np(1 - p)。
接下来需要提调查统计的结果难以避免的两类错误,弃真和存伪。比方有一个假设,不知道这实际是真的还是假的,那就去调查。但既然是抽样调查,不是全面调查,你还是没法知道实际是真的还是假的,只能根据调查结果得出一个结果,说这是真的或假的。弃真就是根据调查结果否决了实际成立的假设,存伪就是根据调查结果接受了实际错误的假设。两类错误严重程度不同,弃真更严重,是更要尽量减小发生概率的,发生弃真的概率以α表示。
然后就和误差值联系起来了。正态分布曲线在坐标中,纵轴表示概率值,所有情况的概率全部加起来应为1,也就是说曲线与横轴形成的图形面积为1。发生弃真的概率为α,也就是说需否决的区域面积为α,可信赖的区域面积为1 – α。像上面那张图,两边阴影区面积各为α/2,代表着否决区域,加起来为α,空白区域面积为1 – α。
实际统计中大抵认为α不能超过5%,α为5%时,调查结果的信赖度就为95%。调查所得值为正态分布的μ,为曲线的对称轴,标准正态分布下而真实值有95%的可能性落在中间的信赖区间,从μ到信赖区间边界就是误差值。还是看上面那张图,这时μ = 0,从0到±u就是误差值。于是要知道误差值有多少,需要知道在一个α值下信赖区间从哪儿到哪儿,即边界值在哪里。
前面说了二项分布样本数n足够大时,z呈标准正态分布,z = (y – μ) / σ = (y – np) / √[np(1 - p)]。分子分母同时除以n,z = (y/n – p) / √[p(1 - p)/n]。前面还说了次数为n,各次得到甲结果的概率为p,得到甲结果的次数为y,这些代入实际情况,p就是调查所得的收视率,y/n就是实际收视率。公布出来的我们知道的所谓收视率,全部是p。
所以误差值是|p – y/n|,要求误差值,就是求z在95%的信赖区间内时,|p – y/n|到底是多少。-u < z < u,-u再往左边的话曲线与横轴形成的面积为α/2 = 0.025,u再往右边的话曲线与横轴形成的面积也为α/2 = 0.025。下一个问题是u应该为多少,即满足α = 0.05时对应的横轴值应该多少,那也就是标准正态分布的累积分布函数的反函数。
标准正态分布下累积分布函数F(y) = [∫exp(-y^2 / 2)dy] / √(2π),现在知道F(y) = 0.025需反过来求y,则y约为1.96。
即(y/n – p) / √[p(1 - p)/n]的范围是±1.96。
那么(y/n – p)的范围就是±1.96√[p(1 - p)/n]。
那么y/n的范围就是p ± 1.96√[p(1 - p)/n]。
这样最终得出,实际收视率y/n有95%的可能性坐落在p ± 1.96√[p(1 - p)/n]这个区间内,误差值即为1.96√[p(1 - p)/n]。
现在可以一个个代入了,n是样本数,三大广域圈的样本数为600,p为调查所得的收视率。收视率为10%的节目,其误差值就约为1.96√[10%(1 – 10%) / 600] ≈ 2.4%,也就是说这个节目的实际收视率应在7.6%和12.4%之间。收视率90%的节目误差值就与10%的节目同样,虽然不存在收视率90%的节目。
可以看出要想将误差范围缩小一半,则样本世带数需要扩大到四倍,那2400个样本压力就太大了,电通和映像调查舍不得花那个钱。我们上回说过十月起样本数改为900了,这意味着收视率10%的节目误差值变成1.96√[10%(1 – 10%) / 900] ≈ 2%,以后号称收视率10%的节目实际收视率就应在8%和12%之间,缩小误差就这种程度。
撑过这里还没晕过去我们就终于可以来看个体收视率了,以及个体收视率中的分层收视率。继续简化举例,假定样本家庭一共就以下十一户,每家人口数、人口构成、电视机数各自如下表所示。
上例的情况,各电视台的收视率如下:
电视放送事业的三个要素,电视台、收视率、广告,前两个我们就终于说完了,最后一个实际是收视率数字和电视台利益怎么联系起来的问题,决定详细程度可以目前为止的再降低一些,融入隔壁连载的东映御三家那个专题去说。
这个专题本来打算分六个部分,前两个部分以全局视角尽量概说,后四个部分分说日本动画产业九大领域中的六大主要传统领域,网络配信按定义融入电视放送、影像软件和音乐软件合一起说,所以是四个部分。但是粗细程度究竟到一个什么度确实不好把握,标题说是基本但到哪里为止算基本当然也没定义,就容易出现内容上笔者和读者供求不平衡,于是现在决定把这个基本的程度和范围再次缩减,分散融合进其他多个专题里。所以这回其实我突然豁了一把写到自己也不认为算是基本的程度了,不会常态化。剩下的部分中,商品化事业的领域其实隔壁的东映御三家专题已经在简单说了;电影事业的领域将会是那边占比重更大的内容,包括东映六十六年系谱在内这两个东映系列专题都是;然后影音软件事业的领域除了东映专题能提之外,在圆谷百一十年史这个专题里也有机会具体情况具体说,仍然有兴趣的在隔壁这几个都可以看。
封面: 电通本社大楼
© 阿迪 / Anitama
前半部分收视率计算还能看懂,后面的误差计算彻底懵逼了ಥ_ಥ
正听数理统计课听得无聊,打开Anitama看两眼,台上台下…同步了…步了…了…
还在想为什么还不更新,才后知后觉地发现原来这个系列已经完结了···
一般隔一阵上来看一次,大致浏览了一下,想起了大二时被统计学支配的恐怖……
分布函数、置信区间、假设检验,统计学部分的基础内容吧,有过考研数学一经验的应该能理解。。
数学不好,收视率都不会算。。。
好难啊……………
跪着看完这篇文章Orz
公式计算那一块一脸懵逼
这个系列一直在看,到了收视率这儿,终于彻底看不明白了。数学没好好学啊,唉。