缘起网络调查具有先天的优劣势 最近一个季度做了N多调研项目,结项之余,不由自主地对比了一下网络调查与传统调查的优劣,详见下图: 有了这些先天的优劣势,网络调查一般执行的周期较短,但时常为了样本均衡,会采用脉冲式投放,收集数据的时间会适当延长一些。在我主导的网络调研项目中,投放的样本量一般都有几十万,一是为了能够快速收集足够多的调研样本,二是考虑到低响应率的问题。 如此大的投放量,而网络调研中又有很多不可控的因素,最终使用的有效调研样本量相对较低,他们到底是否能够有效代表总体呢?我想这个问题可以一分为二来看,在相同的执行条件下,只针对性地研究特殊用户的调研,有效调研样本在达到一定量的前提下,代表性偏差一般不大;需要推断网站全体用户的调研,虽然有效调研样本也能达到一定量,但代表性还是会打折扣,尤其是对淘宝用户而言。 加权弥补网络调研数据先天的劣势 统计学中关于随机抽样的理论中讲过,一个研究随机抽取多少样本与总体的大小无关,而主要与最大允许误差和置信区间有关。但真正执行的时候,未必会这么理想,尤其是在人力财力有限的条件下,随机抽取的投放样本与有效调研样本之间,受响应率和认真填答的积极性等因素影响,会存在偏差。 那么在推断网站全体用户的调研中,就需要引入加权的思想,适当的加权可以使样本的关键结构,调整到与总体的关键结构相一致,从而提升样本的应用范围,所得结论会更严谨更具推广性;针对特殊用户的调研,也可以对样本进行加权,更有效地发挥样本的代表性。 加权的经典场景(例子中引用的数据均为虚拟数据,仅作为说明问题的案例,与真实数据无关) A场景:常常遇到这样的问题:产品经理想要了解全体买家对某一个产品的使用体验、需求或满意度,也要比较初级买家和高级买家。 一般而言,随机抽取条件下,95的置信度、5的最大允许误差,推及目标总体所需样本量为384个,此处为计算方便,近似为400个。 事先已知,全网初级买家与高级买家的比例为39:1,高级买家所占比例仅为2。5。若按照随机抽样原则抽取投放样本,为保证高级买家对比时满足统计需要,至少应有400个调研样本。那么,随机填答的前提下,总体调研样本至少需要16000个,响应率按照5计算,需要投放的样本量达到32万。这只是理想状态下的情况,事实上高级买家的响应率更低,这就使得需要投放的总体样本量更大,工作中又不能经常投放如此大量的用户。事前我们无法保证统计要求,怎么办? B场景:若要推及全体卖家对某一产品的使用体验,如果随机抽取了20万投放样本,最终有效调研样本有4000个。经过数据匹配可知,调研样本的开店时间分布与总体存在较大差异,而该研究中开店时间是非常重要的指标。事后我们无法保证统计要求,怎么办? 不论是事前还是事后,为使得研究有效,应该保证统计要求;调研理论与现实执行常常存在很大差距,这也是不争的事实。因此,研究中引入加权的思想,非常重要也很有必要。 加权的前提 样本加权是为了推及总体情况,主要用于两种情形: 加权的准备 范欣珩于杭州翠苑三区 如何加权单变量比例加权 为了比较初级买家与高级买家之间对某一产品的体验差异,采用非等比随机抽样,事先增加了高级买家的抽中比例。 当需要推及总体买家对这一产品的体验情况时,需要对数据进行加权,结果如下: 上表第d列(SP)是用各级别买家在调研样本中占的比例除以其在总体中占的比例,其值越接近1,说明该级别买家在调研样本中的比重越合适;反之,其值越背离1,其在调研样本中的比重越不合适。 若恰巧各组的这一比值均接近1,可以近似等同总体分布,而不对调研样本进行加权。本例显然需要对调研样本进行加权。 首先要确定加权的起点在哪里?这里有三种选择: 1)以SP的最小值(本例0。69)为起点,将其他组的SP值都降低到这个水平,因此叫做Scaledownweighting(水落石出法)。其结果是将原调研样本缩小SP最小值倍(本例0。69,原调研样本7200人,每组权重为0。69d列相应值,加权后减至4968),放水过多,不合适 2)以SP的最大值(如本例的8。33)为起点,将其他组的SP值都提高到这个水平,这种策略叫做Scaleupweighting(水高船涨法)。其结果也就是将原来的调研样本放大SP最大值倍(本例8。33倍,原调研样本7200人,每组权重为8。33d列相应值,加权后会增至59976人),可见水分太大,不可取。 3)以SP的加权平均值为起点,将大于1的SP值调低至1而将小于1的SP值调高至1,因此叫做Zerosumweighting(有增有减但总数不变法)。加权后的样本数与原调研样本相同、还是7200(见表第f列)。可见这种方法相比之下最合理,学术界和调查业界通常都用它来加权。 比例加权需要注意的几个问题: 1)加权只能调整样本各组之间的相对比例、并不会产生任何新的信息。 2)一个重要细节是如果SP值中有小于0。5(也即PS值或权数大于2)的,则不能靠过分灌水来解决问题。这时的对策有三个: l增加那些采样不足的(undersampled)组别的case数量(上策) l用SP值最小值(Scaledown的策略)来加权(最保守、浪费资源、但不犯I类错误) l前两者的结合,即增加部分case数然后按新的最小SP值来加权 3)如果那些采样不足的(undersampled)组case数量太少(一般不能少于30),需要按2)同样的原则来处理。 对于2)和3)中提到的情况,另外一种变通的方法就是重新划分组,此法省时省力。 4)经过加权的样本,能够推算总体的常规统计量,但计算误差时则不能用加权样本直接计算。 5)为了便于解释,上述例子只涉及一个变量(买家级别)的加权。实际上,研究买家除了级别,注册时长、月成交量额等也很重要。所以需要用多个变量同时加权(weightedbyseveralvariablessimultaneously)。 (本小节以上内容参考了香港城市大学祝建华博士的BLOG文章《如何对样本进行加权?》http:zjz06。ycool。compost。2695611。html,在此表示感谢,愿祝老师健康、笔耕不辍!) 总结一句话:在随机抽样的前提下,比例加权的本质就是将调研样本分布修正为等比随机抽样分布。 如何加权单变量推及量加权 为什么用推及量加权: 1)上小节提到的获取总体参数的变通方法:在总体中用简单随机抽样抽取一定数量的样本,能够获得一个较大的样本,用来推及总体依然带有少许误差。用加权处理的调研样本推及这个大样本群体的行为和态度更为恰当,有时候需要直观的知道这个大样本群体中每种划分的组内有多少人。 2)比例加权的运算方法有些麻烦;而推及量加权的运算方法简便。 推及量加权的依据: 1)加权的前提与比例加权相同:修正非等比随机抽样NPPS和等比随机抽样PPS 2)两种方法等价: 比例加权:PnSn 推及量加权:PnSn(PnP)(SnS)(PnSn)PS由于每一组case相对于比例加权都扩大了PS倍,即每一个样本都扩大了PS倍。绝大部分研究结果都以比例呈现,而计算比例的时候,每一个样本扩大的PS倍没有影响,因此推及量加权适用。 推及量加权需要注意的事项与比例加权相似,此不赘述。 如何加权多变量推及量加权 加权的步骤和方法相同 单变量加权时,以买家级别组为例,需要分别统计三组的总体比例(量)和调研样本的比例(量) 多变量加权时,各个变量进行交叉,如三组级别、三组注册时长、三组月成交量,即组合出27组,分别统计这27组的总体比例(量)和调研样本的比例(量) 总结一句话:多变量加权实际上就是单变量加权的复杂版。 如何加权实际操作 通过EXCEL和SPSS对数据进行加权: 1)通过SPSS计算总体中大样本的有关参数和调研样本相应的统计量 2)将结果放入EXCEL进行整理,注意单变量或多变量交叉后的对应,并批量编写SPSS命令 3)将命令拷贝到记事本,再拷到SPSS的Syntax中运行命令