IT博客汇 | 互联网人群画像和你所不知道的真相（一）

互联网人群画像和你所不知道的真相（一）

Sidney Song发表于 2015-08-02 11:09:20

　　作为新时代互联网营销的关键部分，人群画像引起了诸多兴趣，近年颇为风靡。几乎所有的互联网广告供应商都不约而同的强调，他们有足够精确的人群画像数据，确保能够找到广告主真正的受众。但是事情果真如此吗？人群画像是否是一劳永逸的解决方案？本文尝试解答这些问题。

　　作者：宋星（网站分析在中国创始人，WAW中国创始人）

　　如果抛开所有灰色的因素，广告追求的唯一效果应该就是找到对的人。作为广告三要素（广告位置、创意、受众）中唯一不能事先确定的要素，人（即受众）变幻莫测，让无数广告人茶饭不香，彻夜难眠。

　　我们用尽一切手段找到对的人，例如，电视广告的露出非常讲究不同频道、节目和时点对于人群的覆盖；楼宇广告与楼盘和地理位置相关联，以便厘清不同人群的购买力；杂志上的广告则跟杂志对应的行业主题紧紧相连。这是不需要解释的逻辑。但是到了互联网上，这个逻辑面临挑战，因为互联网这个虚拟的世界与现实世界相比，实在是大大不同。

　　这个不同在于，与传统世界相比，互联网是一个更能够“监视”每一个人的地方。每一个人，他在互联网（无论是桌面还是移动端）上的很多痕迹都会被各种或明或暗的机构或个人记录存储，然后被用于各种其他的目的。这些痕迹是什么？后面会仔细介绍。

　　这些目的中最重要的之一是用于广告，既然我们能够监视个体，理论上我们就能知道他（或她）是谁，然后判断他是不是“对的人”，如果是，我们就会在他下一次出现在网络世界中的时候，让我们的广告出现在他眼前，或是直接“骚扰”他。这种方法的效果比传统广告投放的效果肯定会好太多。

　　因此，互联网上的广告投放可以脱离于广告载体本身，而直接针对每一个具体的人。传统广告，是先考虑广告载体（电视频道或节目、杂志内容、地址或楼盘等）来反推受众大概是什么类型的人，然后放一个大家看到的都一模一样的广告（而且载体的物理条件也已经限制了，不可能让每个人看到的广告不一样）；互联网广告则完全可以通过你在互联网上的多种痕迹知道你是什么样的人，广告的内容和创意可以根据你的具体情况来进行安排，而不需要根据网站上的内容（或在手机APP的类型）来放一个所有来这个网站的人都看到的一模一样的广告。

　　这个逻辑简单而诱人，而且已经几乎是彻底的改变了互联网广告的版图。如果你足够细心，你会发现现在互联网上很多广告跟你在网上的某些行为发生了关联，例如你浏览了某宝商品之后，会发现很多页面都有类似商品的广告出现了。几乎所有的传统互联网广告公司都将自己拥有准确的人群定向能力作为卖点，以强化人们对其效果的信心。基于互联网网民个人信息识别进行针对性广告投放的专门公司也突然激增，到2015年有近百家出现。专门“监视”并且描绘互联网每个个人的第三方公司也开始出现，2015年也超过十家，且增速迅猛。运营商、互联网巨头也开始对外界提供部分的他们自有的用户数据。而对互联网世界中不同人群进行类型识别和描绘的工作，也有了更简洁的说法——人群画像，或是用户画像。

　　人群画像突然成为互联网营销不可或缺的金字招牌。这个金字招牌的究竟是什么？与之相关的说法，哪些可靠，哪些不靠谱？我希望在一系列文章中把这些问题弄清楚。

人群画像的经典构成要素

　　人群画像从字面理解，是把人群的情况用数据的方式描绘出来。人群画像和个体画像并不完全相同。千万不要混为一谈。

　　给个体画像，指描述不同个人的过程。在广告行业中，描述个体所用的方法被称为“打标签”，和电子商务中给商品打标签很类似——商品上的标签包含商品唯一的身份识别SKU，以及名称、价格、产地、生产日期、保质期、原材料等信息。而给个人打标签，也是把这个人的信息以标准化的方式组织存储起来，并附着在这个人的唯一身份标识上。这里多说一句，互联网上对于人的唯一身份标记手段包括cookie（主要是PC端），或者是IMEI、IDFA等（主要是移动端）。如果一个人在互联网世界中没有一个唯一身份标识，那么对这个人的画像就无从谈起，因为谁知道谁是谁？所以，人群画像的最基本前提是对人的唯一身份的标记。

　　人群画像与个体画像有强关联，人群画像必须基于对个体的画像，但却高于个体的画像，体现为人群作为一个集群的整体特征。人群是个体的集合，对什么人群进行画像是根据广告营销的目标受众（target audience）或者细分目标受众（audience segmentation）为对象进行的。例如，iPod生产商的人群画像显然是针对听音乐感兴趣的人，NB运动鞋厂则想对运动时尚人群画像。

　　人群画像与个体画像相似之处在于，两者都是对人的描述。但人群的描述需要归纳人群所呈现出的共性，而非多样性特征。可是，就像没有任何两个人是一模一样的，对个体的画像也不可能一样，当每个不同的人集合成群体，就需要用一定的方法寻找他们的共性，并构建这些共性与营销策略上的逻辑相关性。

　　人群画像的经典构成要素，也就由此产生。它包括三个非常关键的组成部分：个体的标识，个体的画像（即打标签）以及对人群共性的抽象。第一个是一切的前提，第二个是基础，第三个是对前者的组合、抽象、分析和加以利用。

　　下面及后续的文章我们将逐一详细看看这三个组成部分究竟有何玄机。

唯一身份标识

　　在互联网世界中匿名“旅行”是一个人的基本权利（至少部分是），这给追踪一个人的行动带来了麻烦。既然不能实名，那么我们至少要给他们起一个名字。

　　这个名字跟真实世界中的名字很不同。首先，这个名字是一串没有什么意义的随机字符，其次，这个名字的存在可能连当事人自己都不知道。

　　比如说，你去了一个网站，管你注册登录与否，这个网站都会给你安一个名字，当你下次来的时候，哪怕你继续不登录，这个网站也会知道你来了。这个东西太普遍了，以至于现在几乎所有的网站都使用这个东西，它的名字叫cookie。

　　即使是同一个人，每个网站也都给这个人不同的cookie命名，这很容易理解，因为每个网站有自己的命名规则。所以，唯一身份标识是相对的，对于同一个网站，不同的人，应该有唯一的识别，但这个人去了别的网站，理论上就是别人的事情了，这个人会被别的网站起上别的cookie命名，而且是其他网站根本无从知晓的。这就引起了一些问题，我们下面不久就会讲。

　　随着移动端的发展，唯一身份标识用cookie就不好用了，因为移动端上APP用量巨大，而cookie必须随着网站存在，APP没有这东西。不过，没有cookie没关系，移动端有别的东西来标识人。在移动端，唯一身份标识最常用的是手机的IMEI号码，或者IDFA（苹果手机对人的识别号），或者其他很多别的ID。各种ID中的一些类别，理论上具有与手机硬件捆绑的唯一性（手机不同，号码不同，而且手机不变，号码不变），比如前面的IMEI和IDFA（IMEI和IDFA实际上都可以被修改，但可以认为很接近与手机绑定），不会根据手机中装的APP或者上的网站的不同而发生变化，因此这类识别号比cookie看起来更好。

　　那么，现实世界中，这些唯一身份标识好用吗？

　　有人说，现实是个大坑，我很想反驳这个观点，但似乎真实世界真的在强化自己的“大坑”。所谓知易行难，我们知道这些东西好，但未必能用的好。我们继续往下看。

PC上的唯一身份标识

　　首先看看PC上的cookie。在PC中，每个网站只能建立自己的cookie，那么一个网友到了别的网站去，这个网站就看不到他了。对于网友而言，这个事情很好，他不会担心别人知道了他去了“苍老师”的网站。但是对于做广告的营销人而言，这个可是大大的不好。因为不同网站对人的标识不同，会造成无法追踪一个人浏览不同网站的行为，也就无法判断这个人的喜好是什么，画像的基础也就不存在了。为了解决这个问题，一些广告公司想了一个办法，让在不同的网站上访问的同一个人，享有同一个cookie，这个cookie不属于网站，而属于这个广告公司。简单讲，就是这个广告公司给这个人起了一个名字，然后让这个到哪个网站上，都仍然有这个名字，这时就能判断这个人看了哪些网站了。这种cookie叫做第三方cookie，而最初的那种cookie叫第一方cookie。第三方cookie是个好东西，能够跨越不同的网站识别同一个人。而只有实现了跨越不同的网站识别同一个人，才能给每个个人进行画像的前提。

　　看起来好像问题解决了，可是，忽然有一天，我们发现cookie这东西越来越不靠谱。原因在于“隐私保护”！人们不喜欢cookie，谁乐意被一个第三方在你不知情的情况下跟踪你的网络行为呢？这个问题，对于第三方cookie尤其如此。因为第一方cookie毕竟只能限制在一个网站内，而第三方cookie则有更大的工作范围。欧洲人抗议最凶，于是欧洲立法要求网站使用cookie时，都要在网站弹出窗口警示访问者，并且要征得用户同意才能保存这个人的cookie。中国虽然没有什么立法，但是老百姓也不知道cookie是干啥的，反正可能有害的那就一定有害，于是很多能够禁用或者清除cookie的浏览器出现了，拥趸众多。Cookie开始越来越不受待见，由于频繁的清除和禁止，标识同一个人的cookie的平均生命周期越来越短，现在只有30天左右，而第三方cookie则更加受到限制，很多连建立的机会都没有。

　　有取代cookie的更好的方法吗？在PC端，替代方法有很多，但真正说能取代的，对不起，还真是木有。比如，有人说，用电脑的MAC（网卡硬件编号）来识别就是很好的办法啊！但是这个东西没这么简单，第一，你凭什么技术能识别这个？第二，识别这个是法律禁止的！还有人说，用Flash cookie（Adobe公司Flash的唯一用户识别信息），这个方法还不是照样被浏览器禁用，而且Flash越来越为人所诟病，支持它的网站也在减少。

　　还有人用另外一种技术方法，似乎可以一定程度上提升cookie的存活期。方法是这样：利用一种被称为“钩子算法”的计算机程序，能够关联同一个人的老cookie（cookie被清除前）和新cookie（老cookie被清除后又被赋予的新cookie，理论上这两个cookie已经完全不同了），从而延续一个cookie的生命周期。不过这个方法的致命性在于精确性，对于数以百万计的cookie而言，每做一次“钩子”勾连都是只有一定的准确性，误判难免发生。即使每一次钩子的准确性都有90%，那么做五次之后，准确率也就不到一半了。

　　这些方法都不能根本上解决cookie生命周期逐渐变短这个现实。如果只是对互联网用户进行短时间的标识，cookie还是可用的，但越是需要长时间的对于人的识别，cookie的准确性就越低。

　　所以，PC上的识别，很多人不得已想很多办法去追踪硬件号码，但这个方法是不合法的，而且追踪之后也不能直接用于广告投放上。人群画像，理论上不应该基于PC的硬件识别号。如果这方法不能用，那么只能接受不完美的cookie去进行短期的人群识别使用。

　　现在，你应该明白，如果有广告商跟你讲，我们持续数月甚至数年积累同一群人PC上的行为数据，本身就是一个不靠谱的忽悠。这方面，只有大的有账号体系的互联网媒体，才做得到。

　　整个系列的文章很长，所以第一期讲到这里，我们先休息一下呷口水。在下一期中，我们接着讨论mobile端的唯一用户身份标识以及更多的行业中流传的靠谱不靠谱的用户标识方法，敬请期待！

作者简介：

　　宋星，网站分析在中国网站的创始人和全部文章的作者，WAW中国创始人，百度广告主投放商业咨询部总经理。同时，也是百度认证钻石讲师、北京航空航天大学特聘教授、北京传媒大学MBA特约讲师。