蓝鲸
发表于
2022-11-01 14:23:41

思考：我们如何获取信息？(续)

本篇文章是2019年8月文章《思考：我们如何获取信息？》的续篇。前文从宏观的角度描述了我们在不同时代和技术环境下获取信息的过程。本篇文章则从微观的角度来反思获取信息的过程。既然是从微观角度来反思信息，我们就先要问两个最本质的问题，信息到底是什么？以及信息究竟对我们有什么价值？信息是什么？信息是感知和知识的中间环节。简单来说信息就是对感知的筛选和抽象过程，这个过程的结果被存储在大脑的记忆中。并用来对新获得的感知进行判断，推理，并最终形成个人的知识和经验。或者更直白一点来说，形成人与人之间在信息和知识上的巨大差距。这个抽象的过程我会在后面详细说明。信息有什么价值？类比来看，在劳动密集型社会中，信息就像是劳动力。在资本密集型社会中，信息就是货币资本。而在现在的知识密集型社会里，信息就是知识的原料。再直白一点来说，如果在劳动密集型社会中多一个劳动力可以耕种更多的土地，收获更多的农作物。在资本密集型社会中筹集更多的资本可以研发或购买更先进的技术和设备，降低成产成本，获得竞争优势。那么在知识密集型社会中，能获得更多信息，并通过判断，推理形成知识也必然会拉大人与人之间的差距。1，什么是感知？感知就是人们对外部环境的总体感觉。我们从出生开始，无时无刻都在感知着这个世界，无论是主动还是被动的。蓝色的天空，动听的音乐，凉爽的微风以及扑鼻的香气和柔软的座椅，这些都是人们对环境的感知。人们通过视觉，嗅觉 ...继续阅读 (5)

蓝鲸
发表于
2022-10-21 11:26:04

说一说行业分析(1)

行业分析由两部分组织，第一是行业，第二是分析。所以在进行行业分析之前先要搞懂行业，然后才能进行分析和预测。行业是什么？这有点像星座的概念。在天空中肉眼可见的星星一共有6974颗，天文学家将他们按区域划分成88个星座进行定位和观察。行业则是将人们日常的劳动划分为不同的部分。最常见的分类方法是第一产业，第二产业和第三产业。行业的来源如果将行业分类这个概念打散，就像将天空中的88个星座打散为6974颗星星一样。就会发现这些行业的起源。无论是第一产业中的农作物种植，畜牧业。又或者是第二产业中的纺织，服装，还是酿酒和食品加工，或者是运输和通讯。还是第三产业的贸易和公共服务。都有一个相同的起源，家庭。行业是随着经济活动从家庭中转移到市场上逐步发展起来的。这也是经济增长最基本的途径。经济增长的越大，劳动从家庭中(私有)转移到市场上(公有)的速度和比例也就越大。餐馆，预制菜的供给取代了家庭中的农作物种植劳动；洗衣机和扫地机器人取代了家庭中的日常清洁服务；智能手机中的天气预报，备忘录，地图导航取代了大脑中的判断和思考的过程甚至是最基本的记忆功能。从机器替代的体力劳动到AI替代的脑力劳动都是如此，家庭生活中的一切都被外包了。反之，当经济萎缩时，大部分的劳动又将回归家庭。比如，人们会放弃去餐馆就餐和外卖，选择自己做饭和家务。又或者不会为有附加功能的电子设备支付更多的费用。为什么会有这种从家庭转移到市场的 ...继续阅读 (6)

蓝鲸
发表于
2022-10-14 07:36:06

极简产品增长史

前一段我发了一条微博：“商业史上每一次经济衰退或市场萎缩都会刺激企业开发新的产品或市场，怎么到了现在都改成做“私域”了呢？”有留言说：“什么行业也没有增量，只能卷存量。”做“私域”能不能卷到存量我不知道，但某个社交工具的渗透率和活跃度一定是大幅增加了。或者更直接一点来说，“私域”更像是一场社交软件和社群工具的营销盛宴。增长，从来都是依靠产品的技术革新来实现的。不信，我们一起看看自行车这个国民级产品的增长历史。自行车，是我们每个人都拥有并且使用过的出行工具。这种简单且高效的工具使用了人体最强大的肌肉——大腿的股四头肌。脚蹬曲柄有效的将腿部的往复运动转换为车轮平稳的旋转运动，驱动前进。在消耗最少资源的同时，极大地增强了我们移动的能力。一个人骑自行车只需要消耗步行五分之一的能量，并且比任何其他的动物更有效率。Bob Cringley在1995年制作《书呆子的胜利》节目时采访乔布斯时，他曾将个人计算机比作大脑的自行车。“乔布斯：我小时候曾在《科学美国人》上拜读过一篇文章，文中对比了地球上各种不同物种的移动速率，比如熊、猩猩、浣熊、鸟类、鱼类等——当然还有人类——计算它们每移动一公里消耗的热量，最后秃鹫赢了，它的移动效率最高。作为万物之灵的人类，排在倒数第几位。但是杂志特地测量了人类骑自行车的速率。结果把秃鹫远远甩在了身后，在排名上遥遥领先。这篇文章给我留下了深刻的印象，人类擅长发明工具，工 ...继续阅读 (11)

蓝鲸
发表于
2022-09-30 02:09:55

如何留住有价值的人才？

如何才能留住人才？最简单也最直接的答案就是“钱”！这是一个令人满意的答案。但，这是一个最优的答案吗？企业如何留住人才，这不是一个今天才出现的问题。历史上过往的每个企业都会遇到这个问题，并且他们已经有了一套完整且成功的解决方案。我们不需要重复造轮子，看看他们的踩过的坑和解决的方法。在1920年以前的日本，如何留住人才的问题是不存在的。因为当时没有人才，只有劳动力。在劳动密集型的企业，例如纺纱厂中每个人所从事的工作没有任何技术性。这时候每个人都可以被轻易替换。劳动力的来源主要集中在乡村未婚的女孩，农闲时节的男性劳动力以及一些低级武士。随着产量的增加，分工和技术的应用，企业开始寻找一些熟练工人和经过技术培训的工人。最初的人才开始出现了。为了获得这样的人才企业之间开始相互竞争，甚至直接挖同行的墙角。很多从乡村来到城镇的工人刚刚到达车站就被等候的企业抢走。并且，各个企业的人员流动率也很高。一家企业每年100%的人员流动率在当时并不罕见。此时，日本企业用来争夺人才的方法就是“钱”。通过提供更高的薪酬来获得人才。通过“钱”或者是更高的工资留住人才最初效果很好，但随后带来了几个问题。首先，是大量的人员流动带来的生产不稳定。其次，是成本的增加，包括人力的招聘成本和培训成本，而这些成本最终会转嫁到最终商品的价格上。最后，极高的人员流动率导致企业的工人之间缺乏信任和合作，每个人都可能随时离职，大家也不会 ...继续阅读 (8)

蓝鲸
发表于
2022-09-17 01:22:41

预测不如控制，看大企业如何控制市场？

小公司才做预测，大企业控制市场。为什么要控制市场？因为供给和需求之间存在差异，供给总是晚于需求。因为预测不靠谱，未知事件总是让计划变得不可控，因为低效的生成造成浪费，资源闲置或被束缚在设备和人工上。亨利•福特曾这样解释市场带来的问题：我在采购原材料时，除了眼前可见的需求以外，没有任何动机让我采取行动。如果需求稳定，运输顺畅我就不需要保留任何库存。一车又一车的原材料将按照计划的订单和数量准时运达，然后从火车车厢进入工厂生成。那将会节省一大笔钱，因为这将带来快速的周转。从而减少束缚在原材料上的资金。由于市场不稳定，商业变成了一场投机和赌博，人们不得不保留大量的库存。从福特汽车的亨利•福特，到通用创始人威廉•杜兰特，再到杜邦分析法的开创者唐纳森•布朗都希望能对市场进行预测。减少不可知事件的数量。但也都未能逃过1920美国汽车市场的衰退和崩溃。艾尔弗雷德•斯隆和新泽西标准石油的沃尔特•蒂格尔开始尝试市场调研，通过需求反馈来验证市场预测使供给更符合市场的需求。日本企业更加激进，他们将市场和经济上的竞争转移到政治上。1920年日本商人开始进入政界，1930年日本国会议院中约三分之一的议员是商人，12%的下议院议员出现在三井，三菱这样大财阀的工资单上。竞争和预测变成了影响和控制，后者明显有更大的优势。企业通过设备，资金和人力三种基本资源的合理组合，将资源转化为商品或服务，然后通过出售给客户来获得 ...继续阅读 (10)

蓝鲸
发表于
2022-09-10 01:43:25

组织能力就是每个人的职业技能

二十一世纪什么最贵？人才！没有人才就没有组织能力，企业就没有竞争优势！组织能力是什么？谈到组织能力，就一定得聊一聊德国企业的历史。因为德国企业是两次依靠组织能力获得竞争优势并成为欧洲第一工业大国的实例。第一次在一战前，通过组织能力获得竞争优势，成为欧洲工业强国。第二次在一战后，战争结束后依靠组织能力完成企业复苏。1891年的拜耳(Bayer)将组织能力融入到“勒沃库森染厂”的建厂计划中就是一个非常有代表性的例子。从德国企业的历史来看，这种力量来自拜耳，西门子，AFA(Accumulatoren-Fabrik Aktiengesellschaft)等企业中人员生产染料，药品，电器以及蓄电池等具体产品的技能。组织能力是什么？是企业中每个人的职业技能。每个人的能力叠加构成了组织的能力。我在文章《战略，战术，策略和流程》中曾将一个企业的人员分为四个层次。组织能力基本也可以按这四个层次进行分解。第一层：效率职能由下至上来看，第一层是负责日常工作的执行人员。这部分人员关注一项特定任务的效率，目标是如何以最低的成本和最高的效率完成特定的工作。而这也就是第一层中日常执行人员的职业技能。执行人员的职业技能是对特定工序的熟练程度，对特定工具的熟练使用等等。这部分能力要依靠对人员的培训，管理，协调，以及相对应的辅助工具和环境来实现。比如在文章《职能和产品，两种最基本的企业组织》中介绍的拜耳建厂计划就是环 ...继续阅读 (8)

蓝鲸
发表于
2022-09-03 01:16:13

会归类，就懂企业组织

鲸鱼，海豚，属于哺乳类，当有的时候我们也把它们归类为海洋动物。而把同属哺乳类的牛，羊归类为陆地动物。与动物归类一样，企业组织的本质也是一个归类的问题。使“相关之事相互协调”，还是使“相似之事相互协调”。是企业组织结构中的根本问题。职能和产品是企业中最基本，也是最常见的两种组织归类形式。所谓职能就是一个人或机构的职业技能或功能。比如，营销是一种职能，设计又是另一种职能。而产品则是一个企业所产生价值的最终形态。比如，汽车是一种产品，拖拉机是另一种产品。最初的企业大部分以职能作为组织的形式。原因很简单。企业在最开始时只生产单一的产品。比如1891年的拜耳(Bayer)最初是一家染料生产商，主要产品是染料。(距推出阿司匹林(Aspirin)至少还有5年的时间，阿司匹林1899年推出。)当拜耳在1894年在莱茵河畔修建新的厂址时，一个管理人员卡尔•杜伊斯贝格(Carl Duisberg)计划将组织结构设计在建厂规划里。而这个结构就是按职能的组织。(现在依然可以在拜耳的官网的历史传记中找到这位传奇人物的信息。)根据杜伊斯贝格在“关于修建勒沃库森染厂及其组织机构的备忘录”中他将从原料进入工厂，通过生产程序到存储和最终产品运出这一流程划分为五个部门。每个部门的厂房相隔一条120英尺宽的大街。他在建厂规划中说：“有必要把同一个地区工作的所有化学师安排在同一个实验室内，使各方面人员共同协作，并可以相互 ...继续阅读 (4)

蓝鲸
发表于
2022-08-27 02:07:51

谈增长？先看看市场的终点

没有人会参加一场不知道终点的比赛。但企业在做增长时却有很多人不看市场的终点在哪里。任何抛开市场谈增长的行为都是耍流氓！每个人跑步之前都需要先知道终点在哪里，终点不仅是目标，也决定了我们跑步的距离和速度以及跑步的方式。100米的短跑和42.195公里的马拉松是两个截然不同的概念。增长和跑步一样，谈增长之前需要先知道市场的终局是什么样的。当最终能占领的市场只有100米短跑那样狭窄时你无需多想，竭尽全力就好。而当你面对的市场犹如42.195公里马拉松一样广阔时则需要考虑天气，温度，以及你的饮水和补给。两者截然不同，而这种差异是由于市场结构所决定的。所以，在谈增长之前，先要对市场结构进行分析。再决定你的增长方式。市场结构，由于市场和结构两部分组成。市场(Market)源自拉丁语Mercatus，表示交易，除此之外还有流量的含义。古代罗马最著名的两个集市是古罗马广场(Forum Romanum)和图拉真广场(Trajan’s Forum)。而结构是指组成整体的各部分之间的关系和组合方式，在这里就是市场各部分的组合方式。市场，或者说交易由两部分组成，买方和卖方。买方也就是消费者，客户。这部分决定了市场的整体规模和大小。不同的市场规模由大小各异的各部分组成，它们的组合方式也各不一样。举例来说，当我们购买商品时，日常的油盐酱醋在较小的市场随手就可以买到。但一些特殊用途的商品则需要在更大一些的市场才 ...继续阅读 (7)

蓝鲸
发表于
2022-08-20 02:08:27

为什么我的战略不起作用？

作战时需要三个因素：天时，地利，人和。这是孟子在《孟子•公孙丑下》第一章中的内容。战略也是如此，三者中缺少一样战略就不会起作用。相同的战略在不同的企业间经常会产生完全不同的结果。有些企业成功了，有些企业却失败了。横向一体化战略是19世纪美国大企业使用最多的战略，其中很多企业依靠规模效应获得了成功。但同样的战略在英国的企业身上则完全不起作用。战略并非无法复制，但有一些重要的前提条件。战略有“人”的门槛我曾在《5个基本企业战略》中介绍过5种最基本的企业战略，横向一体化，纵向一体化，市场增长战略，产品增长战略和多元化战略。虽然是最基本的5种战略，但并非适合每一家企业。或者换句话来说，有些企业可能根本不需要战略。无论规模庞大托拉斯帝国，还是今天市值过千亿的科技巨头，都必然会经历从0到1的过程。从1886年威廉•杜兰特 ( William C. Durant )购买的马车弹簧悬挂专利许可证，到今天惠普，Apple和Google的车库。这些今天的大企业都经历过从0到1的阶段。这个阶段中的企业不需要战略。就像我们在地铁站外预见的煎饼摊，小区门口的个体蔬菜店一样。他们都不需要战略。反过来说，这时候的任何战略对他们来说也没有任何帮助。直到他们跨过那道门槛。在从0到1的过程中，有些企业成功了，有些失败了。这可能是由多种因素共同作用的结果，比如，所处行业，环境，市场变化，以及突发事件。毕竟，不同的行业间 ...继续阅读 (6)

蓝鲸
发表于
2022-08-13 02:56:36

从1923年的福特看组织如何影响战略

商业竞争中以小博大，逆势翻盘总是最吸引人的故事。每个人都想知道最终的赢家做对了什么。有时候能获得一些战术上的真知灼见，而有的时候，仅仅是因为对手帮衬。仅此而已。本篇就是这样的一个商业竞争故事。大部分企业的组织变革都是从销售部门开始的，1919年的杜邦是这样，1923年的福特也是这样。我在文章《企业和战略 (3)》介绍夏普和佳能的多元化战略时说，虽然这些多样化的产品来自相似的光电，传感器和数字图像处理技术，但真正的核心是组织能力。技术转化为产品只是货币，人力和资源转换的第一步，这些产品必须在充满竞争的市场中完成销售，再次转化为资源才能获得价值。1914年春天，亨利•福特的胭脂河超级工厂把T型汽车的生产时间从12.5小时缩短到1.5小时。庞大的生成能力让每一辆汽车的成本显著下降。1921年，T型汽车的价格下降到440-455美元。亨利•福特为了把超级工厂生产的T型汽车卖出去建立了庞大的销售组织，并且聘用专业的经理来安排和管理销售工作。这时候，组织和战略相互匹配。福特把所有的资源都投入到超级工厂，这些资源生产出一件单一产品：“T型汽车”，并且在这个单一的产品上获得了规模化效应。接下来要把这个足够有竞争力的单一产品卖给更多相似的客户。所以，福特建立国内和欧洲市场的庞大销售组织。通过这样的组织来支持市场扩张战略。市场占有率用数字说明了战略的成功。1921年时，在美国生成的客车中福特的占有率5 ...继续阅读 (5)

蓝鲸
发表于
2017-06-02 07:20:26

AARRR指标——驱动收入可持续增长(3)

在AARRR指标框架的系列文章中，我们探讨了提升驱动业务及收入增长的前两个指标，获取和激活。本篇文章讨论AARRR漏斗中的第三个指标-留存。什么是留存？留存是让客户回到网站进行重复购买的能力。虽然转化率是电子商务网站的终极目标，但只完成一次购买的客户则会带来更多的痛苦。健康的留存率意味着客户对我们的产品和服务感到满意，并愿意频繁的回访网站。创造一个一夜爆红的品牌是相当困难的，相比之下维持良好的客户服务和体验才是你最需要关心的事情。为什么留存很重要？我们引用Econsultancy的几项统计资料：1. 获取新客户的费用是留住现有客户的五倍。2. 客户留存率提高5％，利润将提升25％至95％。3. 有60-70％的机会向现有客户进行销售，但转换一个新用户的机率是5-20％。尽管努力吸引新客户很重要，但适时的维护现有的客户而不是冷落他们，这将给你带来完全不一样的结果。在AARRR的指标框架中，这是从激活通往推荐和收入的通路。如果你不断进入恶性循环“获取 – >一次性的订单 – >流失”。即使你考虑到获取客户的成本，也可能无法打破这个恶性循环实现盈利。另一方面，留存意味着你支付一次获取用户的成本获得重复的订单收入。这样就可以赚到25-95％甚至更多的利润。不仅每个订单的成本下降了，同时他让你专注于使这些忠实的客户开心，而不是追逐未知的潜在客户，并尝试如何转化 ...继续阅读 (5)

蓝鲸
发表于
2017-05-27 02:12:18

AARRR指标——驱动收入可持续增长(2)

我们正在开启一个关于AARRR指标框架(海盗指标)的系列文章。AARRR指标以收入和增长为目标，通过内在5个指标间的逻辑关系改善并推动业务增长。在这个系列文章中我们将详细介绍AARRR指标框架的每个组成部分以及在驱动业务及收入增长过程中的使用方法。在上一篇文章中，我们已经揭秘了第一个指标-获取。本篇文章中，我们将讨论第二个指标-激活。为什么激活在驱动业务及收入增长中如此重要以及如何产生影响。这也是AARRR漏斗中的第二步。哪些行为是AARRR漏斗中的激活？一般来说，激活被定义为访问者与网站的第一次有效交互。用户来到你的网站可能会完成某个任务，也可能会直接离开。但对于大部分的电商类网站来说，网站的主要功能被设计为商品的展示而最终的目的是完成购买。然而据统计显示，登陆网站的人中有96％没有准备购买。在这种情况下，我们需要使用激活指标来度量访问者与网站的第一次交互。下面这些行为都可以算作是一次的激活。因为它们表示了人们对你所销售的产品感兴趣：• 注册网站• 订阅电子邮件/博客• 下载资源• 关注你的社交媒体账号• 观看演示或产品视频• 使用免费提供的工具• 阅读内容再进一步，我们还需要对这些激活行为设置衡量目标，并从中发现有效激活。因为：• 仅仅完成注册是不够的，用户必须能保持回访并定期登录。• 仅仅订阅电子邮件是不够的，打开邮件阅读或取消订阅表明了用户是否真的有兴趣。• 仅仅下载资 ...继续阅读 (13)

蓝鲸
发表于
2017-05-19 08:41:47

AARRR指标——驱动收入可持续增长(1)

获取：AARRR指标第1部分我们正在开启一个关于AARRR指标框架(海盗指标)的系列文章。AARRR指标以收入和增长为目标，通过内在5个指标间的逻辑关系改善并推动业务增长。在这个系列文章中我们将详细介绍AARRR指标框架的每个组成部分以及在驱动业务及收入增长过程中的使用方法。AARRR指标框架的创建者是Dave McClure。因为读音非常像海盗喊话，因此也被称为海盗指标。AARRR真正的含义来自五个指标名称的缩写。这五个指标分别是：获取(Acquisition)，激活(Activation)，留存(Retention)，推荐(Referral)，收入(Revenue)。这是每个企业都应该关注的基本指标。我们将对这五个基本指标逐一进行介绍，并且思考如何使用这些指标通过一些简单的步骤来提升业务及收入的表现。这才是最重要的。本系列的重点在于通过提供一些简单的方法和基本的要领让AARRR指标框架发挥作用。因此这最适合经常关注：“如何产生更多销售额？”的企业负责人们。AARRR指标框架的设计初衷就是用来帮助企业增加收入的，因此我们的指标框架对销售增长负责。获取：获取用户我们探索的第一个指标是获取，这是 AARRR漏斗模型中的第一个。如何才能得到人们的关注并获取新的客户？我建议你把自己的产品和服务主动推送到用户面前。因为无论你的产品有多么好，人们都需要了解它。这是一个最简单的道理，但我们却经 ...继续阅读 (6)

蓝鲸
发表于
2017-05-12 03:07:13

像Excel一样使用R进行数据分析(1)

Excel是数据分析中最常用的工具，本篇文章通过R与excel的功能对比介绍如何使用R通过函数式编程完成excel中的数据处理及分析工作。我们总结出最常用的50个函数，通过这些函数介绍如何通过R完成数据生成和导入，数据清洗，预处理，以及最常见的数据筛选，回归预测和假设检验等最常见的操作。本系列文章共分为三篇10个部分。这是第一篇，介绍前3部分内容，数据表生成，数据表查看，和数据清洗。以下是本系列文章部分内容的目录。1，生成数据表第一部分是生成数据表，常见的生成方法有两种，第一种是导入外部数据，第二种是直接写入数据。 Excel中的文件菜单中提供了获取外部数据的功能，支持数据库和文本文件和页面的多种数据源导入。1.1. 导入数据表R支持从多种类型的数据导入。下面分别是从csv格式文件导入数据并创建数据表的方法。导入数据的代码是最简模式，里面有很多可选参数设置，例如列名称，索引列，数据格式等等。感兴趣的朋友可以使用help函数来查看完整的使用方法。#导入csv数据表 data=data.frame(read.csv("data.csv"))#查看read.csv的使用方法 help("read.csv")1.2. 创建数据表另一种方法是通过直接写入数据来生成数据表，excel中直接在单元格中输入数据就可以，R中通过下面的代码来实现。数据表一共有7行数据，每行有5个字段。在数据中我们特 ...继续阅读 (4)

蓝鲸
发表于
2017-05-05 02:37:37

使用python和tableau对数据进行抓取及可视化

本篇文章介绍使用python抓取贷款及理财平台的数据，并将数据拼接和汇总。最终通过tableau进行可视化。与之前的python爬虫文章不同之处在于之前是一次性抓取生产数据表，本次的数据需要每天重复抓取及存储，并汇总在一起进行分析和可视化。开始前的准备工作开始之前先导入所需使用的库文件，各个库文件在整个抓取和拼表过程中负责不同的部分。Requests负责页面抓取，re负责从抓取下来的页面中提取有用的信息，pandas负责拼接并生成数据表以及最终的数据表导出。#导入requests库(请求和页面抓取) import requests #导入正则库(从页面代码中提取信息) import re #导入科学计算库(拼表及各种分析汇总) import pandas as pd设置一个头文件信息，方便后面的抓取。这个头文件有两个作用，第一防止抓取时被封，第二方便后面对页面源文件的转码。#设置请求中头文件的信息 headers = {'User-Agent':'Mozilla/5.0 (Windows NT 6.1) AppleWebKit/537.11 (KHTML, like Gecko) Chrome/23.0.1271.64 Safari/537.11', 'Accept':'text/html;q=0.9,*/*;q=0.8', 'Accept-Charset':'ISO-8859- ...继续阅读 (11)

蓝鲸
发表于
2017-04-21 03:42:32

像Excel一样使用python进行数据分析-(3)

Excel是数据分析中最常用的工具，本篇文章通过python与excel的功能对比介绍如何使用python通过函数式编程完成excel中的数据处理及分析工作。在Python中pandas库用于数据处理，我们从1787页的pandas官网文档中总结出最常用的36个函数，通过这些函数介绍如何通过python完成数据生成和导入，数据清洗，预处理，以及最常见的数据分类，数据筛选，分类汇总，透视等最常见的操作。这个系列文章内容共分为9个部分。已由人民邮电出版社出版，感兴趣的朋友可以在异步社区获取完整版。前两篇文章链接在这里：像Excel一样使用python进行数据分析-(1)像Excel一样使用python进行数据分析-(2)这是第三篇，介绍第7-9部分的内容，数据汇总，数据统计，和数据输出。7，数据汇总第七部分是对数据进行分类汇总，Excel中使用分类汇总和数据透视可以按特定维度对数据进行汇总，python中使用的主要函数是groupby和pivot_table。下面分别介绍这两个函数的使用方法。分类汇总Excel的数据目录下提供了“分类汇总”功能，可以按指定的字段和汇总方式对数据表进行汇总。Python中通过Groupby函数完成相应的操作，并可以支持多级分类汇总。Groupby是进行分类汇总的函数，使用方法很简单，制定要分组的列名称就可以，也可以同时制定多个列名称，groupby按列名 ...继续阅读 (8)

蓝鲸
发表于
2017-04-14 02:45:52

像Excel一样使用python进行数据分析-(2)

Excel是数据分析中最常用的工具，本篇文章通过python与excel的功能对比介绍如何使用python通过函数式编程完成excel中的数据处理及分析工作。在Python中pandas库用于数据处理，我们从1787页的pandas官网文档中总结出最常用的36个函数，通过这些函数介绍如何通过python完成数据生成和导入，数据清洗，预处理，以及最常见的数据分类，数据筛选，分类汇总，透视等最常见的操作。这个系列文章内容共分为9个部分。已由人民邮电出版社出版，感兴趣的朋友可以在异步社区获取完整版。第一篇文章链接在这里：像Excel一样使用python进行数据分析-(1)本篇文章这是系列的第二篇，介绍第4-6部分的内容，数据表生成，数据表查看，和数据清洗。4，数据预处理第四部分是数据的预处理，对清洗完的数据进行整理以便后期的统计和分析工作。主要包括数据表的合并，排序，数值分列，数据分组及标记等工作。数据表合并首先是对不同的数据表进行合并，我们这里创建一个新的数据表df1，并将df和df1两个数据表进行合并。在Excel中没有直接完成数据表合并的功能，可以通过VLOOKUP函数分步实现。在python中可以通过merge函数一次性实现。下面建立df1数据表，用于和df数据表进行合并。#创建df1数据表 df1=pd.DataFrame({"id":[1001,1002,1003,1004, ...继续阅读 (16)

蓝鲸
发表于
2017-04-06 08:04:28

像Excel一样使用python进行数据分析-(1)

Excel是数据分析中最常用的工具，本篇文章通过python与excel的功能对比介绍如何使用python通过函数式编程完成excel中的数据处理及分析工作。在Python中pandas库用于数据处理，我们从1787页的pandas官网文档中总结出最常用的36个函数，通过这些函数介绍如何通过python完成数据生成和导入，数据清洗，预处理，以及最常见的数据分类，数据筛选，分类汇总，透视等最常见的操作。文章内容共分为9个部分。这是第一篇，介绍前3部分内容，数据表生成，数据表查看，和数据清洗。以下是《像Excel一样使用python进行数据分析》系列文章的目录。1，生成数据表第一部分是生成数据表，常见的生成方法有两种，第一种是导入外部数据，第二种是直接写入数据。 Excel中的文件菜单中提供了获取外部数据的功能，支持数据库和文本文件和页面的多种数据源导入。python支持从多种类型的数据导入。在开始使用python进行数据导入前需要先导入pandas库，为了方便起见，我们也同时导入numpy库。import numpy as np import pandas as pd导入数据表下面分别是从excel和csv格式文件导入数据并创建数据表的方法。代码是最简模式，里面有很多可选参数设置，例如列名称，索引列，数据格式等等。感兴趣的朋友可以参考pandas的官方文档。df=pd.Data ...继续阅读 (13)

蓝鲸
发表于
2017-03-26 13:54:20

使用python训练贝叶斯模型预测贷款逾期

朴素贝叶斯(Naive Bayes)是一种简单的分类预测模型，本篇文章将使用机器学习库scikit-learn中的Gaussian Naive Bayes算法对贷款历史数据进行建模。并通过模型对新贷款用户的逾期情况进行模拟预测。准备工作首先是开始前的准备工作，导入所需的库文件。依次为数值计算库numpy，科学计算库pandas，交叉验证库cross_validation和朴素贝叶斯算法库GaussianNB。#导入数值计算库 import numpy as np #导入科学计算库 import pandas as pd #导入交叉验证库 from sklearn import cross_validation #导入GaussianNB库 from sklearn.naive_bayes import GaussianNB读取并查看数据表读取并创建名为loan_status的贷款历史数据。这里我们只包含了两个特征和极少的数据用于说明计算的过程。在真实的环节中要预测贷款的逾期情况所需数据量要大得多。按宜人贷公布的信息，他们的风控系统包含了250个特征和超过100万条的历史贷款数据，并且还有一个黑名单系统。#读取历史贷款状态数据并创建loan_status数据表 loan_status=pd.DataFrame(pd.read_excel('loan_status.xlsx'))以下是 ...继续阅读 (20)

蓝鲸
发表于
2017-03-09 14:02:44

使用PCA对特征数据进行降维

PCA（Principal Component Analysis）是机器学习中对数据进行降维的一种方法。主要目的是在不丢失原有数据信息的情况下降低机器学习算法的复杂度，及资源消耗。本篇文章将使用python对特征进行降维。PCA通过线性变换将原始数据中可能相关的数据转换为一组线性不相关的数据。以本篇文章中所使用的贷款用户特征数据来说，其中包含了贷款用户的借款金额，利息，利率，年收入，信用卡账户数量等多个维度的信息。而这些信息中不同维度的数据间可能会存在关联，例如，当我们知道了借款金额和利率后，就可以计算出利息。这种情况下，我们保留其中的两个维度就可以保证原有信息完整。因此我们可以将这3个维度的数据减少为2个维度。下面我们将使用Python来说明使用PCA对贷款数据进行降维过程。准备工作首先导入所需要的库文件，这里是我们常用的数值计算库numpy，科学计算库pandas和数据预处理库preprocessing以及PCA算法库。后面我们将对使用这些库文件对贷款数据进行导入，读取，标准化处理。#导入数值计算库 import numpy as np #导入科学计算库 import pandas as pd #导入数据预处理库 from sklearn.preprocessing import StandardScaler #导入PCA算法库 from sklearn.decompositi ...继续阅读 (14)

蓝鲸
发表于
2017-02-24 13:37:14

使用本福德定律甄别数据造假(Benford’s Law)

数据造假的甄别在数据分析领域是一个热门的话题，也是对数据分析师的一项挑战。分析数据造假的方法有很多种。我们在前面的系列文章中曾经介绍过两种检验作弊流量的方法。一种是根据历史经验及分布情况的多维度交叉检验，另一种是使用随机森林模型根据已知作弊流量的特征对新流量进行分类及预测。本篇文章介绍一种神奇的数据检验方法，本福德定律(Benford’s Law)。本福德定律是一种用途广泛的数据检验方法，在安然公司破产和伊朗大选选票甄别中都曾被使用到。本福德定律通过自然生成的数字中1到9的使用频率对数据进行检验。如果你的数据具备一定规模，没有人工设定的最大值和最小值，并且数据本身受人为因素影响较小。那么就可以使用本福德定律对数据进行检验，甄别数据是否经过人为修饰。本福德定律及公式本福德定律中自然生成的数字首位为1的概率为30.10%，2的概率为17.61%，依次递减，首位为9的概率仅为4.58%。依据这一期望概率值我们可以对数据进行检验。以下是本福德定律的计算公式。通过这一公式可以计算出1-9中每个数字出现数据首位的概率。举例来说，对于数字9下面的公式可以计算出一组自然生成的数字中9出现在数字首位的概率是多少。我们使用本福德定律公式逐一计算了数字1-9出现在首位的概率。以下是每个数字出现的概率值。后面会根据这一期望的概率值对数据是否进行过人工修改进行甄别。通过图表可以更较直观的看到本福 ...继续阅读 (7)

蓝鲸
发表于
2017-02-10 14:42:23

使用MS Access SQL进行简单的数据分析

本篇文章使用MS Access SQL对Lendingclub 2015年1月——6月的数据进行提取和简单的分析。主要内容包括贷款的关键指标，包括金额，笔数，利息收入。以及贷款用户的地域和职业分布，还款情况和贷款期限等数据。下面是贷款数据表的截图。关键指标及趋势第一部分是获得数据表中的关键指标，这里包括贷款总笔数，总金额，总利息收入和贷款金额的范围以及均值等指标。贷款总笔数及金额首先对数据表的用户id列member_id进行计数，取名为count，对贷款金额列loan_amnt进行求和，取名为sum，对利息总收入列total_rec_int进行求和，取名为total_int。SELECT COUNT(member_id)as count,SUM(loan_amnt)as sum,ROUND(SUM(total_rec_int),2) as total_int FROM loanstats;贷款金额范围及均值然后对数据表的贷款金额列loan_amnt求最大值和最小值，以及均值。计算贷款金额的范围和均值。SELECT MAX(loan_amnt)as MAX,MIN(loan_amnt)as MIN,ROUND(AVG(loan_amnt),2)as AVG FROM loanstats;月贷款金额及笔数趋势按贷款发生时间进行汇总，分别对用户id列进行计数，对贷款金额列进行求和，获得按 ...继续阅读 (27)

蓝鲸
发表于
2017-01-20 14:51:38

使用Python分析纽约出租车搭乘数据

在纽约，出租车分为两类：黄色和绿色。黄色出租(Yellow TAXI)车可以在纽约五大区（布朗克斯区、布鲁克林区、曼哈顿、皇后区、斯塔滕岛）内任何地点搭载乘客。绿色出租车(Green TAXI)则被规定只允许在上曼哈顿、布朗克斯区、皇后区和斯塔滕岛接客，这两类出租车均由私人公司经营并受到纽约市出租车和轿车委员会（NYC Taxi and Limousine Commission）的监管。本篇文章使用python对绿色出租车2016年1月——6月的数据进行分析，探究绿色出租车的是使用趋势，用户使用习惯以及天气因素对出租车使用量的影响。开始前的准备工作开始分析之前先进行导入库文件和数据的准备工作，首先导入分析过程中需要使用的库文件，用于对数据进行计算和格式转换，这里不再赘述，请见下面的代码。#导入所需的库文件 import numpy as np import pandas as pd import time,datetime import matplotlib.pyplot as plt然后分别导入green_taxi 2016年1月至6月的数据表，并对数据表进行进行拼接。组成用于分析的完整数据大表。#导入green_taxi2016年1-6月数据 green_taxi1=pd.DataFrame(pd.read_csv('green_tripdata_2016-01.csv')) ...继续阅读 (22)

蓝鲸
发表于
2017-01-08 14:25:55

使用python抓取新浪微博数据

本篇文章是python爬虫系列的第四篇，介绍如何登录抓取新浪微博的信息。并对其中的关键内容进行提取和清洗。开始前的准备工作首先是开始之前的准备工作，与前面的文章相比，我们除了导入库文件，还把设置登录页URL，以及登录用户密码也放在了准备工作中。下面分别来说明。导入所需的库文件，第一个是requests，用于请求和页面抓取，第二个是re正则库，用于从页面的代码中提取所需要的信息。第三个是pandas库，用来进行拼表以及数据导出。#导入requests库(请求和页面抓取) import requests #导入正则库（从页面代码中提取信息） import re #导入pandas库(用于创建数据表和导出csv) import pandas as pd开始抓取前，先找到新浪微博的登陆页面地址，PC端的页面内容较多，我们选择通过移动端页面登陆微博。地址是http://m.weibo.cn/，点击登陆后，跳转到登陆页面地址https://passport.weibo.cn/signin/login，这是我们要提交用户名和密码进行登陆的地址。此外还需要找到要抓取页面的URL地址。这里我们抓取“蓝鲸碎碎念”的微博首页。http://weibo.com/askcliff/home#设置登陆用户名和密码 payload = { 'username': '用户名', 'password': '密码'} ...继续阅读 (15)

蓝鲸
发表于
2016-12-30 05:11:54

《人人都是網站分析師｜看穿網站流量的祕密》

时间过的真快，转眼已经到了2016年的尾声。QQ上接到机械工业出版社编辑的留言，要结算一笔版权输出的费用。我在2015年3月出版的《人人都是网站分析师：从分析师的视角理解网站和解读数据》已经版权输出到台湾地区，并且开始出版发行了。感觉挺意外的。在这里感谢机械工业出版社华章分社的杨编辑为版权输出所做的努力。台湾繁体版的书名为《人人都是網站分析師｜看穿網站流量的祕密》繁体版的内容与简体版内容一致，但价格稍贵一些。售价380元新台币。折合人民币82.24元。亚马逊和淘宝也有售，后者的价格略低一些。除了纸质版以外，《人人都是网站分析师：从分析师的视角理解网站和解读数据》在亚马逊上还提供Kindle电子书。感兴趣的朋友可以购买下载。最后感谢所有读者在2016年的陪伴。祝各位朋友元旦快乐！—【所有文章及图片版权归蓝鲸（王彦平）所有。欢迎转载，但请注明转自“蓝鲸网站分析博客”。】— ...继续阅读 (16)

蓝鲸
发表于
2016-12-23 14:54:34

使用python训练随机森林模型辨别可疑流量

通过数据分析辨别可疑和虚假流量的方法我们在之前的文章中曾经介绍过。本篇文章我们对这个方法进行自动化，介绍如何通过随机森林分类预测模型对流量进行分类，从中发现可疑流量的影子。需要特殊说明的是本篇文章中的数据并非真实数据，我们只使用三个简单用户行为特征指标对方法和过程进行说明。真实世界中情况会更加复杂。随机森林是一个包含多颗决策树的分类预测算法。通过随机抽样的方式从数据表中生成多张抽样的数据表，对每个抽样的数据表生成一棵决策树。将多颗决策树组成一个随机森林。当有一条新的数据产生时，让森林里的每一颗决策树分别进行判断，以投票最多的结果作为最终的判断结果。下面我们来介绍如何在python中使用机器学习库sklearn建立随机森林模型并进行分类和预测。准备工作首先导入需要使用的库文件，依次为数值计算库numpy，科学计算库pandas，交叉验证库cross_validation和随机森林分类算法库RandomForestClassifier。#导入数值计算库 import numpy as np #导入科学计算库 import pandas as pd #导入交叉验证库 from sklearn import cross_validation #导入随机森林算法库 from sklearn.ensemble import RandomForestClassifier读取并查看数据表读取流量数 ...继续阅读 (12)

蓝鲸
发表于
2016-12-15 13:56:53

使用python抓取并分析京东商品评论数据

本篇文章是python爬虫系列的第三篇，介绍如何抓取京东商城商品评论信息，并对这些评论信息进行分析和可视化。下面是要抓取的商品信息，一款女士文胸。这个商品共有红色，黑色和肤色三种颜色， 70B到90D共18个尺寸，以及超过700条的购买评论。京东商品评论信息是由JS动态加载的，所以直接抓取商品详情页的URL并不能获得商品评论的信息。因此我们需要先找到存放商品评论信息的文件。这里我们使用Chrome浏览器里的开发者工具进行查找。具体方法是在商品详情页点击鼠标右键，选择检查，在弹出的开发者工具界面中选择Network，设置为禁用缓存(Disable cache)和只查看JS文件。然后刷新页面。页面加载完成后向下滚动鼠标找到商品评价部分，等商品评价信息显示出来后，在下面Network界面的左侧筛选框中输入productPageComments，这时下面的加载记录中只有一条信息，这里包含的就是商品详情页的商品评论信息。点击这条信息，在右侧的Preview界面中可以看到其中包含了当前页面中的评论信息。(抓取价格信息输入prices)。复制这条信息，并把URL地址放在浏览器中打开，里面包含了当前页的商品评论信息。这就是我们要抓取的URL地址。https://club.jd.com/comment/productPageComments.action?callback=fetchJSON_com ...继续阅读 (16)

蓝鲸
发表于
2016-12-11 13:57:42

使用python抓取并分析数据—人人贷(urllib)

本篇文章是使用python抓取数据的第二篇，使用urllib方法对人人贷网站贷款列表页进行抓取。并从中获取贷款用户，金额和期限的分布情况。准备工作首先是准备工作，导入需要使用的库文件，re用于通过正则提取数据，time用于设置Sleep时间，numpy用于数值计算，pandas用于数据汇总和分析，urllib用于数据抓取，matplotlib用于数据可视化。#导入所需库文件 import re import time import numpy as np import pandas as pd import urllib.request import matplotlib.pyplot as plt抓取列表页开始抓取前设置列表页的URL地址，其中page-后面的部分是页码，将在后面动态生成。url=’http://www.we.com/loan#page-‘设置请求的头文件信息，这部分内容可以在Chrome的开发者工具中获得，或者在网站搜索头文件信息。#设置请求头文件信息 headers = {'User-Agent':'Mozilla/5.0 (Windows NT 6.1) AppleWebKit/537.11 (KHTML, like Gecko) Chrome/23.0.1271.64 Safari/537.11', 'Accept':'text/h ...继续阅读 (13)

蓝鲸
发表于
2016-12-03 19:12:57

使用python抓取并分析数据—链家网(requests+BeautifulSoup)

本篇文章是使用python抓取数据的第一篇，使用requests+BeautifulSoup的方法对页面进行抓取和数据提取。通过使用requests库对链家网二手房列表页进行抓取，通过BeautifulSoup对页面进行解析，并从中获取房源价格，面积，户型和关注度的数据。准备工作首先是开始抓取前准备工作，导入需要使用的库文件，这里主要使用的是requests和BeautifulSoup两个。Time库负责设置每次抓取的休息时间。这里并非全部，后续还会在过程中导入新的库。import requests import time from bs4 import BeautifulSoup抓取列表页开始抓取前先观察下目标页面或网站的结构，其中比较重要的是URL的结构。链家网的二手房列表页面共有100个，URL结构为http://bj.lianjia.com/ershoufang/pg9/，其中bj表示城市，/ershoufang/是频道名称，pg9是页面码。我们要抓取的是北京的二手房频道，所以前面的部分不会变，属于固定部分，后面的页面码需要在1-100间变化，属于可变部分。将URL分为两部分，前面的固定部分赋值给url，后面的可变部分使用for循环。#设置列表页URL的固定部分 url='http://bj.lianjia.com/ershoufang/' #设置页面页的可变部分 page ...继续阅读 (23)

蓝鲸
发表于
2016-12-02 13:18:18

使用K-Means算法对数据进行聚类

K-Means是聚类算法的一种，以距离来判断数据点间的相似度并对数据进行聚类。前面的文章中我们介绍过K-Means聚类算法的原理及实现。本篇文章使用scikit-learn库对数据进行聚类分析。准备工作开始之前先导入要使用的各种库文件，首先是scikit-learn库，然后是数值计算numpy和科学计算pandas库，以及用于绘制图表的matplotlib库文件。from sklearn.cluster import KMeans import numpy as np import pandas as pd import matplotlib.pyplot as plt读取并查看数据表读取用于聚类的数据并创建名为loan_data的数据表，用于后续的聚类分析。#读取用于聚类的数据，并创建数据表 loan_data=pd.DataFrame(pd.read_csv('loan_data.csv',header=0))#查看数据表 loan_data.head()#查看表中的各列的名称 loan_data.columns Index(['member_id', 'loan_amnt', 'term', 'grade', 'emp_length', 'annual_inc', 'issue_d', 'loan_status', 'total_pymnt_inv', 'total_rec_ ...继续阅读 (19)