大数据时代产生了大量具有时空标记、能够描述个体行为的空间大数据,如手机数据、出租车数据、社交媒体数据等。这些数据为人们进一步定量理解社会经济环境提供了一种新的手段。近年来,计算机科学、地理学和复杂性科学领域的学者基于不同类型数据开展了大量研究,试图发现海量群体的时空行为模式,并建立合适的解释性模型。笔者采用“社会感知(social sensing)”概念构建了空间大数据研究框架,指出社会感知就是借助于各类空间大数据研究人类时空间行为特征,进而揭示社会经济现象的时空分布、联系及过程的理论和方法。值得一提的是,与强调基于多种传感设备采集微观个体行为数据的社会感知计算(socially aware computing)相比,社会感知更加强调群体行为模式以及背后地理空间规律挖掘。
社会感知数据可从三个方面获取人的时空间行为特征:(1)对地理环境的情感和认知,如基于社交媒体数据获取人们对于一个场所的感受;(2)在地理空间中的活动和移动,如基于出租车、签到等数据获取海量移动轨迹;(3)个体之间的社交关系,如基于手机数据获取用户之间的通话联系信息。由于空间大数据包含了海量人群的时空间行为信息,使得我们可以基于群体的行为特征揭示空间要素的分布格局、空间单元之间的交互以及场所情感与语义(如图1所示)。空间大数据提供的社会感知手段,第一次为地理学乃至相关人文社会科学研究开启了一种“由人及地”的研究范式。而“社会感知”这一概念,正是概括描述了空间大数据在相关研究与应用中所提供的数据以及方法上的支撑能力。
本文梳理了近年来针对空间大数据开展的研究,尤其是其中用到的数据分析与模式发现方法。这些方法一方面借鉴了计算机领域的最新进展,另一方面也充分考虑了地理空间的规律和特征。
根据社会感知的概念,对于空间大数据的研究可以分为“人”和“地”两个层面。前者关注人的空间行为模式,以及模式所受到的地理影响;后者则侧重于在群体行为模式的基础上,探讨地理环境的相关特征。
空间大数据可以感知人的三个方面的空间行为模式,如图1所示。其中,移动是个体层次空间行为最直接的外在表现。由于大数据对于移动轨迹的获取能力较强,因此目前的研究多集中在移动模式和模型的建立。
动物以及人在空间中移动所展示的规律性是复杂系统领域研究的一个重要议题。每个个体的移动模式可以表示为随机游走(random walk)模型。通过对动物的移动进行观察,发现其移动步长和角度的统计分布特征呈现一定的模式,提高了觅食的效率。当移动方向均匀分布,而步长为幂律分布,且指数在1~3之间时,移动为列维飞行模型(Levy flight),如图2所示。与动物相比,人的出行目的更加多样化,并且存在一个或者多个频繁重访地点,这使得人的移动模式与动物的移动模式存在机理上的差异。在海量个体移动轨迹数据的支持下,我们可以观察人的移动模式并构建相应的解释模型。从布罗克曼(Brockmann)等人发表在《自然》上的基于钱币追踪数据开展的研究开始,许多学者利用手机、出租车、社交媒体签到等数据探讨了人的移动模式,并且试图建立解释性模型。
步长的统计分布是移动性模式表达中的重要元素。对于移动轨迹而言,由于距离衰减,使得长距离出行的概率较低,而短距离出行的概率较高。表征这种分布特征的函数有幂律分布、指数分布、指数截断的幂律分布等[5~9]。许多学者试图建立模型以解释观察到的人类移动模式。除了距离衰减影响外,解释移动模式需要考虑的因素还包括地理环境和个体的空间行为特征。其中地理环境因素决定了潜在的个体移动到访点的空间分布,该分布通常与人口密度分布正相关;而个体的空间行为特征则反映了人们移动中的一些个性化的规律。目前得到较多关注的是个体轨迹中的重访点,这是人类移动和动物移动存在较大差异的方面。人类移动存在家和工作地等频繁重访的地点,具有较高的可预测性[10]。在地理环境分布特征方面,我们通常从城市范围内及城市间两个尺度分别探讨移动性模式。城市范围内的移动受到城市用地结构的影响。对于一个城市而言,通常市中心区土地开发强度较大,居民出行的密度相对较高,而在城市边缘地区,土地利用强度和出行密度都相对较低。这种地理环境分布模式使得城市尺度的移动步长分布尾部不那么“重”[11]。而对于城市间的移动,城市体系中不同规模的城市空间分布同样影响了观测到的移动模式。韩(Han,音译)等人探讨了层次城市体系对于人类移动模式的影响,指出人们在低层次城市之间的移动通常要经由高层次城市,从而产生了步长的幂率分布特征[12]。
目前研究所采用的空间大数据多数都是“移动轨迹丰富,活动信息不足”,这使得轨迹背后丰富的语义信息(尤其是出行目的信息)缺失。在交通地理学研究中,出行目的是理解出行移动模式的基础,不同的出行目的受到空间的约束也不同。一些学者试图结合轨迹数据、时间约束以及地理环境特征,推断出行目的,从而达到充实轨迹语义的目的[13,14]。
个体层次的时空间行为除了移动和活动外,社交关系(social ties)也是很重要的要素。利用空间大数据可以揭示社交关系背后的地理影响。这方面的研究主要包括个体地理位置对于个体间社交关系的影响[15,16]以及个体空间移动与社交关系的相互作用[17,18]两个方向,目的是探求空间距离和时空共现(spatio-temporal co-occurrence)与社交关系之间的量化联系。
不同类型的大数据可以揭示一个区域或城市的活动以及人口分布状态。大数据的时间标记可以用于解释人口分布的动态变化特征。这种变化特征往往具有较强的周期性。对于城市研究而言,尤其以日周期变化最为明显。城市居民在居住地点和工作地点之间的通勤行为产生了相关地理单元人口密度的时变特征(如图3a)。因此,我们可以基于城市不同区域对应的活动日变化曲线来研究其用地特征和在城市运行中所承载的功能。
利用空间大数据所提取的活动分布特征感知土地利用类别的基本依据是活动量日变化特征对地块的指示能力。提取特征时通常采用非监督分类方法,最常用的算法有k-平均算法(k-means)聚类、k-中心点算法(k-medoids)聚类等[19~21]。我们经常可以看到相同的土地覆被对应不同的居民活动特征,而外形相近的建筑可能承担了不同的社会功能,与之相较,利用大数据提取活动分布特征的方法从活动角度更为全面地解读了城市土地利用情况。在分类过程中,因为功能相同的地块存在活动强度的差异,如高密度居民区和低密度居民区,尽管人口总量不同,但是其人口密度日变化特征相似,故而在非监督分类过程中,通常需要对活动时变曲线进行归一化处理。此外,考虑城市居民工作日和周末的不同活动特征,在一些研究中,会将工作日数据和非工作日数据分开处理。由于空间大数据所提取的活动时空分布信息可以处理成与传统遥感数据相似的形式,因此除了非监督分类外,一些图像处理方法也可以应用于社会感知数据。图3b展示了如何从人对于城市空间利用的视角去解读城市的结构特征。近年来,也有一些研究采用主成分分析以及非负矩阵分解方法,识别一个城市不同区域活动变化的全局和局部变化特征[22~25]。此外,张量(tensor)也是分析时空大数据的有效工具,张量模型的高阶(high order)表达能力能够描述时空数据在时间、空间、个体状态等多方面的特征。王静远等使用张量分析了城市交通节律、社区组团、用地性质等要素之间的联系[26],范(Fan,音译)等人对城市时空数据进行了谱分析,研究了不同个体在不同时间、不同地点对于突发灾害事件的响应模式[27](如图4所示)。
社交媒体(推特、微博等)中包含了大量文本数据,成为语义信息获取的重要来源。带有位置的社交媒体数据通常占3%,研究者可以利用这部分数据揭示与地理位置有关的语义信息。目前的研究主要包括三个方向:(1)获取一个场所的主题词(图5a);(2)获取与场所有关的情感信息(图5b),如高兴还是抑郁[28~30];(3)获取对于特定事件(如灾害[31]、事故[32]、
疾病[33])的响应。由于社交媒体数据是大量用户自发创建的,分析语义信息及其时空模式有助于政策制定者了解社情民意并制定相关公共政策。在社交媒体文本语义处理中,潜在狄利克雷分配 (Latent Dirichlet Allocation, LDA)模型被广泛应用,以确定每条信息所表示的主题以及相关的情绪信息。然而,由于社交媒体数据中每条文本存在字数的限制,并且内容随意性较强,因此如何从中挖掘更加精确的、有意义的信息,尚需进一步研究。
近年来,深度学习技术的发展使得自动提取识别照片语义信息成为可能。一些研究基于对照片共享网站带有时空标记的图像进行内容分析,揭示地理环境的特征(图5c)。
与基于文本的语义信息提取相比,照片语义信息更为客观且丰富。每张照片反映了拍照者对于场所的感知。周(Zhou,音译)等人利用在全球不同城市拍摄的照片,研究比较了城市的空间特征,其发现的模式有助于评估城市规划的效果[34]。考虑到文本和照片不同的表达能力,我们认为结合文本和照片语义信息,能够全面捕获一个地理场所给人们带来的体验。
在地理学研究中,空间交互(spatial interaction)指的是两个场所之间的联系,通常可以基于人流、货流、资金流等进行量化。研究空间交互有助于理解一个区域内部的结构以及动态演化特征。在空间大数据中,个体的移动轨迹以及个体之间的社交关系都可以在聚集层面量化两个场所之间的交互强度,前者如两个城市间的人流总量,后者如两个城市之间互相关注的好友对数。空间交互强度受到距离衰减效应的影响,距离远的两个地理单元间的联系相对较弱。因此,在地理学研究中,大多基于重力模型来拟合场所之间的交互强度,采用距离的负幂函数(d-β)表示空间阻隔的影响。目前可用的拟合方法有线性规划法、代数求解法、模拟法等[35~37]。根据重力模型拟合结果,可以通过距离衰减系数β来表征特定空间交互行为中距离衰减效应的大小,即β值越低,距离的影响越小。实证研究表明,对于居民在城市尺度的移动行为,距离衰减系数在1~2之间,而对利用手机、社交媒体等途径建立的空间交互,距离衰减效应尽管较弱(β<1),但依然存在影响[38]。
利用地理单元之间的空间交互,可以构建嵌入空间的网络(spatially-embedded network),并引入网络分析方法研究其结构特征。在该网络中,通常每个节点为一个地理单元,而边的权重为地理单元间交互的强度,如图6a所示,基于空间交互,构建嵌入空间的网络,从而引入网络科学分析方法,分析研究区的空间结构特征[47]。在复杂网络研究中,常见的分析方法是对网络进行社区发现(community detection)分析,而网络中的社区由相对联系更为紧密的节点构成。目前,用于社区发现的算法有Girvan-Newman[39]、Multilevel[40]、Fastgreedy[41]、Infomap[42]和Walktrap[43]等。对于嵌入空间的网络而言,一个社区往往对应地理空间中联系相对紧密的区域[44~47]。由于距离衰减效应以及行政区划的影响,如果仅仅考虑交互强度而不考虑相邻约束,社区发现的结果通常为空间上连续的区块,并且往往与行政区划边界相一致(图6b)[48]。
结合传统空间数据的分析和应用
城市是空间大数据产生最频繁的区域。因此,空间大数据的应用研究目前主要集中在城市区域。相关的研究领域有交通管理、城市规划、环境、公共卫生等。在此基础上,郑宇等提出了城市计算(urban computing)的概念,利用包括空间大数据在内的城市多源数据进行计算分析,发现并解决城市运行中的问题[49]。
在上述应用中,除了空间大数据外,还要结合传统空间数据(如城市用地和建筑数据、道路网数据、检测站点数据等)进行分析。例如,王(Wang,音译)等人利用旧金山和波士顿地区的手机数据和路网数据,发现了交通拥堵路段的车流来源,并且给出了缓解拥堵的建议[50];郑(Zheng,音译)等人利用监测站数据、天气数据以及交通和人的移动数据,推断城市的实时精细分辨率空气质量数据,该结果有助于城市居民规划户外活动[51]。由于空间大数据的获取建立在海量群体的空间行为的基础上,因此使我们能够更好地感知人的行为模式及其与地理环境之间的耦合模型。我们认为建立在社会感知基础上的公共政策制定,更能够体现“以人为本”的理念,有着广阔的应用前景。
空间大数据为我们提供了一条透过海量人群的空间行为模式去观察、理解地理环境特征及影响的研究路径。社会感知概念的提出正是概括了空间大数据的这种能力。空间大数据的处理,一方面需要有高效的分析方法,一方面需要对人的行为动力学模型和地理环境特征有充分的理解。因此,需要信息科学、复杂性科学、地理学等不同学科以及不同应用领域的学者进行通力合作,才能有效提取空间大数据中所蕴含的信息,并充分体现其应用价值。■
致谢:感谢刘曦、康朝贵、王静远、李栋等几位博士对本文插图的绘制工作。
作者:
刘 瑜北京大学遥感与地理信息系统研究所教授。主要研究方向为地理信息科学。
本文来自《中国计算机学会通讯》2015年第11期《专题》
End.