中国SARS疫情的探索性空间数据分析.pdf
《中国SARS疫情的探索性空间数据分析.pdf》由会员分享,可在线阅读,更多相关《中国SARS疫情的探索性空间数据分析.pdf(10页珍藏版)》请在三一文库上搜索。
1、第! “卷第#期 ! “ “ $年#月 地球科学进展 % & %( ) * +, (* %- ./+ ) , * ( ) * 0 1 2 ! “!( 0 2 # 3 4 5 2! “ “ $ 文章编号“ 6 “ “ 6 7 8 6 9 9! “ “ $“ # 7 “ ! 8 ! 7 6 “ 中国3 2 + 3疫情的探索性空间数据分析 “ 范新生! 应龙根 ! 华东师范大学地理信息科学教育部重点实验室“ 上海! “ “ “ 9 !# 摘!要“ 运用空间统计学手段对中国省级+ %- +疫情的空间分布格局做了探索性的空间数据分析 ! H R B 1 0 5 4 F 0 5 WA B 4 F E 4
2、1T 4 F 44 G 4 1 W A E A# $3 0 5 4 G 7 ,统计分析表明+ %- +疫情的分布具有很强的空间自 相关“3 0 5 4 G+ ? 4 F F H 5 B 1 0 F进一步揭示了这一空间关系的地域差异及其各区位+ %- +疫情分布对总 体趋势的偏移“ $统计则确定了疫情分布的空间集聚模式及其随时空转移轨迹$分析表明中国 省级+ %- +疫情的发展并非一个相互独立的过程“ 而是存在着统计学意义上可测度的空间关系“ 且这种关系在空间相邻时最为显著$ 关!键!词“ + %- +% 流行病学% 空间统计学% 探索性空间数据分析% 中国 中图分类号“ = :#) 8 !文献
3、标识码“% “!引!言 + %- +!+ H V H 5 H% ? C F H- H A B E 5 4 F 0 5 W+ W G T 5 0 H“ 是 由一种新的冠状病毒引起的传染病# 6“#$% 最早发现 于广东% 随后传播到香港以及其他地区% 直到! “ “ # 年:月$日世界卫生组织将最后一个+ %- +疫区台 湾排除% 历时半年多的+ %- +疫情终于划上了句 号&但最近中国卫生部和世界卫生组织对广东一例 + %- +疑似病例的确诊使公众关心+ %- +是否和流 感! E G X 1 C H G Z 4“ 一样是一种季节性疾病?病毒会不会 从医院和实验室里泄露出来?+ %- +的出现
4、已经提 出了很多在临床医学和流行病学方面的问题# $& 目前国内已有一部分科研机构用统计分析模型 研究+ %- +流行期各项可能的影响因子% 预测疫情 的走势和估计潜在的风险&如王铮等# $%9$对中国 + %- +疫情流行期的气候特征和天气特征做了事件 相关分析和统计分析% 提出+ %- +流行的气候风险 作为认识+ %- +流行的季节性风险的基础% 估计了 全国流行+ %- +的季节性风险% 认为+ %- +疫情高 发可能与大约8日前的气温日较差阶段性降低有关 系&叶沿林等# :$在考虑每个 + %- +病人每日平均 传染概率和直接传染平均期限的基础上建立了一个 统计分析模型% 认为每个病
5、人可以造成直接感染他 人的期限平均在! “天左右&但是这些研究忽视了 + %- +疫情地理分布的空间关系&王劲峰等 #8$认为 空间数据不同于时间序列数据% 并对空间数据的性 质以 及 空 间 统 计 分 析 方 法 做 了 介 绍# 月:日卫生部的疫情通报获 得% #月# 6号后的内地数据由中华人民共和国卫生 部授 权 发 布+ %- +疫 情 信 息 的 中 国 网 !U F F B) * * 2 A 4 5 A 2 ? U E G 4 2 ? 0 2 ? G“ 上获取&香港( 澳门( 台 湾的数据源于世界卫生组织网站 !U F F B) * *2 U 0 2E G F*? A 5*A 4
6、 5 A*H G* “ 公布的疫情通报% 包括#月 “!收稿日期“! “ “ 7 “ ! 7 ! $# 修回日期“! “ “ 7 “ : 7 6 !2 $基金项目“ 国家自然科学基金项目+ 中国地区经济增长空间分析, ! 编号) “ ! : 6 “ # #“ 教育部科学技术研究重点项目+N , +空间数据现 代分析, ! 编号)“ # “ : “ 资助2 !作者简介“ 范新生!6 月下旬$ 短短几个月时间内已经在中国内 地! 9个省份% 港澳台地区报告有非典型肺炎临床诊 断病例或疑似病例!至$月中旬$ 中国内地及港澳 地区的疫情已经得到了控制$ 但台湾地区的疫情却出 现了骤然上升的势头$ $月
7、! 6“! $日$ 每日新增报告 + % - +病例达到$ “宗以上!进入9月份$ 中国+ % - + 疫情总体上得到了有效地控制$ 直到:月6 日$ 世界 卫生组织+ % - +疫区名单上最后一个地区 台湾 被排除$ 至此中国+ % - +疫情划上了句号! 综合上面的分析$ 将整个中国疫情数据分为 个阶段( “ 6#第一阶段为+ %- +发源期$ 从! “ “ !年6 6 月6 9号广东发现首例+ %- +到! “ “ #年#月# 6日 中国卫生部第一次通报疫情! “ !#第二阶段为+ %- +暴发中心“A C B H 5 A B 5 H 4 T ? 1 C A F H 5# 转移期“! “
8、 “ #年月6日“! $日# ! “ #第三阶段北京成为新的+ %- +暴发中心“ 月! 9日“$月6 $日# ! “ #第四阶段台湾出现+ % - +高发期“$月6 9日 “ :月6 日# !不同阶段+ % - +确诊病例数% 累计 + % - +报告病例数$ 以及累计+ % - +死亡人数见表6! !空间联系和空间权重矩阵 从广义上讲$ 空间分析是空间现象的定量化研 究!这意味着空间分析的重点是在区位% 区域% 距离 和相互影响上!地理学第一定理) 6 !*指出( 在地球表 面$ 每一个事物都和其它事物相联系$ 而距离越近则 它们的联系也越强!为了准确无误地理解+ 近, 与 + 远, 在特
9、定环境中的意义$ 研究对象的观测值需要 参照它们分别在空间中的区位!这种空间区位及其 空间联系一般通过空间权重来表达! 最初由3 0 5 4 G和N H 4 5 W开发的空间联系的测 量$或更精确地说$ 空间自相关的测量$ 是建立在空 间单元相邻与否的二元逻辑基础上的) 6 #*!按照这 一定义$ 邻居的结构由“ 7 6来表达!如果!个空间 单元共有非零长度的边界$ 那么它们就被认为空间 上相邻$ 从而赋予6的空间贴近度$ 否则赋予“!这 一空间相邻的测量是通过在地图上分析区域边界来 实施的!对于不规则的空间单元布局$ 这种定义和 工作方法非常直观!但当空间单元布局呈规则的栅 格或是一组不规则
10、分布的点时$ 空间相邻的测量就 比较复杂! 在大多数空间数据分析研究时$权重矩阵的构 造一般都同时考虑了距离的关系和简单的空间相邻 问题!为使用距离指数$ 一般用观测点之间的距离 来定义一个“ 7 6的空间权重对称矩阵!在这里点的 选择既非主观亦非基于距离的长短$ 而是以被观测 区的行政中心来代表它的区位$ 距离则采用两点之 间的欧几里德直线$ 不考虑地表障碍物及其它因素! 当区域$和区域7的行政中心的距离在给定的距离 +之内时$ 空间权重矩阵的元素-J $ 7 . 为6$ 否则为 “ )6 #*! 在本研究中$ 我们构建了6 #组空间权重矩阵! 第一组“ +I3# 只考虑空间相邻因素$ 内地
11、各省市及 港澳地区都按照有无公共边界来决定是否存在邻接 关系& 对于台湾地区$ 尽管其与福建% 上海% 浙江的空 间距离很小$ 但是由于目前两岸尚未实现+ 三通, $ 人 员来往均需通过港澳入境$ 所以仅将港澳地区设为 它的 邻 居& 其 它6 !组 空 间 权 重 矩 阵 “+I “ $6 $*$ 其公式为( 8O)!$!7D $ 7 “ P$Q“# “P7Q“# * 0) ! !$!7D $ 7 * “ 6# 其中“ P$Q“# “P7Q“# 代表属性的相似性指标$P$是 位置$的属性值$ “是样本中所有属性值的均值$ ! 是样本的方差$ D $ 7 是空间权重矩阵! #8! 第#期!范新
12、生等( 中国+ % - +疫情的探索性空间数据分析! 万方数据 表!中国3 2 + 3疫情原始资料 4 & C ( ,!A S / &!1 . , V H . D , I3 2 + 30 & 1 , 1 编号省份纬度!P经度!_阶段6阶段!阶段#阶段累计病例死亡病例 6 新疆 #2 8 ! # # 9 “8 :2 : “6 “ 62 9 $ 9 # : 8 “6“6“ 云南 ! $2 6 6 $ 8 ! : ! “!9“86 9 四川 # “2 : $ 9 8 9 $ “6 “ 2 “ 6 9 “ # “#98$! ! : 宁夏 # 82 $ ! : 9 : ! # 9 “ “6 “ 82 #
13、 “6 6$! !# 6 “ 陕西 # 2 ! 9 8 6 ! ! “6 “ ! 9 ! “!6 “6 !“ 6 6 内蒙 “2 8 8 : : “ “6 6 62 : ! 8 6 : 8 “ 6 # 山西 # :2 8 # 9 “ “6 6 !2 : : 6 9 : $! 6 湖南 ! 82 6 9 9 $ 2 : ! 8 9 6 “6 6 #2 $ : 6 9 ! : “ : 8 “6 6 2 2 ! : 6$6$ ! “$ 8 6 6 8 “6 6 :2 ! $ $ $ 9 6 8 96 ! 6 江西 ! 82 : # ! : “ “6 6 :2 “ 8 ! 8 8 “6“6“ ! #
14、安徽 # 62 江苏 # !2 “ ! # ! ! “ “6 6 82 9 9 “ 6 ! : 辽宁 62 8 “ 8 9 6 “6!:! ! 8 上海 # 62 6 $ $ : $ 9 $ “!96 2 “ $ # $ ! $2 8 2 ! “ 8 “ $ “$ # “ 台湾 ! $2 6 6 $ 8 ! $ : $ 9 $ “6 “# 6! 6 8$ 8 $ #8 !3 0 5 4 G 7 ,测度考察中的变量空间取值的相似 性“当,的值为正时# 表明变量取值表现出空间上 的相似性$ 当,的值为负时# 则表现出变量空间取值 的不相似性“,值的统计学意义可通过标准正态化 后的O检验来评价“根据
15、中国+ %- +疫情计算的 3 0 5 4 G 7 ,值见表!“ 由表!可知# 第一阶段% = 7 6& 第三阶段%= 7 #& 以 及死亡人数% T H 4 F U项在选择矩阵+ )3作为空间 权重矩阵时# 表现出强烈的空间自相关% :%“2 “ $& “ 但是#3 0 5 4 G 7 ,只是揭示了一个考察中空间场的一 般性质# 并未给出空间关系的局域分布#而这对于 一 个 非 平 稳 空 间 过 程 %A B 4 F E 4 1 G 0 G 7 A F 4 F E 0 G 4 5 W B 5 0 ? H A A&而言是极为重要的“6 年% G A H 1 E G (6 #)提 出了空间
16、联系的局部指标 , + %# 可以揭示局部直 至每个空间单元的空间自相关性质# 其中一种重要 的手段就是3 0 5 4 G+ ? 4 F F H 5 B 1 0 F“ 图6通过3 0 5 4 G+ ? 4 F F H 5 B 1 0 F提供了中国省级 + %- +疫情% 第一阶段& 空间自相关性质的局域化分 析“在图6中# 各点横坐标值为第一阶段各省标准 化后的+ %- +报告病例数# 纵坐标值为标准化后 + %- +报告病例数的空间位滞%A B 4 F E 4 1 1 4 S& “一个 地区的空间位滞是其相邻区域的+ %- +报告病例 的加权平均值“图6中个象限把省级+ %- +疫情 的空间
17、自相关性质分为类* %/& 高值地区和高 值邻居% 第一象限& $ %/& 低值地区和高值邻居% 第 二象限& $ % & 低值地区和低值邻居% 第三象限& $ %/& 高值地区和低值邻居% 第四象限& “第一象限 和第三象限代表正的空间自相关# 而第二象限和第 四象限则揭示了负的空间自相关“3 0 5 4 G+ ? 4 F F H 5 7 B 1 0 F还可以用来确定拟合度和找出偏离一般趋势的 8!地球科学进展!第! “卷 万方数据 异常点!如在图6中“ 我们对标准化后的+ %- +报 告病例数及其空间位滞作线性回归“ 得到的斜率即 为3 0 5 4 G 7 ,的值“而广东和香港因远离一般趋
18、势的 回归线被确定为极端异常值! 表)!中国3 2 + 3疫情 H . & / $ B计算结果 4 & C ( ,)! ( H C & (% , & 1 U . , 1H - 1 V & D & ( & U D H 0 H . . , ( & D H / $ H . & /!1 B 空间权 重矩阵 阶段6阶段!阶段#阶段累计病例死亡病例 R值:值R值:值R值:值R值:值R值:值R值:值 + )3!2 6 ! $“2 “ # “2 # $ 9“2 : ! !2 “ “2 # “ 9d“2 $ 6“2 9 $ !d“2 # “2 9 9 $ +I 7 6 “62 6 : #“2 ! 6d62 6
19、“ !“2 ! : 6d“2 9 “ $“2 $ $d“2 $ 9“2 9 “ # +I 7 6 662 “ # #“2 # “ !d62 6 # “2 662 “ 9 $“2 ! 8 :d“2 : 6 $“2 : $d“2 $ $ “2 $ 8 ! +I 7 6 !62 “ # #“2 # “ !d62 6 # “2 662 “ 9 $“2 ! 8 :d“2 : 6 $“2 : $d“2 $ $ “2 $ 8 ! +I 7 6 #“2 9 8 “2 d“2 6 “2 9 “ :“2 $ “2 9 8 “2 “ :“2 9 8 “2 8“2 $ ! $“2 $ 8 9“2 $ $ $“2 $
20、: “2 6 ! :“2 8 9 +I 7 6 :“2 # 8 “2 “2 ! 9 $d“2 “ ! 8“2 “ 9“2 9 8 $d“2 “ “2 “2 #“2 6 # 8“2 8 “ +I 7 ! “2 !d“2 # 8 :“2 9 :“2 : ! 8“2 # $ 6“2 : ! $“2 # 8“2 9 9 6 ! !图6表 示 在 第 一 阶 段 中“ 各 省 标 准 化 后 的 + %- +报告病例数最高为广东“ 受影响最大地区为 香港“ 表明这两个区域不仅自身的属性值高于平均 值“ 而且和临近区域在+ %- +空间活动上有较高的 相似性“ 即周边地区也存在较高的属性值# 处于第一 象
21、限$ !此外“ 澳门% 海南% 福建% 台湾% 广西% 江西和 湖南地区处于第二象限“ 自身的属性值低于平均水 平“ 但它们均为广东的相邻地区“ 而广东则为高发 区! 图!表 示 在 第 三 阶 段 中“ 各 省 标 准 化 后 的 + %- +报告病例数最高为北京“ 天津% 河北% 香港% 山 西% 台湾地区也表现出高于平均值“ 且其相邻地区也 图!第一阶段中国3 2 + 3疫情 H . & /3 0 & D D , . V ( H D 9 Q R ! H . & /3 0 & D D , . V ( H D /= S & 1 ,! 图)!第三阶段中国3 2 + 3疫情 H . & /3 0
22、 & D D , . V ( H D 9 Q R )! H . & /3 0 & D D , . V ( H D /= S & 1 ,* 存在高于平均水平的属性值!澳门% 辽宁% 黑龙江地 区处于第二象限“ 自身的属性值低于均值“ 但是周边 区域存在较高的属性值“ 有被属性值高的地区包围 的趋势!内蒙% 广东地区在第四象限“ 其本身的属性 值高于平均水平“ 但是相邻区域有较低的属性值! 其余区域均在第三象限“ 即自身和周边区域的属性 值都处于较低的水平! 图#表示中国省份+ %- +死亡人数“ 其中香港% 广东% 台湾地区处于第一象限“ 表明不仅这些区域的 死亡病例高于平均水平“ 而且其周边区
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 中国 SARS 疫情 探索 空间 数据 分析
链接地址:https://www.31doc.com/p-3697941.html