2012年“高教社杯”全国大学生数学建模竞赛(CUMCM)国家一等奖优秀论文C题目论文.doc
《2012年“高教社杯”全国大学生数学建模竞赛(CUMCM)国家一等奖优秀论文C题目论文.doc》由会员分享,可在线阅读,更多相关《2012年“高教社杯”全国大学生数学建模竞赛(CUMCM)国家一等奖优秀论文C题目论文.doc(26页珍藏版)》请在三一文库上搜索。
1、1 脑卒中发病环境因素分析及干预 摘 要:脑卒中逐渐威胁人们的生活,本文主要针对脑卒中发病病例信息和受病环境因素 进行统计分析,从实际数据结果加深对脑卒中的认识,旨在对脑卒中加以预防。 针对问题一,先主要借助于 EXCEL 编程及筛选功能、MATLAB 辅助编程对附件数据 进行错误修复及标准化处理,得到 20072010 年期间有效数据的发病年、月、日,然后在 EXCEL 中分别按性别、年龄、职业、时间(包括年、月、日)四个字段对发病人数进行统 计,并以图、表的形式予以展示,最后总结出脑卒中患者男女性别比为 1.17:1、集中患病 年龄段为 7180 岁、高危职业为农民、存在一定季节性等结论,
2、该问属于一般的数据统计 分析模型。 针对问题二,先对患者按照天来统计四年每天的发病人数(共 1461 条数据) ,再将气 象数据与发病人数按天进行关联构成新的源数据,同时计算每天的气压差、温差,最后以 发病率为因变量,以平均气压、最高气压、最低气压、气压差、平均温度、最高温度、最 低温度、温度差、平均湿度、最低湿度 10 个特征为自变量进行多元线性回归,其步骤是先 画因变量与自变量的散点图观测它们的关系,再利用 SPSS 软件统计所有变量之间的相关 性,最后进行多元逐步回归分析。结果表明:发病率与这 10 个指标的相关性并不大,但 整体上与最低气压、最高温度和温差呈正相关、与平均湿度和气压差成
3、负相关;发病率 与平均湿度直接线性相关,逐步回归的模型为 ,且模型检验为3.02.4yx F=7.555、Sig.=0.006,表明该模型通过显著性检验;再次以平均湿度为因变量,以气压 和温度为自变量进行逐步回归发现,平均湿度受温差、平均气压影响,这间接地对脑卒中 发病率产生影响。 针对问题三,通过查阅资料文献得到脑卒中高危人群的重要特征和关键指标、主要诱 发因素,并结合问题一和问题二中的相关结论对脑卒中高危人群进行了预警和干预建议。 最后,本文对模型进行了检验及评价分析,用 20072010 年的发病数据进行回代检验, 两者绝对距离小于 1 的比例为 86%。同时,本文的分析可以推广应用到其
4、它疾病、农作物 收成等受环境、气候影响的分析及预警评估中。 关键词:脑卒中,环境因素,统计分析,多元线性回归,逐步回归,显著性检验,预警, 回代检验 2 一、 问题重述 随着社会的发展,人们生活水平不断提高,但与此同时,伴随着城市化进程加快,人 口密度加大,生活节奏加快和膳食结构改变等不良现象,一些严重威胁人们身体健康的疾 病发生,心脑血管疾病以其高死亡率而越来越引起人们的关注。 其中脑卒中(俗称脑中风,包括脑出血、蛛网膜下腔出血和脑梗塞,脑出血和蛛网膜 下腔出血均属心脑血管疾病)是目前威胁人类生命的严重疾病之一,目前对脑卒中尚无特 效治疗方法或令人满意的治疗效果,因此积极预防尤为重要。随着人
5、们对预防疾病和保证 健康生活方式的重视,气候变化对人类健康的影响也倍受关注,国内外许多研究表明气象 要素的变化对心脑血管疾病有着重要影响。因此研究气象要素与心脑血管疾病之间的关系 对于防病和治病具有重要的现实意义。 脑卒中的发生是一个漫长的过程,一旦得病就很难逆转。对脑卒中的发病环境因素进 行分析,其目的是为了进行疾病的风险评估,对脑卒中高危人群能够及时采取干预措施, 也让尚未得病的健康人,或者亚健康人了解自己得脑卒中风险程度,进行自我保护。同时, 通过数据模型的建立,掌握疾病发病率的规律,对于卫生行政部门和医疗机构合理调配医 务力量、改善就诊治疗环境、配置床位和医疗药物等都具有实际的指导意义
6、。 数据(见 Appendix-C1)来源于中国某城市各家医院 2007 年 1 月至 2010 年 12 月的脑 卒中发病病例信息以及相应期间当地的逐日气象资料(Appendix-C2) 。 请建立数学模型,解决如下问题: 问题一:根据病人基本信息,对发病人群进行统计描述。 问题二:建立数学模型研究脑卒中发病率与气温、气压、相对湿度间的关系。 问题三:查阅和搜集文献中有关脑卒中高危人群的重要特征和关键指标,结合问题一、 问题二中所得结论,对高危人群提出预警和干预的建议方案。 二、 问题分析 本文主要目标是要分析脑卒中受发病环境因素的影响关系以及对应的预防措施,其总 体研究方法是通过对现有数据
7、进行统计规律分析,找出脑卒中的发病率与环境因素(温度、 湿度、大气压)的关系描述,并通过查询资料文献了解脑卒中高危人群的重要特征及常见 的预防脑卒中的预防措施,最后再结合第一问和第二问分析的结果对高危人群提出预警和 干预的建议方案,旨在提高对脑卒中的防护能力。鉴于此目的,针对本文具体 3 个问题, 可以进行如下分析: 2.1 针对问题一的分析 本问题主要根据附件(Appendix-C1) 中四个文件中的脑卒中发病病例信息进行相关统计 分析,这些病例信息指标主要有性别、年龄、职业、发病时间、诊断时间,为了对发病人 群进行统计描述,本文主要从以下几点进行考虑: 1. 按性别统计,包括总人数、主要集
8、中年龄段、高危职业名称、发病与诊断时间的间隔 (判断该病的潜伏性) ; 3 2. 按年龄段统计,包括该年龄段内的性别、人数、比例、高危职业、发病与诊断时间的 间隔; 3. 按职业统计,包括该职业内的发病人的性别、集中年龄段、发病与诊断时间的间隔; 4. 分别按发病年、月统计(发病年月和诊断年月基本一致) ,包括性别、年龄段、高危职 业等。 但是从附件数据中发现,在“Time of incidence (发病时间)”和“Report time (诊断报告时 间)”中存在不同的时间格式以及错误( 如: # 或空格),因此在对数据进行统计分析前,需 要首先对数据进行修复,根据一定修复原则将一些明显的
9、错误信息(如发病时间为 5008/7/31、诊断报告时间为 27/09/2008 情况下,很明显 5008 应该是 2008) 。 同时,从附件数据中易发现,部分诊断时间没有数据,而且诊断时间比较混乱,错误 比较多,因此本文将不对诊断报告时间进行分析,进而也将不统计发病与诊断时间的间隔。 最后在修复完成后的基础上按上述思想进行脑卒中的发病信息统计,其统计的工具主 要是 EXCEL,利用 EXCEL 丰富的公式编辑、筛选、绘图、统计等功能进行处理。 2.2 针对问题二的分析 本问题欲研究脑卒中发病率与气温、气压、相对湿度间的关系,主要需要注意以下几 点: 1. 在第一问已修复的数据基础上进行发病
10、率统计,主要统计方法是通过 EXCEL 的 筛选功能和编写程序统计出在 20072010 年期间每一天的发病人数,进而可以计 算出按天及按月的发病率; 2. 对附件(Appendix-C2)中数据文件进行整理及统计计算,先按天统计 20072010 年 期间每一天的气象信息(温度、湿度、大气压) ,并计算出每一天的温度差、气 压差,再按月分别统计这四年中的 8 种指标(平均气压、最高气压、最低气压、 平均温度、最高温度、最低温度、平均湿度、最低湿度)每月的各个平均值、最 大值、最小值; 3. 将 1 和 2 统计或计算的数据进行一一关联,构造后续分析的数组。 从上面的统计数据可以看出,该问是一
11、个多元统计问题 1,即分析脑卒中发病率与温 度、湿度、大气压的各种指标的关系,主要分析思想如下: 1. 先整体按天(20072012 年共 1461 天)分析,分析过程为: 在 EXCEL 中画出 发病率与各个统计指标的散点图,从直观上寻求发病率与它们是否有明显的规律 (如线性相关) ; 利用 SPSS 统计软件对所有数据进行相关性分析,分析两两 之间的相关性; 利用 SPSS 软件进行多元线性回归,分析回归结果是否通过显 著性检验; 由于某些变量之间存在非常大的互相关(如温度之间的三个指标 互相关系数都比较大) ,因此需要对多个变量进行筛选,可用的方法为多元线性 逐步回归法(可以借助于 SP
12、SS 统计软件中的逐步回归选项或 MATLAB 中的 stepwise 逐步回归工具箱) ; 如果不存在前面操作没有求出发病率与温度、湿 度、大气压的相关表达式,则继续按后续方法进行分析处理; 2. 然后按照每月或季节的数据进行类似分析; 3. 按照温度、湿度、大气压三类进行单因素相关性分析,先选择其中两个特征变化 很小或在一个指定范围内变化的数据,对发病率与第三个指标进行相关性分析, 通过此方法进行单因素分析。 整个过程需要做大量的统计分析,包括绘图及数据归纳整理,主要工具有 4 EXCEL、SPSS、MATLAB。 2.3 针对问题三的分析 本问题首先要通过资料文献了解脑卒中高危人群的重要
13、特征和关键指标、脑卒中的主 要诱发因素、常见的预防措施、已有的某些地区对脑卒中发病的统计信息和规律,根据这 些信息最大化地提取关于脑卒中发病的指标,再结合问题一、问题二中所得结论,可以根 据所查到的关键指标、气象信息、时间序列进行预测模型的建立,如多指标影响因素的多 元线性或非线性回归、神经网络预测模型、时间序列预测等等,最后对高危人群提出预警 和干预的建议方案。 三、 模型假设及符号说明 3.1 基本假设 1. 假设附件中的数据除空格、R#等本身有误外其它数据是合理可靠的。 2. 假设附件数据中每一位病人都属于不同的人。 3. 假设除环境因素(温度、湿度、大气压)外,影响脑卒中发病的其他因素
14、保持不变。 4. 假设当地人口不发生较大的变动,死亡率与出生率相近。 5. 假设 20072010 数据四年间,没有发生重大自然灾害。 6. 假设当地医疗环境相当,数据代表整个城市数据,数据具有代表性。 3.2 符号说明 :某天(月或其它统计范围)的年发病率P :某天(月或其它统计范围)的发病人数N :某年的总发病人数M :自变数个数m :因变数Y :自变数Xi :各个自变数 对依变数 的各自效应;ibixy :自效应的集合y 3.3 基本定义 发病率: 式(1)NPM 5 四、 模型建立及求解 4.1 针对问题一的模型建立及求解 由问题分析可知,这属于多信息变量的统计描述模型,该问题主要是对
15、脑卒中发病者 信息进行统计描述,其方法是分别对脑卒中患者病历信息性别、年龄、职业、发病时 间进行统计,全部操作在 EXCEL 中进行。 4.1.1 附件数据的修复处理 由于附件中的患者病例信息有许多格式错误及信息不完整,在进行统计描述前,有必 要对数据做修复处理,本文的修复过程及方法如下: 1. 年龄(Age)字段中存在大于 110 岁(如 799) 、0 岁的信息,本文处理方法为将 区间1 110之间的数据作为有效值,其余的全视为该患者年龄信息缺失。 2. 职业(Occupation )字段中存在 1-8 之外的数据(如 9、工等异常) ,可能是数据 录入错误,也可能是还有其它类的职业没在附
16、件中说明,本文处理方法为将 1-8 之外的数据视为其他职业段。 3. 发病时间(Time of incidence)字段存在日期格式错误(如 15-06-2008、20080620 等)或与 EXCEL 标准时间格式(如 2007/1/1)不统一,需要对时间数据进行修 复及标准化处理,处理原则有以下几点: 类似“2009-0-24”的数据丢失了月份信息,此类数据认为是错误数据,不统计在 20072010 期间内; 类似“发病时间为 5008/7/31、诊断报告时间为 27/09/2008”存在明显错误的数据, 5008 应该修复成 2008; 类似“31/12/2009”的数据不是 EXCEL
17、 标准的时间格式,为了便于在 EXCEL 中快速 按年、月、日进行统计分析,有必要对非标准的日期数据进行标准化处理,其方法可以通 过在一单元格中进行编写公式进行字符串处理,假设“31/12/2009”所在的单元格为“D2”, 则计算标准化的日期格式(2009/12/31)的公式为“=DATE(RIGHT(D2,4),MID(D2,4,2), LEFT(D2,2)”; 类似“发病时间为 20110/05/09、诊断报告时间为 2010-08-08”的数据,直接视为无 效数据; 类似“2009/0/24”的数据也视为无效数据。 4.1.2 脑卒中患者信息统计分析 通过上述数据修复过程后,将得到标准
18、格式的脑卒中患者信息数据,现按照模型分析 的思路对脑卒中病例信息进行统计描述,其核心方法是在 EXCEL 中利用“COUNTIF”函数 对某条件进行筛选后统计患者人数、及“COUNTIFS”函数对多重条件进行筛选后统计患者 人数,具体操作界面截图见附录 B-1。 6 4.1.2.1 按性别统计 对男女性别分别进行筛选,以年为单位,将四年的数据信息进行统计,20072010 年 按性别的脑卒中发病人数统计如表 1 所示,20072010 年男女患病人数统计图如图 1 所示。 表 1 20072010 年按性别的脑卒中发病人数统计表 年统计人数性别 附件总数据 2007-2010 年总 2007
19、2008 2009 2010 男 33385 33367 7302 10384 5198 10483 女 28526 28506 5940 8659 4805 9102 丢失信息 12 12 0 12 0 0 男女比 1.17:1 1.17:1 1.23:1 1.20:1 1.08:1 1.15:1 0 5000 10000 15000 20000 25000 30000 35000 40000 2007-2010年总 2007年 2008年 2009年 2010年 时 间 /年 患者 人数 /人 男 女 图 1 20072010 年男女患病人数统计图 从表 1 及图 1 可以看出,2007
20、年男女患者之比达 1.23:1,男性比女性更容易患脑卒中 这类疾病,可能原因有以下几点:一是男性高血压多于女性;二是男性吸烟与饮酒者多于 女性;三是男性从事体力劳动较多,突然用力可能诱发中风。 4.1.2.2 按职业统计 按职业字段进行筛选得到 20072010 年各职业患病人数统计数据如表 2 所示。 表 2 20072010 年各职业患病人数统计表 20072010 年按职业统计数据 职业 性别 编号 名称 发病人数 男 女 1 农民 29750 14644 15084 2 工人 4856 3108 1745 3 退休人员 6646 4126 2517 4 教师 216 163 53 7
21、5 渔民 66 43 23 6 医务人员 90 65 25 7 职工 735 513 220 8 离退人员 1751 1181 570 其它或缺失 其它或缺失 17775 9524 8268 从表中看出农民患病人数为 29750,属于较多人群,为高危职业,而医务人员等明显 较低,这与工作强度相关。 05000 1000015000 2000025000 3000035000 农 民 工 人 退 休 人 员 教 师 渔 民 医 务 人 员 职 工 离 退 人 员 其 它 或 缺 失 职 位 患病 者人 数/ 人 总 发 病 人 数 男 女 图 2 20072010 年各职业患病人数统计图 可以得
22、出结论:经济收入较高的人群较收入低的人群脑卒中发病率低,户外重体力劳 动者发病率较高。 4.1.2.3 按年龄统计 针对职业统计中,退休人员所占比例较大说明与年龄有关,对年龄进行筛选,将年龄 分为各个阶段,统计出每年中不同年龄段的患病人数,以 2007-2008 年为例进行如表 3 所 示的描述,各年详细数据见附录 A-1。 表 3 2007-2008 年各年龄段内患病人数统计表 2007 2008 患病人数 男 女 患病人数 男 女 1-10 17 10 7 50 15 35 11-20 7 4 3 14 9 5 21-30 35 16 19 57 32 25 31-40 155 96 59
23、 235 173 62 41-50 614 374 240 865 566 298 51-60 1861 1135 726 2547 1514 1033 61-70 3069 1784 1285 4669 2803 1864 71-80 4842 2678 2164 6648 3496 3147 81-90 2309 1051 1258 3549 1609 1936 91-100 170 57 113 249 82 167 8 101-110 3 3 0 4 2 2 其他 126 76 50 25 12 13 07-10各 年 龄 阶 段 的 患 病 人 数 图 0 1000 2000 300
24、0 4000 5000 6000 7000 其 他 1-1011-2021-3031-4041-5051-6061-7071-8081-9091-100 101- -110 年 龄 段 患病 人数 /人 07年 患 病 人 数08年 患 病 人 数 09年 患 病 人 数 10年 患 病 人 数 图 3 20072010 年各年龄阶段的患病人数图 由图 3 可见,患病人数随年龄的增加而增加,上升速度以 50 到 60 上升较快,61 岁以 上的人群脑卒中的高发群体,集中年龄段在 71-80 岁之间,说明脑卒中以老年人居多,且 脑卒中患者呈年轻化的趋势。 进一步按照各年龄段,对男女患者发病人数的
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 2012 高教 全国大学生 数学 建模 竞赛 CUMCM 国家 一等奖 优秀论文 题目 论文
链接地址:https://www.31doc.com/p-25893.html