《数学建模第八次作业-第十章人寿保险问题要点.pdf》由会员分享,可在线阅读,更多相关《数学建模第八次作业-第十章人寿保险问题要点.pdf(18页珍藏版)》请在三一文库上搜索。
1、数学建模作业论文(八) 题目:(第十章) 人寿保险问题 学号:20100633 20100598 20100549 姓名:张林任凯郭腾飞 年级:数学与应用数学10级三班 学院:信息与计算科学学院 指导教师:沈菊红 完成日期:2013年 5月 信息与计算科学学院 - 2 - 人寿保险问题 【摘要】:本文结合实际背景, 经过对数据的观察并汇出其散点图推测经理的人 寿保险额只与其年均收入和风险偏好度之间分别存在着二次效应和线性效应。在 采用混合回归模型建立起了经理的人寿保险额与其年均收入和风险偏好度之间 的函数关系式, 采用最小二乘法利用MATLAB 软件的统计工具箱结合题中所给 数据对各参数的值与
2、其置信区间进行了估计,并很好的通过了回归的检验。 在通 过对原模型进行改进的基础上, 以一预测模型各参数的置信区间不应有零点作为 该预测模型的可行的原则, 验证了经理的年均收入和风险偏好度对其人寿保险额 不存在交互效应。人寿保险问题是一类统计回归模型问题,该模型是类随机模 型,运用统计学的方法去解决现实中的类似问题。此论文通过对现有调查数据的 分析,并用 MATLAB 等数学软件画出相应的图形,找出数据间的相关关系(一 次关系,二次关系等) ,建立相应的数学模型。 本文的独特之处就是建立多个模型,对每个模型进行分析解出结果,并分 析回归得一较优的模型。 【关键词】:保险额风险偏好度回归系数置信
3、区间统计回归方法 - 3 - 目录 一、问题重述 - 4 - 二、基本假设 - 4 - 三、符号说明 - 5 - 四、问题分析: . - 5 - 五、模型建立与求解 . - 5 - 六、结果分析 - 14 - 七、参考文献 - 14 - 八、附 录 - 14 - - 4 - 一、问题重述 下表列出了某城市18 位 35 岁44 岁经理的年平均收入(千元) ,风险偏好 度和人寿保险额 (千元)的数据,其中风险偏好度是根据发给每个经理的问卷调 查表综合评估得到的, 它的数值越大, 就越偏爱高风险。 研究人员想研究此年龄 段中的经理所投保的人寿保险额与年均收入及风险偏好度之间的关系。研究者预 计,经
4、理的年均收入和人寿保险额之间存在着二次关系,并有把握地认为风险偏 好度对人寿保险额有线性效应, 但对风险偏好度对人寿保险额是否有二次效应以 及两个自变量是否对人寿保险额有交互效应,心中没底。 请你通过表中的数据来建立一个合适的回归模型,验证上面的看法,并给 出进一步的分析。 表一 序号y x1x2 1 196 66.290 7 2 63 40.964 5 3 252 72.996 10 4 84 45.010 6 5 126 57.204 4 6 14 26.852 5 7 49 38.122 4 8 49 35.840 6 9 266 75.796 9 10 49 37.408 5 11 1
5、05 54.376 2 12 98 46.186 7 13 77 46.130 4 14 14 30.366 3 15 56 39.060 5 16 245 79.380 1 17 133 52.766 8 18 133 55.916 6 二、基本假设 (1)风险偏好度对人寿保险额有二次效应; - 5 - (2) 风险偏好度和经理年平均收入对人寿保险额有交互效应。 三、符号说明 y人寿保险额 1 x经理的年平均收入 2 x风险偏好度 i回归系数(i=0、1、2、3,4 ) 随机误差 2 R 回归方程的决定系数 F 统计量值 p 与统计量对应的概率值 四、问题分析: 在现实生活中, 35 岁44
6、 岁之间的经理很关心他们的人寿保险额跟风险偏好 度和年平均收入有怎样的关系,本问题研究的是35 岁44 岁经理的年平均收入 与风险偏好度和人寿保险额之间的关系,通过调查发现人寿保险额受经理的年平 均收入与风险偏好度的影响,依次来研究它们之间的关系。 五、模型建立与求解 基于上面的分析,我们利用x1 和 x2 来建立 y 的预测模型。 基本模型 ? 通过大概的分析并根据题意得y 与 x1 和 x2 的关系,利用表一的数据分别作出 了 y 与 x1 和 x2 的散点图(如下图所示) 。 图一( y 对 x1 的散点图) - 6 - 图二( y 对 x2 的散点图) 通过图一我们发现,随着x1 的增
7、长, y 有明显向上弯曲增加的趋势,图中的曲 线可以用二次函数模型 y=0+1x1+2x1 2 + (1) 拟合的 (其中 是随机误差)。而在图二中,当x2 的增大时, y 有明显增长趋 势,图中的直线用线性模型 y=0+1x2 +(2) 拟合的(其中 是随机误差)。 综合以上的分析,结合模型(1)和( 2)建立如下模型 y=0+1x1+2x1 2+ 3x2 2+ (3) 1086420 300 250 200 150 100 50 0 x 2 y y 与 x2 的散点图 80706050403020 300 250 200 150 100 50 0 x 1 y 拟合线图 y = - 60.5
8、2 + 1.789 x1 + 0.03025 x1*2 - 7 - (3)式右端的 x1 和 x2 称为回归变量(自变量) ,0+1x1+2x12+3x22是给定价 格差 x1、广告费用 x2 时,牙膏销售量y 的平均值,其中的参数 0,1,2,3 称为回归系数,由表1 的数据估计,影响y 的其他因素作用都包含在随机误差 中,如果模型选择得合适,应大致服从均值为零的正态分布。 模型求解:直接利用MATLAB 统计工具箱中的命令regress求解,使用格式为: 【b,bint,r,rint,stats】=regress(y,x,alpha) 其中输入 y 为模型(3)中 y 的数据 (n 维向量
9、,n=30) ,x 为对应于回归系 = (0,1,2,3)的数据阵【1 x1 x2x2 2】 (n4矩阵, 其中第 1列为全 1向量) , alpha为置信水平 (缺省时 =0.05) ; 输出 b 为 的估计值,常记做 ? ,bint,为 b 的置信区间, r 为残差向量 y-x? ,rint 为 r 的置信区间, stats为回归模型的检验统计量, 有三个值第一个是回归方程的 决定系数 R2(R 是相关系数),第二个是 F 统计量值,第三个是与F 统计量对应 的概率值 p。 得到模型 (3)的回归系数估计值及其置信区间(置信水平 =0.05) ,的结果 见表 2. 表二 参数参数估计参数置
10、信区间 0-62.3486 -73.5025 -51.1947 10.8396 0.3951 1.2840 25.6846 5.2604 6.1089 30.0371 0.0330 0.0412 R 2=1 F=8.2737p0.0033 结果分析;表 2 显示检查他们置信区间得到, 0,1,2,3都未包含零 点,表明回归变量 x1, x2都是显著的。 表 2 的回归系数给出了模型 (3)中 0, 1,2,3 , 即 0=-62.3486,1=0.8396,2= 5.6846,3= 0.0371。因此,该 模型还是可用的,为了更好地理解风险偏好度和经理年平均入对人寿保险额的关 系,对此进行改进
11、。 模型改进 II :模型( 3)中回归变量 x1 和 x2 对因变量 y 的影响是相互独立的, 即经理的年平均收入x1 和人生保险额 y 之间存在二次关系,并风险偏好度与人 寿保险额 y 有线性关系, 根据经验可以猜想,风险偏好度对人寿保险有二次关系,于是将模型(3) , - 8 - 增加一项 即;y= 0+1x1+2x2+3 x2 2 + 4 x1 2 + (5) 对 y 和 x12散点图和拟合图如下图所示: 图三( y 和 x1 2 散点图) 70006000500040003000200010000 300 250 200 150 100 50 0 x 12 y y 与 x12 的散点
12、图 下面让我们用表一的数据估计模型的系数,利用matlab 的统计得到表三: 表三 参数参数估计参数置信区间 0-60.9101 -72.6072 -49.2130 1 0.9303 0.4389 1.4218 24.4529 1.6910 7.2149 30.0359 0.0310 0.0408 40.1159 -0.1409 0.3727 R 2=1 F=8.2737 p0.0033 用模型( 5)对人寿保险额做预测,经理的年平均收入x1 和风险偏好度 x2, 表 3 的回 归 系数 给 出 了 模 型 ( 5) 中 的 估计 值 0, 1, 2, 3 , 即-60.9101,0.9303
13、,4.4529,0.0359,4=0.1159,则人寿 保 险 额 的 估 计 值y =-60.9101+0.9303x1+4.4529x2+0.0359x22+0.1159x12, 与模型( 3)的结果相比,与表 3 检查它们的置信区间发现只有4的置信区间包 含零点,表明回归变量x12不是太显著的,因此, 4的估计值是不可靠的,要对 模型( 5)进行残差分析,首次回归所得图四 - 9 - 图四 图四个异常数据,剔除第3 第 5 数据后再次回归,得到回归分析图五 图五 再次踢出第五个数据再次得到回归分析图六 图六 - 10 - 再次踢出第 9,10数据后的回归分析图七 图七 结果其如表四: 表
14、四 参数参数估计参数置信区间 0-63.2111 -69.8785 -56.5438 11.0998 0.8367 1.3630 23.4542 1.7941 5.1142 30.0340 0.0311 0.0368 40.2450 0.0759 0.4140 R 2= 1 F= 2.7735 p0.0001 在经过几组数据的踢出,使得模型的各估计值更为有了提升,无异常数据, - 11 - 该模基本可用。所以通过模型二的建立, 其各计值-63.2111 ,1.0998, 3.4542,0.0340,4=0.2450, 则其预测方程为 y =-63.2111+1.0998x 1+3.4542x2
15、+0.0340x2 2 +0.2450x 1 2 从中我们可知人寿保险额y 与风险偏好度 x1 有二次关系 该模似乎可以使用了,但是为了得到人寿保险额y 是否与风险偏好度x1 和经理 年收入 x2 有交互效应,我们将对模型(5)进行再次改进。 模型 为进一步的了解人寿保险额y 与风险偏好度 x1和经理的年平均收入x2是否有 交互效应 不妨简单的用 x1, x2的乘积表示风险偏好度x1和经理的年平均收入x2交互 效应,于是将模型( 5) 进一步改进得到 y= 0+1x1+2x2+3 x2 2 + 4 x1 2 + 5 x1x2 + (6) 在这模型中,假设风险偏好度x1 和经理的年平均收入有关,
16、下面我们通过分析 作出了 y 跟 x1,x2 乘积的散点图和拟合曲线,见如下图八所示: 图八 8007006005004003002001000 2.0 1.5 1.0 0.5 0.0 -0.5 -1.0 X1* X2 y 1 y1 与 X1*X2 的散点图 利用 matlab 统计工具箱中的命令求解,得到表四的回归系数估计值及其置信 区间(置信水平 a=0.05)结果见表五: - 12 - 表五 参数参数估计参数置信区间 0-65.3853 -78.7266 -52.0440 11.0172 0.5202 1.5141 25.2172 2.2785 8.1559 30.0358 0.0310
17、 0.0406 40.1661 -0.0956 0.4279 5-0.0196 -0.0501 0.0109 R 2= 1 F= 7.1099 p0.0030 用模型( 5)对人寿保险额做预测,经理的年平均收入x1 和风险偏好度 x2, 与模型(3)的结果相比,表 3 的回归系数给出了模型( 5)中的估计值 0,1, 2,3 ,4, 即 0= -65.3853, 1= 1.0172, 2=5.2172, 3= 0.0358, 4=0.1661, 5=-0.0196 则人寿保险额的预测方程为 y= -65.3853+1.0172 x1+5.2172x2+0.0358x2 2+0.1661x 1
18、2-0.0196x 1x2, 根据表 3 检查它们的置信区间发现有4,5的置信区间包含零点,表明回 归变量 x1 2,x 1x2不是显著的,对此不能正确判断,需对模型(6)作残差分析, 首次进行得到图九 图九 踢出第 3,5 个数据后的回归分析图十如下所示: 图十 - 13 - 再出第 5 个数据后的回归分析图十一下所示: 图十一 通过残差分析得到数据如表所示: 表六 参数参数估计参数置信区间 0-64.7757 -72.7253 -56.8261 11.1075 0.8381 1.3768 23.8722 1.7990 5.9454 30.0347 0.0321 0.0374 40.2917
19、 0.0962 0.4871 5-0.0160 -0.0332 0.0011 R 2=0.0001 F= 2.0635 p0.0001 通过这三次的残差回归分析, 踢出几组数据后, 各数据都能表示人寿保险额 y 与风险偏好度 x1 和经理年平均收入x2 的关系, 可通过残差回归分析检查得到, 最后的数据发现 5的置信区间包含零点,表明回归变量x1x2(对变量 y 的影响) - 14 - 不是太显著地,我们将变量x1x2从模型( 6)中去掉。 六、结果分析 模型( 5) :表三显示, p 远小于 ,发现存在问题,通过残差回归分析,几 次数据的踢出, 得到的使数据更有说服力, 模型从整体看上去还是
20、可用的。表明 人寿保险额 y 与风险偏好度 x1 有二次关系; 所以,型( 5)的预测方程为 y =-63.2111+1.0998x1+3.4542x2+0.0340x2 2 +0.2450x 1 2 模型(6) :表七显示,发现 5的置信区间包含零点,并通过残差回归分析, 得到最后的数据, 还是包含零点, 得到最后的结论是去除模型 (6)的变量 x1x2 , 可知经理当中经理年平均收入x2 和风险偏好度 x 两个自变量的交互效应与人寿 保险额 y 没有关系。 七、参考文献 【1】数学模型(第三版) . 姜启源,谢金星,叶俊 . 北京,高等教育出版社, 2012 【2】MATLAB7.X 程序
21、设计 . 王建卫,曲中水,凌滨 . 北京,中国水利水电出版社, 2007 八、附 录 模型 I 第一次分析: % 未踢出前的一 y=196 63 252 84 126 14 49 49 266 49 105 98 77 14 56 245 133 133 ; x0=1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 ; x1=66.290 40.964 72.996 45.010 57.204 26.852 38.122 35.840 75.796 37.408 54.376 46.186 46.130 30.366 39.060 79.380 52.766 55.916;
22、 - 15 - x2=7 5 10 6 4 5 4 6 9 5 2 7 4 3 5 1 8 6; x3=4394.36 1678.05 5328.42 2025.90 3272.30 721.03 1453.29 1284.51 5745.03 1399.36 2956.75 2133.15 2127.98 922.09 1525.68 6301.18 2784.25 3126.60; x4=49 25 100 36 16 25 16 36 81 25 4 49 16 9 25 1 64 36; x=x0,x1,x2,x3,x4; alpha=0.05; b,bint,r,rint,stats
23、=regress(y,x,alpha); rcoplot(r,rint)(图略) b = -60.9101 0.9303 4.4529 0.0359 0.1159 bint = -72.6072 -49.2130 0.4389 1.4218 1.6910 7.2149 0.0310 0.0408 -0.1409 0.3727 r = 0.7270 0.4326 -2.2943 -0.5397 -3.3788 -1.1024 2.6367 -0.4088 0.8087 -0.2602 -0.1297 2.5586 -1.0201 -0.8249 0.6707 - 16 - 1.4165 1.88
24、52 -1.1770 rint = -2.5610 4.0149 -3.4379 4.3031 -4.1867 -0.4018 -4.3744 3.2951 -6.2877 -0.4699 -3.9695 1.7647 -0.8425 6.1158 -4.1858 3.3682 -2.2604 3.8777 -4.1121 3.5916 -2.9567 2.6972 -0.8788 5.9961 -4.7723 2.7321 -4.1082 2.4584 -3.1819 4.5233 -0.3912 3.2242 -1.4489 5.2193 -4.7434 2.3893 stats = 1.
25、0e+003 * 0.0010 8.2737 0 0.0033 % 踢出 5 数据后 一 x4=49 25 36 25 16 36 81 25 4 49 16 9 25 1 64 36; y=196 63 84 14 49 49 266 49 105 98 77 14 56 245 133 133 ; x3=4394.36 1678.05 2025.90 721.03 1453.29 1284.51 5745.03 1399.36 2956.75 2133.15 2127.98 922.09 1525.68 6301.18 2784.25 3126.60; x1=66.290 40.964 4
26、5.010 26.852 38.122 35.840 75.796 37.408 54.376 46.186 46.130 30.366 39.060 79.380 52.766 55.916; x2=7 5 6 5 4 6 9 5 2 7 4 3 5 1 8 6; x0=1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 ; x=x0,x1,x2,x3,x4; alpha=0.05; b,bint,r,rint,stats=regress(y,x,alpha) - 17 - rcoplot(r,rint); % 踢出 3,5 数据后 一 x4=49 25 36 25 36 81
27、25 4 16 9 25 64 36; y=196 63 84 14 49 266 49 105 77 14 56 133 133 ; x3=4394.36 1678.05 2025.90 721.03 1284.51 5745.03 1399.36 2956.75 2127.98 922.09 1525.68 2784.25 3126.60; x1=66.290 40.964 45.010 26.852 35.840 75.796 37.408 54.376 46.130 30.366 39.060 52.766 55.916; x2=7 5 6 5 6 9 5 2 4 3 5 8 6; x
28、0=1 1 1 1 1 1 1 1 1 1 1 1 1 ; x=x0,x1,x2,x3,x4; alpha=0.05; b,bint,r,rint,stats=regress(y,x,alpha) rcoplot(r,rint) 模型 II 第一次回归分析: % 踢出3,5 ,后的 二 x4=49 25 36 25 16 36 81 25 4 49 16 9 25 1 64 36; y=196 63 84 14 49 49 266 49 105 98 77 14 56 245 133 133 ; x3=4394.36 1678.05 2025.90 721.03 1453.29 1284.51
29、 5745.03 1399.36 2956.75 2133.15 2127.98 922.09 1525.68 6301.18 2784.25 3126.60; x1=66.290 40.964 45.010 26.852 38.122 35.840 75.796 37.408 54.376 46.186 46.130 30.366 39.060 79.380 52.766 55.916; x2=7 5 6 5 4 6 9 5 2 7 4 3 5 1 8 6; x0=1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 ; x5= 464.0300 204.8200 270.0600
30、 134.2600 152.4880 215.0400 682.1640 187.0400 108.7520 323.3020 184.5200 91.0980 195.3000 79.3800 422.1280 335.4960 x=x0,x1,x2,x3,x4,x5; alpha=0.05; b,bint,r,rint,stats=regress(y,x,alpha); rcoplot(r,rint) % 踢出5后的二 x4=49 25 36 25 36 81 25 4 49 16 9 25 1 64 36; y=196 63 84 14 49 266 49 105 98 77 14 56
31、 245 133 133 ; x3=4394.36 1678.05 2025.90 721.03 1284.51 5745.03 1399.36 2956.75 2133.15 2127.98 922.09 1525.68 6301.18 2784.25 3126.60; x1=66.290 40.964 45.010 26.852 35.840 75.796 37.408 54.376 46.186 46.130 30.366 39.060 79.380 52.766 55.916; x2=7 5 6 5 6 9 5 2 7 4 3 5 1 8 6; x0=1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 ; x5= 464.0300 204.8200 270.0600 134.2600 215.0400 682.1640 187.0400 108.7520 323.3020 184.5200 91.0980 195.3000 79.3800 422.1280 335.4960 x=x0,x1,x2,x3,x4,x5; - 18 - alpha=0.05; b,bint,r,rint,stats=regress(y,x,alpha); rcoplot(r,rint)
链接地址:https://www.31doc.com/p-5208730.html