Transcript 5.随机问题模型
5. 随机问题模型 5.1仪器正确率问题 5.2遗传问题 5.3随机模拟问题 习题与思考 5.1仪器正确率问题 问题的提出 某地区由于吸烟的人数很多,使该地区有较高的 肺癌发病率。过去资料显示,5000人中平均有一人 患有肺癌。为监控该地区的肺癌发展,该地区一家 著名医院研发了一台检查肺癌的仪器,任何人经过 该仪器检查后都可以给出是否患有肺癌的结果。 检查结果表明,患有肺癌的人被该仪器检查出肺 癌结果的正确率为90%,没患肺癌的人被该仪器检 查出没有肺癌结果的正确率也为90%。 问题的提出 张三是该地区的一个居民,他虽然不吸烟,但 他周围朋友吸烟的较多,因此,他经常处于被动 吸烟的环境。前一天,与他关系密切的一个吸烟 的朋友被病理诊断出患有肺癌,而这几天他也经 常感到胸部不适,因此决定去这家著名医院作个 检查。 不幸的是,医生用该仪器给他做检查的结果显 示他患有肺癌!面对这个诊断及该仪器声称的诊 断正确率,你是否认为张三患有肺癌的可能性也 是很大的?请对该仪器的诊断结果进行讨论。 问题分析与求解 - L L :张三患有肺癌事件 I : 检查显示张三患有肺癌事件 I : 张三没有肺癌事件 : 检查显示张三没有肺癌事件 由Bayes公式,张三被仪器查出肺癌的条件下,张三真有肺癌的概率为 P L | I P I 0 .9 0 .9 I | L P L P L P I | L P L P | L 1 / 5000 1 / 5 0 0 0 0 .1 4999 / 5000 0 .1 8 % 结果讨论 符号表示: p:肺癌发病率; x:患有肺癌的人被仪器检查出肺癌结果的正确率; y:没患肺癌的人被该仪器检查出没有肺癌的正确率。 则有张三被仪器查出肺癌的条件下,张三真有肺癌的概率为 P L | I xp xp 1 y 1 p 1.仪器检测准确率的讨论 由 xp P L | I 1 y 1 p 0 x , y , p 1 1 xp 1 y 1 p xp 1 y 1 p 可知患有肺癌的人被仪器检查出肺癌结果的正确率x或y越高,张三被 仪器查出肺癌而其真有肺癌的可能性越大。 2.地区的肺癌发病率对仪器结果的影响 取定x=y=90%,p=0.01,0.02,…0.1,有 从表中可知某地区的肺癌发病率越高,仪器检查结果的可信性也越高 。 5.2遗传问题 案例1.常染色体遗传问题 某农场的植物园计划对园中的金鱼草植物进行遗传研究。金鱼草的 花有三种花色:红、粉红和白色,以往的研究发现金鱼草由两个遗传基 因决定花的颜色。若该农场计划采用开红花的金鱼草一直作为亲体分别 与三种花色的金鱼草相结合的方案培育金鱼草植物后代,那么经过若干 年后,这种金鱼草植物的任一代的三种花色会如何分布? 模型假设 1. 金鱼草只开红花、粉红色花和白花,没有其他花色; 2.两个遗传基因是A 和a ,基因对是AA的金鱼草开红花、是Aa的开粉红色 花、是aa的开白花; 3. 后代的基因对是从其两个亲体的基因对中等可能地各取一个基因组成。 模型的分析与建立 双亲体基因型的所有可能结合对应后 代基因型的概率表: a n , bn , c n , n 0,1, 2, 令 分别表示第n代金鱼草开红花、粉红色花和白花 (或基因型为 A A , A a , a a )的比例 n x 为第n 代金鱼草植物的基因型分布,则有 x n a n , bn , c n T a n bn c n 1, n 0,1, 由已知条件得数学模型: a n 1 a n 1 0 .5 b n 1 0 c n 1 b n 0 a n 1 0 .5 b n 1 1 c n 1 c 0a 0 b n 1 0 c n 1 n 1 n n 1, 2, 其矩阵形式为: x (n) Mx ( n 1) (n2) M x 递推得: x (n) Mx ( n 1 ) M x 2 n (0) 第 n 第n 代这种金鱼草植物的三种花色的分布满足 a n 1 0.5 n b0 05 n 1 c 0 n n 1 b n 0.5 b0 0.5 c 0 c 0 n n 1, 2, a n 1, bn 0, c n 0, n 极限说明如果这种培育不断做下去,鱼腥草植物的花色将 都是红色。 案例2.近亲结婚问题 人们从无数事实中认识到血缘关系近的男女结婚,后代 死亡率高,常出现痴呆、畸形和遗传病。这是因为近亲结 婚的夫妇,从共同祖先那里获得了较多的相同基因,很容 易使对后代生存不利的有害基因相遇(遗传学上叫做纯合 ),从而加重了有害基因对子代的危害程度,所以容易出 生素质低劣的孩子。 请用数学建模的方法解释这个原因。 模型假设 a:缺陷基因,A:正常基因。 1.只讨论近亲繁殖后代的情况,繁殖时染色体的交换是等可 能的; 2.只讨论与性染色体X连锁的基因,不考虑与性染色体Y连锁 的基因遗传 3.与染色体X连锁的基因为A或a,分别记为 和 。 模型建立 X AY 和 X Y ; 雄性亲体染色体有两种形式: 雌性亲体染色体有三种形式:X X , X X , X X 雌雄亲体结成配偶共有6种基因类型:(A,AA);(A,Aa);(A, a A aa);(a,AA);(a,Aa);(a,aa) A A a a a 符号表示: 第n一1代自交对与第n代自交对基因型的数学模型: 1 1/ 4 0 0 0 0 0 0 0 0 1/ 4 0 1/ 4 1/ 4 0 0 0 1 1 0 0 0 1/ 4 1/ 4 0 1/ 4 0 0 0 0 ( n 1) (n) e e 0 1 1 e ( n 1) e ( n ) 0 2 2 ( n 1) e(n) 0 e3 3 ( n 1) 0 e4 e 4( n ) (n) 1 / 4 e ( n 1) e5 5 1 e ( n 1) e ( n ) 6 6 记: 有: 1 1/ 4 0 M 0 0 0 X (n) 0 0 0 0 1/ 4 0 1/ 4 1/ 4 0 0 0 1 1 0 0 0 1/ 4 1/ 4 0 1/ 4 0 0 0 0 MX ( n 1) M X 2 (n2) 0 0 0 , X 0 1/ 4 1 n e1( n ) (n) e2 e(n) 3 (n) e4 (n) e5 e(n) 6 M X n (0) X 对M进行对角化处理,得 (n) P 1 2 3 4 5 6 , D n 1 0 0 0 0 0 PD P n P 1 1 X 1 2 3 4 5 6 0 0 0 0 0 1 0 0 0 0 0 1 / 2 0 0 0 0 0 0 0 0 0 0 令n趋于无穷,有 0 X (n) n 1 / 2 0 0 n 1 5 0 (0) n /4 0 n 1 5 n 1 , n /4 (0) 2 (0) 1 (0) 2 (0) 1 (0) e1( n ) e1 e 2 e 3 e 4 e 5 3 3 3 3 (n) 0 e2 ( n ) e 0 3 n (n) 0 e4 (n) 0 e5 e(n) 1 (0) 2 (0) 1 (0) 2 (0) (0) 6 e 2 e3 e 4 e5 e 6 3 3 3 3 (*) 模型讨论 从式(*)可以看出随着代数的增加,只有纯合自交对(A ,AA)和 (a,aa)的基因型保留下来,其他型的自交对将 消失,说明所有自交对都趋于纯化基因对。 模型结论 说明自交对都趋于纯化基因对,近亲结婚的产生有缺陷后 代的可能性是较大的,因此要避免近亲结婚。 5.3随机模拟问题 问题的提出 克灵特·的捕捞船队在为马萨诸塞州新百利港捕捞鱈鱼 。只讨论一条船 的产销问题。假设它每天鱈鱼捕捞量是恒定的3500磅,还知道每日的运作成本 是10000美元。再假设该船只有两处选择,或驶到格劳斯特港,或驶到洛科 泊特港去卖鱼。格劳斯特港鱈鱼的收购价在一段时间内稳定在3.25美元/磅, 洛科泊特港的价格水平总的说来要高于格劳斯特港,但变异性强。 克灵特·康利估计洛科泊特港的价格服从正态分布,期望值是3.65美元/磅, 标准差为0.20美元/磅。此外,两地的吞吐能力也不同,格劳斯特港有非常大 的鱈鱼交易市场,康利公司在那儿卖鱼从未受遇到过限制; 而洛科泊特港的 鱈鱼交易市场相比之下要小得多,康利公司有时只能卖出部分捕到的鱼, 有时甚至一磅也卖不成。克灵特·康利估计洛科泊特港的鱈鱼需求服从一个 离散概率(见表1)。假设洛科泊特港的鱈鱼需求量与其收购价相互独立。 问题分析 1)到格劳斯特港卖鱼的收益 G = $3.25×3500-$10 000=$1375 2)到洛科泊特港卖鱼的收益 F P m in(3 500, D )-10 000 问题求解 a) b) c) d) e) P 3500-10000, P D -10000, 模拟需求量 价格P的模拟 根据公式计算模拟日收益 收益分析 决策 D 3500 D 3500 a) 模拟需求量 算法: 1.输入洛科泊特港鱈鱼需求概率表和需求量表; 2.根据需求概率表计算出[0,1]区间的分割点q1,q2,…,q7获得7个小区间; 3.输入模拟天数m,随机产生m个[0,1]内的随机实数; 4.对每个产生的随机实数落入哪个小区间确定该天的模拟需求量。 b)价格P的模拟 “克灵特·康利估计洛科泊特港的价格服从正态分布,期望值 是3.65美元/磅,标准差为0.20美元/磅”。 Mathematica软件命令获得200个的服从正态分布N [3 .6 5, 0 .2 ] 的随机数来代表克灵特·康利估计洛科泊特港的价格200天 的价格. c) 根据公式计算模拟日收益 将表3和表4中的数据逐一代入公式 ,就得到每天的模拟收 益,见表5: d) 收益分析 亏损区间 (-10 000,-2083)美元,有19个数值; 盈利区间 (193,5 070) 美元,有181个数值. 各日的盈利情况呈现了快速向中间(2 500~3 000美元)集中且左右 大致对称的趋势。 • • • 亏损日数为19天,亏损概率约为9.5%. 收益呈现典型的左偏分布态势.以零(不亏不赚)为界,曲线下大约 9%的面积由零向左延伸至-10 000美元,另外90.5%的面积从理论上 说由零向右无限延伸,但极不可能超过至5 000美元. 因为整个的收益分布不服从正态分布,无法直接计算卖到洛科泊特港 的期望收益低于卖到格劳斯特港1 375美元收益的概率. e) 决策 (1)表5所列200天的模拟收益的平均数是2 630.63美元, 可以视其为在洛科泊特港卖鱼的期望收益,因此到洛科泊特 港与格劳斯特港卖鱼的期望收益之差是: 2 630.60美元-1 375美元=1255.63美元 (2) 卖到洛科泊特港的期望收益比卖到格劳斯特港的期望 收益高出91.31%. (3) 卖到洛科泊特港发生损失的概率是9%. (4) 卖到洛科泊特港的期望收益低于卖到格劳斯特港1 375 美元收益的概率是0.18. 习题与思考 1. 基因型是AA 或Aa 的人,眼睛为棕色,基因型是aa 的 人,眼睛为蓝色。 若观察眼睛为棕色的人与眼睛为棕色或眼 睛为蓝色的人通婚,其后代的眼睛颜色会如何分布? 2.若在常染色体遗传问题案例1中,不选用基因 型AA的金 鱼草植物与每一种金鱼草植物结合,而是将具有相同基因型 金鱼草植物相结合,那么后代具有三种基因型的概率如何分 布?其后代有什么样的基因分布规律? 3.随机模拟问题的案例中是建立在一次模拟200天数据的 基础上论述的。如果加大样本量,或者模拟多次求其平均, 有关结果有什么变化?