90° 21°34´=，，国光帮帮忙2018写下过程，再用这个的结果除以2，90°再减去第二个结果，蟹蟹蟹蟹

点击联系发帖人 时间：2018-06-12 14:24

国光帮帮忙

一个数加五，再乘以二，再减去四，再除以二，再减去原来这个数后还得以原来这个数，问这个数是多少？_百度知道
一个数加五，再乘以二，再减去四，再除以二，再减去原来这个数后还得以原来这个数，问这个数是多少？
【(x+5)×2-4】÷2-x=x2x+10-4=4x2x=6x=3
采纳率：47%
设此数为x[(x+5)×2-4]÷2-x=x
(2x+10-4)÷2=2x
[2(x+5)-4]/2=x
(2（X 5）-4)/2-X=X2X 10 4=4X2X=6X=3
（（x-5）×2-4）÷2-x＝x
x+5-2-x＝x
其他10条回答
为您推荐：
其他类似问题
换一换
回答问题，赢新手礼包
个人、企业类
违法有害信息,请在下方选择后提交
色情、暴力
我们会通过消息、邮箱等方式尽快将举报结果通知您。一个数加上2,乖以2,减去2,除以2,结果还是2,这个数是几_百度知道
一个数加上2,乖以2,减去2,除以2,结果还是2,这个数是几
一个数加上2,乖以2,减去2,除以2,结果还是2,这个数是几
我有更好的答案
（2×2+2）÷2-2=6÷2-2=3-2=1这个数是1
反推 2乘2加上2除以2减去2
得出原数为 1
为您推荐：
其他类似问题
换一换
回答问题，赢新手礼包
个人、企业类
违法有害信息,请在下方选择后提交
色情、暴力
我们会通过消息、邮箱等方式尽快将举报结果通知您。扫二维码下载作业帮
拍照搜题，秒出答案，一键查看所有搜题记录
下载作业帮安装包
扫二维码下载作业帮
拍照搜题，秒出答案，一键查看所有搜题记录
老师为同学们表演了这样一个魔术：请你任意想一个数,把这个数乘2后加10,然后除以4,再减去你原来所想的那个数的一半,老师马上猜出你所得的结果．聪明的小霞作了如下的探索：（1）如果任取的那个数是5,请列式后计算结果；（2）再取一个负数试试；（3）请用数学的方法解密老师的魔术（即证明对任意一个有理数,结果为定值）．
作业帮用户
扫二维码下载作业帮
拍照搜题，秒出答案，一键查看所有搜题记录
1、(5x2+10)÷4-5÷2
=2.52、设这个数为-6,可得： (-6x2+10)÷4-(-6)÷2=-0.5+3=2.53、设这个数为x,则有：(2x+10)÷4-x÷2=0.5x+2.5-0.5x=2.5综上可得,无论所说数为几,结果都是2.5!
为您推荐：
其他类似问题
扫描下载二维码伍德里奇《计量经济学导论》(第4版)笔记和课后习题详解(2-8章)
&&&&使用普通最小二乘法，此时最小化的残差平方和为 y
x i 1 i 1 in2利用一元微积分可以证明，
1 必须满足一阶条件x y
0i 1 i i 1 in<&&&&br />从而解出
1 为：1 x yi 1 n inixi 12 i当且仅当 x
0 时，这两个估计值才是相同的。 2.2 课后习题详解一、习题 1．在简单线性回归模型 y
u 中，假定 e
，证明：这个模型总可以改写为另一种形式：斜率与原来相同，但截距和误差有所不同，并且新的误差期望值为零。证明：在方程右边加上
0令新的误差项为 e
0 ，因此 e
0 。新的截距项为 0
0 ，斜率不变为 1 。 2．下表包含了 8 个学生的 act 分数和 gpa（平均成绩）。平均成绩以四分制计算，且保留一位小数。 gpa act student 1 2 3 4 5 6 7 8＾2.8 3.4 3.0 3.5 3.6 3.0 2.7 3.721 24 26 27 29 25 25 30（ⅰ）利用 ols 估计 gpa 和 act 的关系；也就是说，求出如下方程中的截距和斜率估计值
0 1评价这个关系的方向。这里的截距有没有一个有用的解释请说明。如果 act 分数提高 5 分，预期 gpa 会提高多少（ⅱ）计算每次观测的拟合值和残差，并验证残差和（近似）为零。（ⅲ）当 act
20 时， gpa 的预测值为多少（ⅳ）对这 8 个学生来说， gpa 的变异中，有多少能由 act 解释试说明。答：（ⅰ）变量的均值为： gpa
3.2125 ， act
25.875 。 gpa
5.8125n i 1 i i
5.8125 / 56.875
0.1022 。根据公式 2.19 可得：
0.5681 。根据公式 2.17 可知：
0.2 act 。此处截距没有一个很好的解释，因为对样本而言，act 并不接近 0。如果 act 分数提高 5 分，预期 gpa 会提高 0.1022× 5=0.511。（ⅱ）每次观测的拟合值和残差表如表 2-3 所示：表 2-3igpagpa＾＾ u1 2 3 4 5 6 7 8＾2.8 3.4 3.0 3.5 3.6 3.0 2.7 3.72.9 3.5 3.1 3.10.1 -0.5 0.1 -0.9根据表可知，残差和为-0.002，忽略固有的舍入误差，残差和近似为零。（ⅲ）当 act
20 ，则 gpa
0.4347 ，而
y （ⅳ）残差平方和为：
ui 1 nni 12 1.0288 ，则判定系数为：r2
0.577gpa 的变异中，有 57.7%能由 act 解释。3．令 kids 表示一名妇女生过的孩子数目， educ 表示该妇女接受过教育的年数。生育率对受教育年数的简单回归模型为 kids
u 其中， u 是无法观测到的误差。（ⅰ） u 中包含什么样的因素它们可能与受教育程度相关吗（ⅱ）简单回归分析能够揭示教育对生育率在其他条件不变下的影响吗请解释。答：（ⅰ）收入、年龄和家庭背景（如兄弟姐妹的数量）都可能包含在误差项中。它们可能是与受教育程度相关的：收入和受教育程度是呈正相关的；年龄与受教育程度是呈负相关的；兄弟姐妹的数量与受教育程度是负相关的。（ⅱ）假定（ⅰ）中所列举的因素固定不变，即以误差项的形式呈现在回归方程中，但是误差项与解释变量是相关的，因此 e
0 ，经典假定被推翻，因此简单回归分析不能解释教育对生育率在其他条件不变下的影响。 4．假设你对估计花在 sat 备考课程上的小时数（ hours ）对 sat 总分（ sat ）的影响感兴趣。总体是某一年内所有计划上大学的中学高年级学生。（ⅰ）假设你有权进行一项控制实验。请说明为了估计 hours 对 sat 的引致效应，你将如何构建实验。（ⅱ）考虑一个更加实际的情形，即由学生选择在备考课程上花多少时间，而你只能随机地从总体中抽出 sat 和 hours 的样本。将总体模型写作如下形式： sat
u 其中，与通常带截距的模型一样，我们可以假设 e
0 。列举出至少两个 u 中包含的因素。这些因素与 hours 可能呈正相关还是负相关（ⅲ）在（ⅱ）的方程中，如果备考课程有效，那么 1 的符号应该是什么（ⅳ）在（ⅱ）的方程中，
0 该如何解释答：（ⅰ）构建实验时，首先随机分配准备课程的小时数，以保证准备课程的时间与其他影响 sat 的因素是houri ：i
1 ，， n ， n 表示试验中所包括的学独立的。然后收集实验中每个学生 sat 的数据，建立样本
sati ，生的数量。根据方程 2.7，应该尝试采用尽可能多的有差异的“小时数”。（ⅱ）误差项还可能包含以下三个因素：天赋能力、家庭收入以及考试当天的健康状况。如果学生拥有天赋能力，那么他们不需要为考试花费太多时间，能力与时间是负相关的。家庭收入与学习时间呈正相关关系，因为家庭收入越高，就能负担去越多的课时费用。排除慢性的健康问题，考试当天的健康状况与为准备考试花费的时间是无关的。（ⅲ）如果备考课程有效， 1 的符号应该为正，在其他因素相同的情况下，备考时间越多， sat 越高。（ⅳ）截距有一个有用的解释：因为 e u
0 表示备考时间为 0 时学生获得的平均 sat 总分。5．考虑储蓄函数sav
e其中， e 是一个随机变量，且有 e
e&&&&e2 ，假设 e 独立于 inc 。（ⅰ）证明：若 e
0 ，则满足零条件均值的关键假设（假定 slr.4）。[提示：若 e 独立于 inc ，则e
]（ⅱ）证明：若 var
u | inc&&&&e2inc ，则不满足同方差假定 slr.5。特别地， sav 的方差随着 inc 而增加。[提示：若 e 和 inc 独立，则 var
。] （ⅲ）讨论支持储蓄方差随着家庭收入递增的证据。证明：（ⅰ）计算 inc 的条件期望值时， inc 变为一个常数，因此 e
e （ⅱ） inc 的方差为： var
e2 。（ⅲ）低收入家庭支出的灵活性较低，因为低收入家庭必须首先支付衣食住行等必需品。而高收入家庭具有较高的灵活性，部分选择更多的消费，而另一部分家庭选择更多的储蓄。这种较高的灵活性暗示高收入家庭中储蓄的变动幅度更大。和
分别为 ols 截距和斜率估计量，并令 u 为误差（不是残差）的样本均值。 6．令
1 0 可写成
w u ，其中 w
d / sst 和 d
x 。（ⅰ）证明：
ii 1 i i i 1 1i 1 n
和 u 无关。[提示：要求你证明 e
（ⅱ）利用（ⅰ）及
0 ，证明：
（ⅲ）证明
0 0 0 1 12
2 （ⅳ）利用（ⅱ）和（ⅲ）证明： var
2 x ／sstx 。 0 （ⅴ）（ⅳ）中的表达式能简化成方程（2.58）吗[提示： sstx / n
。]2 i 1n证明：（ⅰ）该理论推导与公式 2.52 的推导本质上是一样的，区别只是将 wi
di / ssti 带到求和的里面。
，公式右边等于 0。从（ⅰ）可知，（ⅱ）因为 cov
。因为误差项两两互不相关，则 e
i h 1 i 1 i i
2 / n 。因此
x ，代入 y
u ，则（ⅲ）最小二乘估计的截距公式为：
0 0 1 1 0 1 1 和 u 是不相关的，则有：（ⅳ）因为
2 x 2 / sst var
（ⅴ）能。根据 sstx / n
，则2 i 1 n
1 n 2 2 2 2 1 n 2
/ sstx 7．利用 kiel and mcclain（1995）有关 1988 年马萨诸塞州安德沃市的房屋出售数据，如下方程给出了房屋价格（ price ）和距离一个新修垃圾焚化炉的距离（ dist ）之间的关系：log
135 ， r 2
0.162＾（ⅰ）解释 log
的系数。它的符号是你所预期的吗（ⅱ）你认为简单回归给出了 price 对 dist 在其他条件不变下弹性的无偏估计量吗（考虑一个城市决定放置焚化炉的地点的决策。）（ⅲ）还有哪些其他因素影响房屋的售价这些因素会与距离焚化炉的远近相关吗答：（ⅰ）符号为正，与预期相符。 log
的系数表示距离焚化炉的距离越远，价格就越高，价格的距离弹性是 0.312，即距离远 1%，价格上升 0.312%。（ⅱ）如果城市决定将焚化炉放置在远离较贵的居民区的地方，则 log
与房价是正相关的。这将违背假定 4，而 ols 估计是有偏的。（ⅲ）房屋的面积、洗手间的数量、占地面积大小、房龄社区质量（包括学校质量）都会影响房屋的售价。这些与距离焚化炉的远近是有关的。和
为 y 对 x 进行回归的截距和斜率（有 n 次观测） 8．（ⅰ）令
；c1 和 c2 为常数且 c2
1 为 c1 yi 1 0 i i c
从而验证了 2.4 节中关于度量单位的命题。
且对 c2 xi 进行回归的截距和斜率。证明
[提示：１ 1 2 0 0 1 0，为得到
1 ，把改变了度量单位的 x 和 y 代入方程（2.19）。然后用方程（2.17）求
0 ，确定代入的是进行度量单位变换后的 x 和 y 以及正确的斜率。（ⅱ）现在令
1 得自（ c1
yi ）对（ c2
xi ）的回归（对 c1 和 c2 不加任何限制）。
0 1 0 1 2 1。 1 和
对 x 回归的 ols 估计值，其中我们必须假定对所有 i ，都有 y
0 ，令（ⅲ）令
i 1 0 1 i i
对 xi 回归的截距和斜率．证明：
0 1 0 1 1（ⅳ）现在假定对所有 i ，都有 x
1 为 yi 对 log
回归的截距和斜率。
1 与 yi 对 log
回归的截距和斜率相比如何答：（ⅰ）因为 c1 y
c1 y ， c2 x
cx x ，当为 c1 yi 对 c2 xi 进行回归时，可以通过方程 2.19 得到方程的斜率：
c yi 1 2 i n 2 i 1 nn1 i c1 y 2
c2 x n c c
yi 1 1 2 n i i 1 2 2 ini 2 yc x
x i 1 i2c1
1 c2根据公式 2.17 可得截距项为：
（ⅱ）使用与（ⅰ）相同的方法，可得 c1
x 。因此 c1
x 。在（ c1
yi ）对（ c2
xi ）的回归中，
。 c1 和 c2 被完全排除在斜率公式以外，以及
0 1 1 2 1 1 2 1 1 2 1
c2 1 。（ⅲ）因为 log
，令 c1 代替 log
， yi 代替 log
0 ，然后采用与（ⅱ）相同的方法。和
是原截距和斜率，（ⅳ）采用与（ⅱ）相同的方法，设 c1
0 ，c2 替代 log
， xi 替代 log
和那么此时的截距和斜率为：
0 0 2 1 1 1 ，而平均消
inc 中，收入的（估计）边际消费倾向（ mpc ）无非就是斜率
9．在线性消费函数 cons
1 0 1＾ / inc
。利用对 100 个家庭的年收入和消费观测（均以美元计）费倾向（ apc ）为 cons / inc
，便得到如下方 0 1＾程：cons
0.853inc n
100 ， r 2
0.692＾（ⅰ）解释这个方程中的截距，并评价它的符号和大小。（ⅱ）当家庭收入为 30000 美元时，预计消费为多少（ⅲ）以 inc 为横轴，画出估计的 mpc 和 apc 图。答：（ⅰ）截距表示当 inc
0 ，cons 预计将为-124.84 美元。但这与事实不符，反映出消费函数在预测方面（尤其是收入处于较低的水平上时）是薄弱的。从年同比角度而言，124.84 美元与 0 美元的差距并没有那么大。（ⅱ）将 30000 美元代入方程：预计消费
0.853 3 （美元）。（ⅲ） mpc 和 apc 如图 2-1 所示。即使截距是负的，样本中最小的 apc 是正的。图中从年均收入水平 1000 美元开始。图 2-1 10．在高斯-马尔可夫假定 slr.1～slr.5 之下，考虑标准的简单回归模型 y
u 。通常的 ols 估计和
都是各自总体参数的无偏估计量。令
表示通过假定截距为零而得到
的估计量（见 2.6 节）量。 1 0 1 1（ⅰ）用 x1 、
0 和 1 表示 e
。证明：当总体截距（
0 ）为零时，
1 是 1 的无偏估计量。有没有其他的情况使得
1 也是无偏的（ⅱ）求
1 的方差。（提示：方差不依赖于
。[提示：对任何数据样本，
x 2 ，除非
，否则该式严格（ⅲ）证明 var
1 1 1 1i 1 i 1
nn不等。] 和
中做出选择时，评论偏误和方差的替代关系。（ⅳ）当我们要从
1 1答：（ⅰ）从方程 2.66 可知：2
ui 代入可得：2
i 1分子化简后可写为：0
xi uii 1 i 1 i 1nnn因此2 2
xi n nn n i 1
i 1对于所有的 i 而言， e
0 ，则：n n
上式中右边的第一项表示
1 的偏差。当 0
1 是无偏的。i 1n（ⅱ）根据（ⅰ）中所表示的
1 ，可得方差为：n n n n
，对任何数据样本， x 2
x 2 ，除非 x
0 。因此（ⅲ）根据公式 2.57， var
是相关（ⅳ）对于给定的样本而言，当 x 增加，
1 的有偏程度增加。但是当 x 增加时，
1 的变化与 var
1 的的。当
0 较小时，
1 的偏差也很小。因此
0 、 x 以及样本大小 n （
xi2 的规模）决定了在均方误差上
1i 1 n 优劣。 11．数据集 bwght.raw 包含了美国妇女生育方面的数据。我们关心的两个变量是因变量[婴儿出生体重的盎司数（ bwght ）]和解释变量[母亲在怀孕期间平均每天抽烟的根数（ cigs ）]．下面这个简单回归是用 n
1388 个出生数据进行估计的：bwght
0.514cigs＾（ⅰ）当 cigs
0 时，预计婴儿的出生体重为多少当 cigs
20 （每天一包）时呢评价其差别。（ⅱ）这个简单回归能够得到婴儿出生体重和母亲抽烟习惯之间的因果关系吗请解释。（ⅲ）要预测出生体重 125 盎司， cigs 应该为多少（ⅳ）样本中在怀孕期间不抽烟的妇女比例约为 0.85。这有助于解释第（ⅲ）部分中的结论吗答：（ⅰ）当 cigs
0 时，预计婴儿的出生体重为 119.77 盎司；当 cigs
20 时，预计婴儿的出生体重为 109.49 盎司，比前者下降 8.6%。（ⅱ）不能。因为还有其他因素影响婴儿的出生体重，如母亲的整体健康状况和产前护理的质量。这些因素可能与怀孕期间吸烟量是相关的。另外，咖啡因的摄入也会影响到婴儿的出生体重，这也与吸烟量相关。（ⅲ）要预测出生体重为 125 盎司，那么 cigs
10.18 。这是无意义的，它表明在一个解释变量的情况下预测出生体重会发生的后果。尽管有约 700 名婴儿的出生体重大于 119.77 盎司，但最大的预测出生体重不能超过 119.77 盎司。（ⅳ）因为模型仅仅使用吸烟量来解释出生体重，因此仅有一个结果：即 cigs
0 时的出生体重。 cigs
0 时的预测结果必然大致位于样本数据的中间位置，因此可以预测高出生率。二、计算机习题 1．401k.raw 中的数据是帕普克（papke，1995）所分析数据的一个子集，帕普克是为了研究 401（k）养老金计划的参与率和该计划的慷慨程度之间的关系。变量 prate 是有资格参与该计划的员工中拥有活动账户的百分比，也是我们要解释的变量。慷慨程度指标是计划的匹配率 mrate 。这个变量给出了员工每向这个账户存 1 美元，公司为该员工匹配的平均数量。例如，若 mrate
0.50 ，则员工每投入 1 美元，公司就匹配 50 美分。（ⅰ）求出该计划的样本中平均参与率和平均匹配率。
mrate 报告你的结果以及样本容量和 r 2 。（ⅱ）现在估计下面这个简单回归方程 prate
0 1＾（ⅲ）解释你的方程中的截距。解释 mrate 的系数。（ⅳ）当 mrate
3.5 时，求出 prate 的预测值。这是一个合理的预测吗解释这里出现的情况。（v） prate 的变异中，有多少是由 mrate 解释的你认为，这是一个足够大的量吗答：（ⅰ）平均参与率是 87.63%，平均匹配率是 0.732。（ⅱ）回归方程为：prate
5.86mrate n
1534 ， r 2
0.075＾（ⅲ）截距表示即使 mrate
0 ，预测的参与率是 83.05%。 mrate 的系数表明匹配率每增加 1 美元，则有资格参与该计划的员工中拥有活动账户的百分比（ prate ）增加 5.86%。该结果假定 prate 的变动是可能的。如果 prate 已经达到 98%，那么截距就是无意义的。（ⅳ） mrate
3.5 ，则 prate
5.86 mrate 83.05
3.5 103.59 ＾。这不是一个合理的预测，因为参与率不超过 100%。这表明因变量是有界限的，简单回归所预测的自变量的极值是不符合常理的。（v） prate 的变异中，有 7.5%是由 mrate 解释的，说明还有其他因素影响养老金计划参与率。 2．数据集 ceosal2.raw 包含了美国公司首席执行官的信息。变量 salary 是以千美元计的年薪， ceoten 是已担任公司 ceo 的年数。（ⅰ）求出样本中的平均年薪和平均任期。（ⅱ）有多少位 ceo 尚处于担任 ceo 的第一年（就是说， ceoten
0 ）最长的 ceo 任期是多少（ⅲ）估计简单回归模型 log
u ，用通常的形式报告你的结果。多担任一年 ceo，预计年薪增长（近似）的百分数是多少答：（ⅰ）平均年薪为 865.864 千美元，平均任期为 7.95 年。（ⅱ）有 5 位 ceo 处于担任 ceo 的第一年。最长的 ceo 任期是 37 年。（ⅲ）回归方程是：log
0.0097ceoten n
177 ， r 2
0.013＾多担任一年 ceo，预计年薪增长的近似百分数是 0.97%（或 1%）。 3．利用 biddle and hamermesh（1990）中的 sleep75.raw 数据，研究在每周用于睡眠的时间和用于有酬工作的时间之间是否存在替代关系。我们可以用它们中的任何一个作为因变量。为具体起见，估计模型 sleep
u 其中， sleep 是每周用于晚上睡眠的分钟数， totwrk 是这一周中用于工作的分钟数。（ⅰ）用方程的形式，连同观测的次数和 r 2 报告你的结果。该方程中的截距表示什么（ⅱ）若 totwrk 增加 2 小时，则 sleep 估计要减少多少你觉得这是一个很大的效应吗答：（ⅰ）估计方程为：sleep
.151totwrk n
0.103＾截距表示不工作的人每周用于晚上睡眠的时间为 3586.4 分钟。这意味着每晚睡眠的时间达到 8.5 小时。（ⅱ）当 totwrk
120 ，则 sleep
0..12 （分钟）。这并不是一个很大的效应。如果某人工作日的工作时间均增加一小时，睡眠总减少时间约为 45 分钟，平摊在每晚只有约 6 分钟。 4．利用 wage2.raw 中的数据估计一个简单回归，以便用智商（ iq ）来解释月薪（ wage ）。（ⅰ）求出样本中的平均工资和平均 iq 。（总体中的 iq 已标准化为平均值是 100， iq 的样本标准差是多少标准差是 15。）（ⅱ）估计一个简单回归模型，其中 iq 提高一个单位导致 wage 变化相同的数量。利用这个模型计算 iq 提高 15 个单位时，工资的预期变化。 iq 能够解释大多数工资变异吗（ⅲ）现在再估计一个模型，其中 iq 提高一个单位对工资具有相同的百分比影响。如果 iq 提高 15 个单位，预期工资提高的百分比大约是多少答：（ⅰ）平均工资为 957.95 美元，平均 iq 为 101.28。 iq 的样本标准差为 15.05，与总体标准差非常接近。（ⅱ）简单回归模型为：wage
0.096＾15=124.5（美元）。 iq 不能够解释大多数工资变异，薪水的变异中，仅 iq 提高 15 个单位导致工资变化 8.3× 有 9.6%是由 iq 解释的。（ⅲ）回归模型为：log
0.0088iq n
0.099＾如果 iq 提高 15 个单位，则
0..132 ，因此预期工资提高的百分比大约是 13.2%。 5．在化工产业的企业总体中，令 rd 表示年研发支出， sales 表示年销售额（都以百万美元计）。（ⅰ）写一个模型（不是估计方程），其中 rd 和 sales 之间的弹性为常数。哪一个参数代表弹性（ⅱ）再用 rdchem．raw 中的数据估计模型。用通常的形式写出估计方程。 rd 关于 sales 的弹性估计值是多少用文字解释这个弹性的含义。答：（ⅰ）不变弹性的对数-对数模型为：log
u＾参数 1 代表弹性。（ⅱ）估计方程为：log
0.910＾rd 关于 sales 的弹性估计值是 1.076，说明 sales 每增长 1%， rd 将会增长 1.08%。6．例 2.12 中曾使用了 meap93.raw 中的数据。现在，我们想用这个文件中的数据来说明数学通过率（ math10 ）与每个学生的平均支出（ expend ）之间的关系。（ⅰ）就多花一美元对通过率的影响而言，你认为具有恒定不变的影响合适呢，还是这种影响越来越小更合适请加以解释。（ⅱ）在总体模型 math10
u 中，证明 1 ／ 10 表示 expend 提高 10%导致 math10 改变的百分数。（ⅲ）利用 meap93.raw 中的数据，估计（ⅱ）中的模型．按照通常的方式报告估计方程，包括样本容量和及 r 2 。（ⅳ）支出的估计影响有多大也就是说，如果支出提高 10%，估计 math10 会提高多少个百分点（ⅴ）有人担心这个回归分析可能得到 math10 的拟合值会超过 100。为什么在这个数据集中不必担心这个问题答：（ⅰ）多花一美元对通过率的影响而言，这种影响越来越小更合适。在支出较小的学校，多花钱可以用于购买更多的教材、电脑以及雇用高质量的教师，但在一个高支出水平上，即已经具备了大量教材、足够好的设备和高质量的教师时，再增加支出对通过率的影响几乎没有，即使有也会很小。（ⅱ） math10
，如果 %expend
10 ，则 math10
1 /10 。（ⅲ）估计方程为：math10
408 ， r 2
0.0297＾（ⅳ）支出提高 10%，估计 math10 会提高 1.1%。支出的估计影响并不大，但这对低支出水平的学校而言是无影响的，因为 10%的支出增加从绝对数量上看是很小的。（ⅴ）在这个数据集中，最大的 math10 为 66.7，远小于 100。实际上，最大的拟合值仅为 30.2。 7．利用 charity.raw 中的数据[得自于 franses and paap（2001）]回答如下问题：（ⅰ）在这个 4268 人的样本中，平均捐款数量是多少（以荷兰盾为单位）没有捐款的人数百分比是多少（ⅱ）每年平均寄出的邮件数量是多少其最小值和最大值是多少（ⅲ）用普通最小二乘法估计如下模型： gift
1mailsyear
u 按照通常的方式报告估计方程，包括样本容量和 r 2 。（ⅳ）解释斜率系数。如果每封邮件的成本是 1 盾，那么慈善机构预期能够从寄出的每一封邮件中获得净利润吗这意味着慈善机构从每封邮件中都获得了净利润吗请加以解释。（ⅴ）样本中最小慈善捐款的预测值是多少利用这个简单的回归分析，你有可能预测 gift 等于 0 吗答：（ⅰ）平均捐款数量为 7.44 荷兰盾。在 4268 个被调查者中，2561 人没有捐款，占 60%。（ⅱ）每年平均寄出的邮件量为 2.05。最小值为 0.25，这意味着有人每四年寄出一封邮件，最大值为 3.5。（ⅲ）估计方程为：gift
0.65mailsyear n
4268 ， r 2
0.0138＾（ⅳ）斜率系数为 2.65，意味着年均邮件量导致了额外 2.65 荷兰盾的捐赠。如果每一封邮件的成本是 1 盾，那么每封邮件的预期净收益则是 1.65 盾，然而这只是从平均角度而言的，并不意味着慈善机构从每封邮件中都获得了净利润。部分邮件对捐赠量没有任何贡献，或者其贡献额小于邮寄成本，部分邮件可能产生远高于邮寄成本的捐赠量。（ⅴ）样本中最小慈善捐款的预测值是： 2.01 2.65 0.25
2.67 。即使从总体来看，某些人没有收到邮件，最小慈善捐款为 2。因此不可能预测 gift 等于 0。
的标准差也就是方差的平方根：为了构造置信区间并进行检验，估计
1/ 2 来取代，则：由于
未知，所以用其估计量
1/ 2 的一个可靠估计量，从而使标准误无效。如果误差表现出异方差性，标准误公式就不是 sd
j 五、0ls 的有效性：高斯-马尔可夫定理 1．最优线性无偏估计量（1）估计量：它是一个可应用于任何一个数据样本，并产生一个估计值的规则。
，那么它就是
的一个无（2）无偏估计量：如果
j 的一个估计量，对任意 0 ， 1 ，， k 都有 e
j j j 偏估计量。（3） “线性” ：
j 的一个估计量
j 是线性的充分必要条件是，它能表示成因变量数据的一个线性函数： j
wij yii 1n其中每个 wi j 都可以是所有自变量样本值的一个函数。（4） “最优” ：最优被定义为最小方差。 2．定理 3.4：高斯-马尔可夫定理（1）主要内容，
在假定 mlr.1～mlr.5 下，
1 ，， k 的最优线性无偏估计量。 0 1 k 0假定 mlr.1～mlr.5 被称为（横截面数据分析的）高斯-马尔可夫假定。（2）高斯-马尔可夫定理的重要性当这个标准假定集成立时，不需要再去寻找其他无偏估计量：没有一个会比 ols 更好。如果高斯-马尔可夫假定中的任何一个不成立，那么这个定理也就不再成立。零条件均值的假定（假定 mlr.4）不成立会导致 ols 产生偏误，异方差性（假定 mlr.5 不成立）虽不致使 ols 有偏，但它在线性无偏估计量中不再具有最小方差。 3.2 课后习题详解一、习题 1．用 wage2· raw 中有关男工人的数据估计了如下方程：educ
0.094 sibs
0.131meduc
0.210 feduc n
722 ， r 2
0.214＾其中， educ 是受教育年数， sibs 是兄弟姐妹的个数， meduc 是母亲受教育的年数， feduc 则是父亲受教育的年数。（i）sibs 是否具有预期的影响请给出解释。保持 meduc 、 feduc 不变，为了使预测的受教育程度减少一年，需要 sibs 增加多少（这里不要求答案为整数。）（ii）讨论对 meduc 的系数的解释。（iii）假设一个男工人 a 没有兄弟姐妹，其父母都接受了 12 年的教育。另一个男工人 b 也没有兄弟姐妹，但其父母都接受了 16 年的教育。预计 b 和 a 所接受教育的年数差别为多少答：（i） sibs 具有预期的影响。家庭中兄弟姐妹的数量越多，每一个小孩受教育的年数都会减少。为了使预测的受教育程度减少一年，需要增加 sibs
10.6 。（ii）变量 sibs 和 feduc 保持不变，则母亲受教育的年数每增加一年，预计受教育年数将会增加 0.131 年。因此母亲受教育年数增加 4 年，她的儿子受教育年数增加约半年（0.524）。（iii）因为兄弟姐妹的个数是相同的，但是 meduc 和 feduc 均不相同，因此 b 和 a 所接受教育的年数为：。
1.364 （年）2．利用 gpa2.raw 中有关 4137 名大学生的数据，用 0ls 估计了如下方程：colgpa
0.0135hsperc
0.00148sat n
0.273＾其中， colgpa 以四分制度量， hsperc 是在高中班上名次的百分位数（比方说， hsperc
5 ，就意味着位于班上前 5%之列），而 sat 是在学生能力测验中数学和语言的综合成绩。（i）为什么 hsperc 的系数为负也讲得通（ii）当 hsperc
1050 时，大学 gpa 的预测值是多少（iii）假设两个在高中班上具有同样百分位数的高中毕业生 a 和 b，但 a 学生的 sat 分数要高出 140 分（在样本中相当于一倍的标准差），那么，预计这两个学生的大学 gpa 相差多少这个差距大吗（iv）保持 hsperc 不变， sat 的分数相差多少，才能导致预测的 colgpa 相差 0.50 或四分制的半分评论你的结论。答：（i）在高中班上名次的百分位数（ hsperc ）越小，学生在高中排名就越好，越大则排名越差。其它条件不变的情况下，学生在高中的排名越差，他/她预计的 gpa 将越小。（ii）将 hsperc
1050 代入估计方程可得： colgpa
2.676 （iii）预计中 a 的成绩比 b 的成绩高出 0..207 。这个差距较大。（iv） hsperc 不变， colgpa
0.00148sat 。当 colgpa
0.0 。在其他条件不变的情况下， sat 分数的差异为约 2.5 个标准差，才能预测 colgpa 相差 0.50。 3．刚从法学院毕业的学生的起薪中位数由下式决定：log
u其中， lsat
是整个待毕业年级 lsat 成绩的中位数， gpa 是该年级大学 gpa 的中位数， libvol 是法学院图书馆的藏书量， cost 是进入法学院每年的费用，而 rank 是法学院的排名（ rank
1 的法学院是最好的）。（i）解释为什么我们预期 5
0 。（ii）你预计其他斜率参数的符号如何给出你的理由。（iii）使用 lawsch85.raw 中的数据，估计出来的方程是log
0.0047 lsat
0.0033rank n
136 ， r 2
0.842＾在其他条件不变的情况下，预计 gpa 中位数相差一分会导致薪水有多大差别（以百分比回答。）（iv）解释变量 log
的系数。（v）你是否认为，应该进入一个排名更高的法学院从预计的起薪来看，排名相差 20 位的价值有多大答：（i）法学院的排名越大，说明该学院的声望越差，这将使得起薪下降。例如，排名 100 意味着还有 99 所学校更好。因此预期 5
0 。（ii）预计 1
0 ,因为 lsat 和 gpa 都衡量了待毕业班级的质量，好学生进入学院使得预计的平均工资更高。 3 ， 4
0 ，法学院图书馆的藏书量以及进入法学院每年的费用都衡量了学校的质量。成本的作用小于藏书量，但反映了教员和硬件设施的质量。（iii）预计 gpa 中位数相差一分会导致薪水增加 24.8%。（iv）应该进入一个排名更高的法学院。排名相差 20 位的价值为： 100
0..6% 。 4．下面这个模型是 biddle and hamermesh（1990）所用多元回归模型的一个简化版本，原模型研究睡眠时间和工作时间之间的取舍，并考察影响睡眠的其他因素： sleep
u 其中， sleep 和 totwrk 都以分钟／周为单位，而 educ 和 age 则以年为单位。（也可参见计算机习题 c2.3。）（i）如果成年人为工作而放弃睡眠， 1 的符号是什么（ii）你认为
3 的符号应该是什么（iii）利用 sleep75.raw 中的数据，估计出来的方程是sleep
.148totwrk
706 ， r 2
0.113＾如果有人一周多工作 5 个小时，预计 sleep 会减少多少分钟这是一个很大的舍弃吗（iv）讨论 educ 的估计系数的符号和大小。（v）你能说 totwrk ， educ 和 age 解释了 sleep 的大部分变异吗还有什么其他因素可能影响花在睡眠上的时间它们与 totwrk 可能相关吗答：（i） 1 的符号应该为负。（ii）
2 的符号不明确。一些人认为更高教育水平的人想获得更多，其他条件相同的情况下，他们休息的较少，此时
0 。睡眠与年龄之间的关系比模型描述的更为复杂，经济学家不能很好的判断这件事情。（iii）因为 totwrk 都以分钟／周为单位，因此将时转化为分可得， totwrk
300 。预计睡眠将会下降。对一周而言，这并不是一个很大的舍弃。 0.148 300
44.4 （分）（iv）受教育年限 educ 越多暗示着预计睡眠时间越少，但是这种影响是很小的。假设在其他条件不变的情况下，大学和高中的区别是四年间大学学生每周睡眠时间少休息 45 分钟。（v）不能， totwrk 、 educ 和 age 只解释了 11.3%的 sleep 的变异。一个包含在误差项中的重要因素是总体健康状况。另一个重要因素是婚姻状况，以及是否有孩子。健康、婚姻状况、孩子的数量和年龄与 totwrk 是相关的。 5．考虑含有三个自变量的多元回归模型，并满足假定 mlr.1～mlr.4， y
u 你对估计 x1 和 x2 的参数之和感兴趣；把这个和记为 1
的一个无偏估计量。（i）证明
1 1 2 1 ，
表示的 var
（ii）求出用 var
1 1 2 1 2 e
。答：（i） e
1 1 2 1 2 1 2 1
（ii） var
6．在一项调查大学 gpa 与在各种活动中折耗费时间之关系的研究中，你对几个学生分发了调查问卷。学生被问到，他们每周在学习、睡觉、工作和闲暇这四种活动中各花多少小时。任何活动都被列为这四种活动之一，所以对每个学生来说，这四个活动的小时数之和都是 168。（i）在模型 gpa
0 +1study+1sleep+1work +1leisure+u 中，保持 sleep ， work 和 leisure 不变而改变 study 是否有意义（ii）解释为什么这个模型违背了假定 mlr.3。（iii）你如何才能将这个模型重新表述，使得它的参数具有一个有用的解释，而又不违背假定 mlr.3。答：（i）没有意义。因为四种活动的总时间固定为 168 小时，其他三种不变，则 study 时间也不会改变。（ii）从（i）可知， study 是其他三种活动的线性函数： study
leisure 。这种关系对于每一个观测值都成立，因此违背了 mlr.3。（iii）应该去掉一个解释变量 leisure ，模型变为：gpa
u1 是 study 的参数，当其他条件不变的情况下， study 每增加一小时， gpa 增加 1 。但是如果学习时间增加一小时， leisure 时间必须减少一小时。其他参数解释与此类似。 7．假设制造业中每个工人的平均生产力（ avgprod ）取决于培训的平均小时数（ avglrain ）和工人的平均能力（ avgabil ）两个因素： avgprod
u 假设这个方程满足高斯-马尔可夫假定。如果将培训津贴给了那些工人能力较差的企业，以致 avgtrain 和 avgabil 呈负相关，那么，将 avgprod 对 avgtrain 进行简单回归所得到的可能出现什么样的偏误x2
1 存在一个向下的偏误，即 1：e
1 。简单回答：利用表 3-2。因为
0 ，且 corr
x1 ，归估计低估了培训时间的影响。即使 1
也可能是负的。 8．下面哪些因素会导致 0ls 估计量出现偏误（i）异方差性。（ii）遗漏一个重要变量。（iii）模型中同时包含的两个自变量之间的样本相关系数达到 0.95．答：只有（ii）才会导致 ols 出现偏误，且所遗漏的变量必须与模型中包含的变量是相关的。同方差性假设并不影响 ols 估计量的无偏性，仅影响估计量的方差。样本解释变量之间共线性的程度并不影响高斯-马尔科夫假定。只有当自变量之间完全共线时，才会违背 mlr.3。 9．假设你对估计其他条件不变情况下 y 和 x1 之间的关系感兴趣。为此，你可以搜集两个控制变量 x2 和 x3 的数据。（为真实起见，你可以想象 y 为期末考试分数， x1 为到课率． x2 为上学期之前的 gpa ， x3 为 sat 或 act 分为 y 对 x ， x ， x 进行多元回归的斜率估计值。
表示 y 列 x 进行简单回归的系数估计值，而
1 1 1 1 3 2 是十分类似还是十分不（i）若样本中 x1 与 x2 和 x3 高度相关，且 x2 和 x3 对 y 具有很大的偏效应，预计和
1同请解释。是十分类似还是十分不同请解释。（ii）若 x1 与 x2 和 x3 几乎无关但 x2 和 x3 高度相关，预计和
1 哪个更小（iii）若样本中 x1 与 x2 和 x3 高度相关，且 x2 和 x3 对 y 具有很小的偏效应，预计 se
1 请解释。（iv）若 x1 与 x2 和 x3 几乎无关，x2 和 x3 对 y 具有很大的偏效应，并且 x2 与 x3 高度相关，预计 se
1 哪个更小请解释。答：（i）因为 x1 与 x2 和 x3 高度相关，后面的变量对 y 具有很大的偏效应，简单和多元回归中 x1 的系数十分不同。由方程 3.46 以及对遗漏一个变量的讨论可知，系数不相同是直觉的结论。十分类似。因为 x 与 x 和 x 几乎无关，则 x （ii）若 x1 与 x2 和 x3 几乎无关但 x2 和 x3 高度相关，预计
1 1 3 2 2和 x3 的相关程度对多元回归中对 x1 的回归估计没有直接的影响。。（iii） se
更小。在本案例中，加入 x2 和 x3 大幅度增加了 x1 的系数的标准误，因此 se 1
更小。在模型中加入 x 和 x 将会减少残差，而不导致多重共线性，因此可得 se
。x （iv）se
1 1 1 2 3 2
。和 x3 的相关关系并不影响 se
1 10．假设决定 y 的总体模型是 y
u ，而这个模型满足假定 mlr.1～mlr.4。但我们估计了漏掉 x3 的模型。令
2 为 y 对 x2 和 x3 回归的 ols 估计量。（给定样本中自变量的值）证明
1 的期望值是e 1
是 x1 对 x2 回归所得到的 0ls 残差。其中 r [提示： 1 的公式来自方程（3.22）。将 yi
uii1i1 视为非随机量而取期望。] 代入这个方程。经过一些计算之后，将 xi 3 和 r
答：由公式 3.22 可得：
1 r yi 1 nni1 i ri21i 1。代入真实的模型可得：
i 1 i1n0+1 xi1
ri 1n2 i12 i1 xi1
r i1 是 xi1 对 xi 2 回归的残差， r i1 有零均值，且与 xi 2 无关。因此分因为
r ，ri 1nnnni 1i 1i 1子简化为2
rr1uii 1 i 1 i 1 n n n将分子代入原式得：1
3 r xi 1 nni1 i 3 2 i1 ri 1 r ui 1 nn1 i 2 i1 ri 1由于随机误差项的均值为 0，因此e 1
r xi 1 nni1 i 3 2 i1 ri 111．下面这个方程把一个社区住房的中间价格表示成污染水平（用 nox 表示氧化亚氮）和社区中每套住房平均房间数量（ rooms ）之间的关系：log
u（i） 1 和
2 的符号可能是什么对 1 有何解释请加以说明。（ii）为什么 nox [或更准确地说，是 log
]与 rooms 可能负相关如果是这样，将 log
进行简单回归得到 1 的偏误估计量是偏高还是偏低（iii）利用 hprice2.raw 中的数据，估计出如下方程：log
506 ， r 2
0.306rooms n
506 ， r 2
0.514 根据你在第（ii）部分的回答，就 price 对 nox 的弹性估计值而言，上述简单回归结果和多元回归结果之间的＾＾关系与你的预期一致吗这个结果是否意味着-0.718 比-1.043 更加接近真实弹性答：（i）1
0 ，更高的污染水平导致预计房屋价格更低。1 表示房屋价格的污染弹性，即污染水平上升 1%，则房屋价格下降 1 % 。
0 ，每套住房平均房间数量越多，说明房屋面积越大，则房屋价格越高。（ii）假设平均房间数量随着房屋质量的提高而增长， log
与 rooms 可能负相关，因为实际上贫穷的社x2
0 ，简单回归估计得到的
1 有一个区污染水平更高。利用表 3.2 可判断偏误的方向，如果
x1 ，向下的偏误。当 1
0 ，意味着在同样的回归中，平均污染水平的作用
1 被高估了。（iii）上述简单回归结果和多元回归结果之间的关系与预期一致。简单回归估计的结果-1.043 小于多元回归的结果-0.718。如果这些估计只是对于一个样本而言，那么就不能判断哪一个更接近 1 ，但如果这是一个典型的样本，则-0.718 更接近真实的 1 。 12．（i）在前 4 个高斯-马尔可夫假定之下，考虑简单回归模型 y
u ，对某个函数 g
定义一个斜率估计量为1
i 1n n证明
1 是线性无偏的。记住，在你的推导过程中，因为 e
0 ，所以你可以把 xi 和 zi 都看成非随机的。（ii）增加同方差假定 mlr.5，证明var 1
是 ols 估计量。[提示：附录 8 中的柯（iii）在高斯-马尔可夫假定下，直接证明 var
西-施瓦兹不等式意味着n 2 2
i 1 2注意，我们可以将 x 从样本协方差中去掉。证明：（i）记 szx
xi ，这不完全是 z 和 x 样本协方差，因为并没有除以 n 1 。但为了简化计算而使i 1 n用它。由此可知：1
yiszx这是一个 yi 的线性函数，设权重为 wi
/ szx 。为了表示无偏性，将 yi
ui 加入该方程可得：1 n zi 1ni z
uii 1 i 1nnszx 1
0 ， s zx 是 zi 、 xi 和预计期望值的函数。对于所有的 i ，都有 e
0 。因此可得：i 1e 1
i 1 。（ii）据（i）可得： var
1 = 2 2 2 szx szx szx n
，将 x 从样本协方差中去掉，消去 n 1 ，可以得到：（iii）已知 var
。两边乘以
2 ，可得 var
13．如下式所示，在由美国各个县构成的总体中，各种税收比例对随后就业增长方面的影响：growth
其他因素其中， growth 是就业从 1980 年到 1990 年的变化百分比， share p 是总税收收益中财产税的比例， sharei 是所得税税收收益的比例，而 shares 是销售税税收收益的比例。所有这些变量都以 1980 年的货币度量。遗漏的比例 sharef 包括收费和杂项税收。根据定义，这四个比例之和为 1。其他因素将包括对教育、基础设施等支出（均以 1980 年货币度量）。（i）我们为什么必须从方程中省略一个税收比例变量（ii）对 1 给出一个仔细的解释。答：（i）四种税收的比例之和为 1，如果不省略一种税收的比例，方程就会遭遇完全共线性。参数不存在“其他条件不变”的情况，也就是说，只改变一种税收的比例不可能维持所有其他的变量保持不变。（ii）因为每一种税收分担一个比例（最大为 1，此时其他税收所占份额为 0），因此增加 1 单位的财产税收益比例 share p 是无意义的。如果 share p 增加 1%，保持其他因素不变的情况下， growth 下降 1 %。二、计算机习题 1．卫生官员（和其他人）所关心的一个问题是，孕妇在怀孕期间抽烟对婴儿健康的影响。对婴儿健康的度量方法之一是婴儿出生时的体重；过低的出生体重会使婴儿有感染各种疾病的危险。由于除了抽烟之外，其他影响婴儿出生体重的因素可能与抽烟相关，所以我们应该考虑这些因素。比如，高收入通常会使母亲得到更好的产前照顾和更好的营养。表达这一点的方程是 bwght
2 的符号最可能是什么（ii）你是否认为 cigs 与 faminc 可能相关解释为什么可能是正相关或负相关。（iii）现在利用 bwght.raw 中的数据分别估计包含和不包含 faminc 的方程。以方程的形式报告结论，包括样本容量和 r 2 。讨论你的结论，主要看增加 faminc 是否会显著改变 cigs 对 bwght 的估计影响．答：（i）
0 。高收入通常会使母亲得到更好的产前照顾和更好的营养，从而使得出生体重较大。（ii）一方面，收入的增加会使得商品的消费增加，因此两者是正相关关系。另一方面，家庭收入越高，家庭成员所受的教育越高，吸烟的可能性越低，因此收入与吸烟是呈反相关关系的。实际上，样本中两者呈负相关关系，相关系数为-0.173。（iii）不包含和包含变量 faminc 的方程分别为： bwght
0.514cigsn
1.388 ， r 2
0.023及bwght
0.93 faminc n
1388 ， r2
0.030 可以看出，加入变量 faminc 的回归中，吸烟的影响较小，但两者的差别不大。这是因为吸烟和家庭收入之间并不是非常相关，而 faminc 的系数实际上是非常小的，1988 年 10000 美元的家庭收入增长使得预计出生体重仅增加 0.93 盎司。 2．使用 hprice1.raw 中的数据，估计如下模型： price
u 其中， price 是以千美元为单位的住房价格。（i）以方程的形式写出结果。（ii）住房在保持面积不变的同时又增加一间卧室，估计其价格会提高多少（iii）住房增加一间大小为 140 平方英尺的卧室，估计其价格会提高多少将这个答案与你在第（ii）部分的答案相比较。（iv）价格的变异有多大比例能被平方英尺数和卧室数解释（v）样本中的第一套住房有 sqrft
2438 和 bdrms
4 。从 0ls 回归线计算这套住房的预计销售价格。（vi）样本中第一套住房的实际销售价格是 300000 美元（ price
300 ）。求出这套住房的残差。它是否表明购买者为这套住房支付了过低或过高的价格答：（i）估计方程为： price
0.128sqrft
15.20bdrmsn
0.632 （ii）其价格会提高 price
15.20bdrms
15.2 ，即 15200 美元。（iii）估计其价格会提高 price
0.128sqrft
15.20bdrms
33.12 ，即 33120 美元。（iv）价格的变异有 63.2% 能被平方英尺数和卧室数解释。（v）这套住房的预计销售价格为： 19.32
4=353.544 ，即 353544 美元。（vi）实际销售价格为 300000 美元，预计价格为 353544 美元，残差为实际观察值与回归估计值的差，即-53544 美元。购买者为这套住房支付了过低的价格。当然，还存在一些其他的因素影响房屋的价格，模型并未将这些因素完全纳入进来。 3．文件 ceosal2.raw 包含了 177 位首席执行官的数据，并可用来考察企业业绩对 ce0 薪水的影响。（i）估计一个将年薪与企业销售量和市场价值相联系的模型。让这个模型对每个自变量的变化都具有常弹性。以方程的形式写出结论。（ii）在第（i）部分的模型中增加 profits 。为什么这个变量不能以对数形式进入模型你认为这些企业业绩变量解释了 ce0 薪水变异中的大部分吗（iii）在第（ii）部分的模型中增加 ceoten 。保持其他条件不变，延长一年 ce0 任期，估计的百分比回报是什么（iv）求出变量 log
和 profits 之间的样本相关系数。这些变量高度相关吗这对 ols 估计量有什么影响答：（i）常弹性方程为：log
177 ， r 2
0.299（ii） profits 不能以对数形式进入模型的原因在于：样本中的 9 个公司的利润为负，如果采用对数形式，将会在模型中丢失这些数据。估计模型如下：log
0.000036 profits n
177 ， r 2
0.299企业业绩变量仅解释了 ce0 薪水变异中的 30%。（iii）加入变量 ceoten 后的模型为：log
0.000029 profits
0.012ceoten n
177 ， r 2
0.318延长一年 ce0 任期，估计的百分比回报是 1.2%。（iv）变量 log
和 profits 之间的样本相关系数是 0.78，这是高度相关的。这对 ols 估计量的无偏性是无影响的，但会使它们的方差增大。4．本题使用 attend.raw 中的数据。（i）求出变量 atndrte ， pricgpa 和 act 的最小值、最大值和平均值。（ii）估计模型 atndrte
u ，并以方程的形式写出结论。对截距做出解释。它是否存在一个有用的含义。（iii）讨论估计的斜率系数。有没有什么令人吃惊之处（iv）如果 prigpa
3.65 和 act
20 ，预计 atndrte 是多少你对这个结论做何解释样本中有没有一些学生具有这些解释变量的值（v）如果学生 a 具有 prigpa
3.1 和 act
21 ，而学生 b 具有 prigpa
2.1 和 act
26 ，他们在出勤率上的预期差异是多少答：（i） atndrte ， pricgpa 和 act 的平均值、最小值和最大值如表 3-2 所示：表 3-2（ii）估计方程为：atndrte
17.26 prigpa
1.72 act n
0.291 截距的含义是，当 pricgpa 和 act 为 0 时，预计的 atndrte 为 75.5%。实际上在大学里面没有学生的 pricgpa和 act 为 0。对总体而言不存在一个有用的含义。（iii）在 act 保持不变的前提下，学生的 pricgpa 系数提高 1%， pricgpa 的系数意味着， atndrte 将增加 17.3%。 act 的系数为负，最初是令人吃惊的。在 pricgpa 给定的前提下， act 提高 5%，预计的 atndrte 将下降 8.6%。（iv）预计 atndrte
104.3 。学生的出勤率不可能超过 100%。当用回归方法对因变量的上界和下界进行预测时可能出现这样的情况，实际上样本中学生的真实出勤率为 87.5%。（v）a 和 b 在出勤率上的预期差异是： 17.26
=25.86 。5．通过对例 3.2 明确地进行“排除其他影响”的练习，证实对 0ls 估计值做“排除其他影响”的解释。这首先要求将 educ 对 exper 和 tenure 进行回归，并保留残差 r1 然后将 log wage
对 r1 进行回归。将 r1 的系数与在log
对 educ 、 exper 和 tenure 的回归中 educ 的系数相比较。答： educ 对 exper 和 tenure 进行回归的模型为： educ
0.074exper
0.048tenure
0.101保留残差 r1 然后将 log
对 r1 进行回归的模型为： log
0.092r 1 n
526 ， r 2
0.207在第二个回归模型中，系数 r1 与公式 3.19 中 educ 的系数相等。以上回归的判定系数小于 3.19 的 r 2 。log
对 r1 的回归解释了 educ 中与 exper 和 tenure 无关的部分。 exper 和 tenure 的独立效应没有包括在内。6．本题使用 wage2.raw 中的数据。一般地，保证如下所有回归都含有截距。。（i）将 iq 对 educ 进行简单回归，并得到斜率系数
。（ii）将 log
对 educ 进行简单回归，并得到斜率系数
和（iii）将 log
对 educ 和 iq 进行多元回归，并分别得到斜率系数
1 。（iv）验证
1 1 2答：（i）斜率系数 1
3.53383 。
0.05984 。（ii）斜率系数
0.00586 。
0.03912 和
（iii）斜率系数
0.05984 是非常接近的。较小的差距可看作为
0.083 ，这与
1 1 2舍入误差。 7．本题利用 meap93.raw 中的数据。（i）估计模型 math10
u ，并按照通常的方式报告估计方程，包括样本容量和r 2 。斜率系数的符号与你的预期一致吗请加以解释。（ii）你如何理解第（i）部分中估计出来的截距特别是，令两个解释变量都等于零说得过去吗[提示：记住 log 1
0 。] （iii）现在做 math10 对 log
的简单回归，并将斜率系数与第（i）部分中得到的估计值进行比较。与第（i）部分中的结果相比，这里估计出来的支出效应是更大还是更小（iv）求出 lexpend
与 lnchprg 之间的相关系数。你认为其符号合理吗（v）利用第（iv）部分的结果来解释你在第（iii）部分中得到的结论。答：（i）回归结果是：math10
0.305lnchprg n
408 ， r 2
0.180估计的斜率系数符号符合预期，即更多的支出导致通过率的增加，更高的贫困率导致通过率的下降。（ii）截距是指其他解释变量为 0 时，被解释变量的估计值。当贫困率很低的时候，设定 lnchprg
0 是有意义的。设定 log
为 0 是无意义的，因为这意味着 expend 为 1，而且支出是以美元计的。-20%的预测通过率是无意义的。（iii）简单回归模型结果为：math10
0.030其斜率系数是第（i）部分的结果的两倍。因此这里估计出来的支出效应更大。（iv） log
与 lnchprg 之间的相关系数为-0.19，这意味着，在平均水平上，较穷的高中在每个学生身上的支出更少。这是有意义的，尤其是在 1993 年的密歇根，学校基金是由当地的税收收入决定的。
0 。简单回归估计中的系数
0 ，这意味着 1
（v）可以使用公式 3.23，因为 corr
x1 ， 1 2 。没有成功解释贫穷率使得支出的效应被高估。元回归中的
18．利用 dis（rim.raw 中的数据回答本题。对新泽西和宾夕法尼亚的各个邮区，搜集快餐店各种商品价格和人口特征方面的数据。目的是想考察快餐店是否在黑人更集中的区域收取更高的价格。（i）求出样本中 prpblck 和 income 的平均值及其标准差。 prpblck 和 income 的度量单位是什么（ii）考虑一个模型，用人口中黑人比例和收入中位数来解释苏打饮料的价格 psoda ； psoda
u 用 ols 估计这个模型并以方程的形式报告结果，包括样本容量和 r 2 。（报告估计值时不要使用科学计数法。）解释 prpblck 的系数。你认为它在经济上算大吗（iii）将第（ii）部分得到的估计值与 psoda 对 prpblck 进行简单回归得到的估计值进行比较。控制收入变量后，这种歧视效应是更大还是更小了（iv）收入价格弹性为常数的模型可能更加适合。报告如下模型的估计值：log
u若 prpblck 提高 0.20（即 20 个百分点），估计 psoda 的变化百分比是多少[提示：答案是 2.xx，你在“xx”位置上填写数字即可。] （v）现在在第（iv）部分的回归中添加变量 prppov 。
prpblck 有何变化（vi）求出 log
和 prppov 的相关系数。大致符合你的预期吗（vii）评价如下说法： “由于 log
和 prppov 如此高度相关，所以它们不该进入同一个回归。 ” 答：（i）样本中 prpblck 平均值为 0.113，标准差为 0.182；income 的平均值为 47053.78，标准差为 13179.29。 prpblck 的度量单位是比例，而收入的度量单位是美元。（ii）ols 回归结果是：psoda
0.115 prpblck
0.00000income n
0.064 prpblck 增加了 10 个百分点， soda 的预计价格将增加 0.0115 美元。它在经济上不算大。在无黑人的地区和其他几乎全部是黑人的地区， soda 价格的差异大约是 11.5 美分。（iii）简单回归估计中， prpblck 的系数为 0.065，因此简单回归估计的系数更低。这是因为 prpblck 和 income 是负相关的，而收入变量在多元回归中的系数为正。控制收入效应后，歧视效应变大了。（iv）模型结果为：log
0.122 prpblck
0.068 若 prpblck 提高 0.20（即 20 个百分点），估计 psoda 的变化百分比是 0.20 0.122
0.0244 ，即 2.44%。（v）添加变量 prppov ，
prpblck 下降为 0.073。（vi） log
和 prppov 的相关系数为-0.84，因为贫困率是由收入决定的。（vii） log
和 prppov 之间的确是高度相关的，但是为了能够分离出纯粹的歧视效应，在模型中需要包含尽可能多的衡量收入的因素，因此模型中包含这两个变量是有意义的，即他们可以进入一个回归。 9．利用 charity.raw 中的数据回答如下问题（i）用普通最小二乘法估计如下模型： gift
1mailsyear
2 giftlast
3 propresp
u 按照通常的方式报告估计方程，包括样本容量和 r 2 。其 r 2 与不使用 giftlast 和 propresp 的简单回归所得到的r 2 相比如何（ii）解释 mailsyear 的系数，它比对应的简单回归系数更大还是更小（iii）解释 propresp 的系数，千万要注意 propresp 的度量单位。（iv）现在，在这个方程中增加变量 avggif 。这将对 mailsyear 的估计效应造成什么样的影响（v）在第（iv）部分的方程中， giftlast 的系数有何变化你认为这是怎么回事答：（i）估计模型为：gift
2.17mailsyear
0.0059 giftlast
15.36 propresp n
4268 ， r2
0.0834与简单回归的 r2
0.0834 相比较大，能够解释更大部分的 gift 变异。（ii）保持其他变量不变， mailsyear 每增加 1，估计的 gift 将增加 2.17 荷兰盾。简单回归系数为 2.65，因此多元回归估计系数较小。（iii） propresp 是以比例计的，增加 1 是无意义的。这种增长只会发生在 propresp 从 0 增加到 1 时。设想 propresp 增长 10 个百分点，则预计 gift 将增加 1.54 荷兰盾。（iv）估计结果为：gift
1.20mailsyera
0.261giftlast
16.20 propresp
0.527avggift n
4268 ， r2
0.2005 mailsyear 的系数变小为 1.2，比简单回归估计模型中的回归系数少一半。（v） giftlast 的系数符号变为负，当人们可能在较大的捐赠之后选择较小的捐赠，那么过去的捐赠越多，意味着现在的捐赠将会减小，因此这种负相关关系是有意义的。在含有 k 个自变量的模型中，可以把虚拟假设写成 h 0：x1，x2，，xk 都无助于解释 y 用参数表示，这个虚拟假设就是所有的斜率参数都是零： h0：1
0 在式中有 k 个约束，得到受约束模型y
u该估计式的 r 2 为零。因为没有解释变量，所以 y 中的变异一点都没有得到解释。f 统计量可写成r2 / k 1
1其中， r 2 就是 y 对 x1，x2，，xk 回归的通常 r 2 。 7．检验一般的线性约束检验排除性约束仍是 f 统计量最重要的应用。但有时候，一种理念所蕴涵的约束，比仅仅排除某些自变量更为复杂，仍可以直接使用 f 统计量进行检验。因变量不同的模型，不能使用 f 统计量的 r 2 型。六、报告回归结果 1．所估计的 ols 系数估计值总应该报告对于分析中的关键变量，对所估计的系数做出解释。 2．标准误标准误总是应该与所估计的系数一起包括进来，原因在于：（1）标准误有助于判断被检验的虚拟假设，虚拟假设并非总是总体参数为 0；（2）有助于计算置信区间。 3．回归的 r 2 也总应该包括进来（1） r 2 提供拟合优度的一种度量；（2）简化排除性约束 f 统计量的计算。 4．观测次数也应该出现在估计模型中 4.2 课后习题详解一、习题 1．考虑一个用企业年销售额、股本回报率（ roe ，以百分数表示）和企业股票的回报（ ros ，以百分数表示）来解释 ce0 薪水的如下方程：log
u（i）用模型参数来表述如下虚拟假设：在控制了 sales 和 roe 后， ros 对 ce0 的薪水没有影响。再给出对立假设的参数表述：股票市场更好的业绩会提高 ce0 的薪水。（ii）使用 ceosal1.raw 中的数据，通过 ols 可以得到如下方程：log
0.00024ros＾ 0.32
0.2832 0.54如果 ros 提高 50 个百分点，预计 salary 会提高多大比例 ros 对 salary 具有实际上很大的影响吗（iii）检验 ros 对 salary 没有影响的虚拟假设，对立假设是具有正效应。在 10%的显著性水平上进行检验。（iv）你最后会在一个用企业业绩表示 ceo 报酬的模型中包括 ros 吗给出你的解释。答：（i）虚拟假设为： h0：3
0 ；对立假设为： h1：3
0 。（ii）如果 ros 提高 50 个百分点，预计 salary 会提高 0.0.012
12% 。 ros 对 salary 不具有实际上很大的影响。 t 统计量为：（iii）自由度为无穷大， 10%的显著性水平下，单侧检验的临界值为 1.282。 0.00024 / 0.0 ，小于临界值，因此在 10%的显著水平上不能拒绝虚拟假设，即 ros 对 salary 没有影响。（iv）会。基于样本而言，估计的 ros 系数看起来并不等于 0 的原因是抽样差异；另一方面，在模型中包含 ros 不会造成任何伤害，这取决于它与其他的自变量之间的相关关系。 2．下面哪种因素可能导致通常 0ls 的 t 统计量无效（即在 h 0 下不服从 t 分布）（i）异方差性；（ii）模型中两个自变量之间的样本相关系数达到 0.95；（iii）遗漏一个重要的解释变量。答：（i）和（iii）可能导致通常 0ls 的 t 统计量无效。同方差性是 clm 假定之一。遗漏一个重要的变量违背了假定 mlr.3。（ii）clm 假定除了排除相关系数等于 1 的情况外，并没有涉及自变量之间的相关性。 3．在例 4.7 中，我们利用非工会制造企业的数据估计了废品率与其他企业特征之间的关系。我们现在来更深入地分析这个例子，并使用一个更大的企业样本。（i）例 4.7 中待估计的总体模型可写成log
u利用 1987 年的 43 个观测，所估计的方程是log
0.042hrsemp
employ ＾ 4.57
0.3102 0.370
0.360 将这个方程与仅用样本中 29 个非工会企业估计出来的结果进行对比。（ii）证明这个总体模型也可以写成log
sales ／employ
。]解释假设 h0：3
0 。其中 3
3 。[提示： log
x2（iii）当估计第（ii）部分的方程时，我们得到log
0.042hrsemp
sales / employ
employ ＾ 4.57
0.3102 0.370
0.205控制了工人培训和销售-雇员比后，是否企业越大，其废品率在统计上的显著性越大（iv）检验假设： sales / employ 提高 1%将伴随以废品率下降 1%。答：（i）当 hrsemp 的标准误不变，系数将会增加一半。t 统计量从-1.47 下降到-2.21，在 5%的显著性水平上，临界值为-1.684， t 统计量小于临界值，左侧检验下系数显著地小于零。（ii）如果在方程的右边加上
，可得：log
sales ／employ
u（iii）企业越大，其废品率在统计上的显著性不一定越大。 log
系数的 t 值为 0.2，非常小。因此控制了工人培训和销售-雇员比后，可以断定以雇员多少而决定的企业规模与废品率无关。（iv）（ii）中的虚拟假设为： h 0：2
1 。 t 统计量为：
0.132 ，该 t 值非常小，无法拒绝虚拟假设。 4．使用 ceosal2.raw 中的数据得出下表：ceoten 为其就任当前公司 ceo 的年数，变量 mktval 为企业的市场价值，profmarg 为利润占销售额的百分比，而 comten 则是其在这个公司任职的总年数。（i）评论 profmarg 对 ceo 薪水的影响。（ii）市场价值是否具有显著影响试解释你的结论。（iii）解释 ceoten 和 comten 的系数。这些变量是统计显著的吗（iv）你如何解释在其他条件不变的情况下，你在这个公司任职时间越长，你的薪水则越低答：（i）据表中（2）、（3）可知， profmarg 的系数为负， t 统计量为为-1。因此在企业的市场价值和销量固定的情况下，边际利润对 ceo 的薪水无影响。（ii）据表中（3）可知， log
的 t 统计量为 2.05，在 5%的显著性水平上的临界值为 1.96，因此是统计显著的。所以市场价值具有显著影响。（iii）&（iv）这些变量在低显著性水平上是个别显著的。因为 tceoten
3.11 ， tcomten
2.79 。其他变量固定的情况下，就任公司 ceo 的年份增加一年，薪水增长 1.71%。在公司任职（非 ceo）增加一年，薪水减少 0.92%。第二个结论看起来令人惊讶，但它正是反映了“明星”效应：企业从公司外部聘用 ceo 都倾向于一小群被高度评价的候选人，因此这些人的工资被哄抬起来，而非 ceo 职员的聘用不大可能像 ceo 一样。 5．在 4.5 节，我们使用了一个检验住房价格定价理性的例子。在那里，我们使用了 price 和 as
sess 的一个对数一对数模型[参见方程（4.47）]。这里，我们采用一个水平值一水平值的表述。（i）对于如下简单回归模型： price
0 ，则评价是理性的。所估计的方程是price
0.976assess＾16.27
0.820首先，相对双侧对立假设，检验假设 h0：0
0 。然后，相对双侧对立假设，检验 h 0：1
1 。你的结论是什么（ ii ）为了检验联合假设 0
1 ，我们需要约束模型的 ssr 。这就要求在 n
88 的情况下计算 price
assess i 1 i in2，因为约束模型的残差刚好为 pricei
assessi 。（由于两个参数在 h 0 下都被设定，把以不需要约束模型的估计值。）这最终得到 ssr
。对这个联合假设进行 f 检验。（iii）现在检验模型 price
u 。假设 h0：2
0 。利用同样 88 个住房数据估计这个模型的 r 2 是 0.829。（iv）如果 price 的方差随着 assess ，sqrft ，lotsize 或 bdrms 而变化，你对第（iii）部分的 f 检验有什么看法答：（i）自由度为 88
86 ，在 5%的显著性水平下，双侧检验的临界值是 1.987。 h0：0
0 的 t 统计量为 0.89，因此不能拒绝虚拟假设。 h 0：1
1 的 t 统计量为
0.49 ，同样是统计不显著的，因此无法拒绝虚拟假设。（ii）因为 ssr r
，因此 f 统计量为：f
2查表可得，1%显著水平上，自由度分别为 2 和 90 的临界值为 4.85，因此拒绝虚拟假设。（iii）采用 r 2 型的 f 统计量，无约束模型中的自由度为 88
83 。 f 统计量为：f 0.829
0.829 3在 10%的显著性水平上，临界值为 2.15，因此不能拒绝原假设。此时 p 值为 0.23。（iv）如果存在异方差性，则违背了 mlr.5，在零假设条件下， f 统计量服从 f 分布。因此，将 f 统计量与临界值相比较，或从 f 分布得到 p 值都是没有意义的。 6．回归分析还可以用来检验市场是否在评价股票时有效地使用了市场信息。为简单起见，令 return 为持有一个企业的股票在从 1990 年末到 1994 年末的四年时间内得到的总回报。有效市场假设认为，这些回报不应该与 1990 年知道的信息存在系统相关性。如果在期初知道的企业特征有助于预测股票回报，那我们在选择股票时就能用到这个信息。对于 1990 年，令 dkr 表示企业的债务-资本比率，而 salary eps 表示每股收益， netinc 表示净收入，则表示 ce0 的总报酬。（i）使用 return.raw 中的数据，估计了如下方程：return
0.0051netinc
0.0035salary＾ 6.89
0.201 0.078 0.0047
0.0395 检验这些解释变量在 5%的显著性水平上是否联合显著。存在个别显著的解释变量吗（ii）现在使用 netinc 和 salary 的对数形式重新估计这个模型return
salary ＾ 39.37
0.203 0.080 2 3.39
0.0330第（i）部分的结论有没有什么变化（iii）在第（ii）部分中，我们为什么不用 dks 和 eps 的对数（iv）总的看来，股票回报可预测性的证据是强还是弱答：（i）已知 n
4 ，因此 f 统计量为：f 0.
0.0395 45%的显著性水平，分子自由度为 4，分母自由度为 137 的临界值为 2.45，大于 f 统计量，因此不能拒绝虚拟假设，即解释变量在 5%的显著性水平上联合不显著。变量 dkh 的 t 统计量最大，为 1.6，小于临界值 1.96，因此在 5%的显著性水平下，不存在个别显著的解释变量。（ii）f 统计量为：f 0. 小于临界值，因此解释变量在 5%的显著性水平上联合不显著。
0.0330 4同样不存在在合理的显著性水平上显著的 t 统计量。（iii） log 不能定义 dkh 或 eps 为零的企业，因此采用 log 形式，将可能在回归中丢失部分企业的数据。（iv）股票回报可预测性的证据是弱的。在 5%的显著性水平上，没有 t 统计量是显著的，同时 f 统计量也是不显著的。报酬的变异中，只有 3.3%的部分能被解释变量解释。7．考虑例 4.3 中的估计方程，这个方程可以被用来研究缺课对大学平均成绩的影响：colgpa
0.412hsgpa
0.083skipped＾ 0.33
0.094 0.0112 0.026n
0.234（i）利用标准正态近似，求出 hs gpa 在置信水平为 95%时的置信区间。（ii）相对于双侧对立假设，你能在 5%的显著性水平上拒绝假设 h0：hs gpa
0.4 吗（iii）相对于双侧对立假设，你能在 5%的显著性水平上拒绝假设 h0：hs gpa
1 吗答：（i） hs gpa 在置信水平为 95%时的置信区间为：0.412
0.094 。 0.412
0.094 ，（ii）不能。因为 0.4 位于置信区间内。（iii）能。因为 1 在置信区间以外。 8．在习题 3.4 中，我们估计了方程sleep
.148totwrk
2.20age＾112.28
0.1135.88 1.45其中的标准误是我们现在才同估计值一并给出的。（i）相对于一个双侧对立假设，是 educ 还是 age 在 5%的水平上是个别显著的给出你的计算。（ii）从方程中去掉 educ 和 age ，则得到sleep
.151totwrk＾38.91
0.103在 5%的显著性水平上， educ 和 age 在原方程中是联合显著的吗说明你所给答案的理由。（iii）在模型中包括 educ 和 age ，是否显著影响所估计的睡眠和工作之间的替换关系（iv）假设睡眠方程含有异方差性。这对第（i）和（ii）部分计算的检验意味着什么答：（i）自由度为： 706
704 ；在双侧检验中，5%的显著性水平上，标准临界值为 1.96， educ 的 t 统计量为： 11.13/ 5.88
1.89 ，因此无法拒绝虚拟假设 educ
0 。同样， age 的 t 统计量为 1.52，小于临界值，因此是统计不显著的。（ii）采用 r 2 型的 f 统计量， f 统计量为：f 0.113
0.113 2在 5%的显著水平上，临界值为 3，小于 f 统计量，因此 educ 和 age 在原方程中是联合显著的。实际上， p 值为 0.019，因此变量在 2%的显著性水平上联合显著。（iii）不影响所估计的睡眠和工作之间的替换关系。因为变量是联合显著的，包含 educ 和 age 只使得 totwrk 的系数由-0.151 变为-0.148。（iv） t 检验和 f 检验成立的假设之一是同方差性。如果方程存在异方差性，那么第（i）和（ii）部分的检验将不再有效。 9．租金率是否受到一个大学城里学生人数的影响呢令 rent 表示美国一个大学城里单位租借面积的平均月租金， pop 表示总城市人口， avginc 表示城市平均收入， pctstu 表示学生人数占总人口的百分比。一个检验某种关系的模型是log
u（i）表述虚拟假设：在其他条件不变的情况下，学生人数相对于总人口的多少对月租金没有影响。并表述有影响的对立假设。（ii）你预期 1 和
2 具有什么样的符号（iii）利用 rental.raw 中 64 个大学城在 1990 年的数据所估计的方程为log
0.0056 pctstu＾ 0.844
0.4582 0.081 0.0017 “总人口增加 10%将伴随着租金提高约 6.60%”的说法有什么不妥（iv）在 1%的显著性水平上检验第（i）部分陈述的假设。答：（i）虚拟假设为： h0：3
0 ；对立假设： h1：3
0 。（ii）其他条件相同的情况下，总人口增加使租房需求增加，从而租金增加。当平均收入更高时，对整体住房的需求增加，推高了房地产的成本，包含租金率。因此 1 和
2 都是正的。（iii） log
的系数表示的是弹性，正确的说法应该是：总人口增加 10%，租金将提高 0.66%。（iv）自由度为 60，1%的显著性水平下，双侧检验的临界值为 2.66。 t 统计量是 3.29，大于临界值，因此拒绝虚拟假设，
3 统计显著地不等于 0。 10．在经典线性模型假定 mlr.1～mlr.6 下，考虑含有三个自变量的多元回归模型： y
u 你想检验的虚拟假设是 h0：1
的 ols 估计量。用
的方差及其协方差求出 var
的标（i）令
1 1 1 2 2 2 1 2 2 1准误是什么（ii）写出检验 h0：1
1 的 t 统计量。
，写出一个涉及
的回归方程，使你能直接得到
及其（iii）定义 1
1 1 2 1 1 3 0 2标准误。
答：（i） var
1 2 1 2 1 2
。标准误为： se
1 2 1 2 1 2
2 （ii） t 统计量为： t =
，代入模型中可得：（iii）
u 即为 x 的系数。此即为涉及
3 的回归方程，
1 111．变量 rdintens 是研发支出（r&d）占销售额的百分比。销售额以百万美元度量。变量 profmarg 是利润占销售额的百分比。利用 rdchem.raw 中 32 家化工企业的数据，估计如下方程：rdintens
0.050 profmarg＾1.369
0.0992 0.046 （i）解释 log
的系数。特别地，如果 sales 增加 10%，估计 rdintens 会变化多少个百分点这在经济上是一个很大的影响吗（ii）检验假设 r&d 的强度不随 sales 而变化，对立假设是，它随着销售额的增加而提高。在 5%和 10%的显著性水平上进行这个检验。（iii）解释 profmarg 的系数，它在经济上显著吗（iv） profmarg 对 rdintens 是否有统计显著的影响答：（ i ）保持 profmarg不变，
0.00321 %sales
。因此，如果 %sales
10 ， rdintens
0.032 。估计 rdintens 会变化 3 个百分点，相对于 sales 的变动，并不是一个很大的影响。＾＾t 统计量为：（ii）虚拟假设：对立假设为： h0：1
0 ， h1：1
0 。 1 是 log
的系数。 0.321/ 0.216
1.468 。进行单侧检验，在 5%的显著性水平上，自由度为 29，临界值为 1.699，因此在该显著性水平上不能拒绝虚拟假设。但是在 10%的显著性水平上，临界值为 1.311，小于 t 统计量，拒绝虚拟假设，即 r&d 的强度随着销售额的增加而提高。（iii） profmarg 的系数在经济上显著。根据先验经验，当利润越高，无论是出于避税目的还是提升企业自主创新能力的需要，研发支出都会越高，因此 profmarg 的系数是正的，符合一般规律。（iv） profmarg 对 rdintens 的影响统计不显著。因为其 t 统计量等于 1.087，小于在 10%的显著性水平上单侧检验的临界值。二、计算机习题 1．如下模型可用来研究竞选支出如何影响选举结果：votea
3 prtystra
u其中， votea 表示候选人 a 得到的选票百分数， expenda 和 expendb 分别表示候选人 a 和 b 的竞选支出，而。 prtystra 则是对 a 所在党派实力的一种度量（a 所在党派在最近一次总统选举中获得的选票百分比）（i）如何解释 1
（ii）用参数表述如下虚拟假设：a 的竞选支出提高 1%被 b 的竞选支出提高 1%所抵消。（iii）利用 vote1.raw 中的数据来估计上述模型，并以通常的方式报告结论。 a 的竞选支出会影响结果吗 b 的支出呢你能用这些结论来检验第（ii）部分中的假设吗（iv）估计一个模型，使之能直接给出检验第（ii）部分中假设所需用的 t 统计量。你有什么结论（使用双侧对立假设。）答：（i）保持其他因素固定不变，则有votea
%expenda因此当 expenda 增加 1%， votea 变动
个百分点。（ii）虚拟假设为： h 0：2
1 ，这意味着 a 的竞选支出提高 z% ，同时 b 的竞选支出提高 z% ，从而 votea 不变。因此虚拟假设可写为： h 0：2
0 。（iii）估计方程为：votea
0.152 prtystra＾ 3.93
0.7932 0.379
的系数是非常显著的，因为其 t 统计量为 15.92， log
的系数也是显著的。估计方程表明在其他条件不变的情况下，候选人 a 支出增加 10%，候选人 a 得到的选票百分数将增加 0.61%。在其他条件不变的情况下，候选人 b 支出增加 10%，候选人 a 得到的选票百分数将减少 0.66%。这些效应是不能被忽略的。
，但在假设检假设 log
expenda 的系数与 log
的系数大小相等，符号相反，那么将不存在 se
1 2验中，需要该标准误。因此不能用这些结论来检验第（ii）部分中的假设。（iv）令 1
2 ，代入原方程可得：votea
3 prtystra
0.533 。第（ii）部分的 t 统计量为： 0.532 / 0.533
1 。因此不能拒绝
0.532 和 se
估计该方程可得：
1 1 虚拟假设。 2．本题要利用 lawsch85.raw 中的数据。（i）使用与第 3 章习题 4 一样的模型，表述并检验虚拟假设：在其他条件不变的情况下，法学院排名对起薪中位数没有影响。（ii）新生年级的学生特征（即 lsat 和 gpa ）对解释 salary 而言是个别或联合显著的吗（iii）检验是否要在方程中引入入学年级的规模（ clsize ）和教职工的规模（ faculty ）；只进行一个检验。（注意解释 clsize 和 faculty 的缺失数据。）（iv）还有哪些因素可能影响到法学院排名，但又没有包括在薪水回归中答：（i）模型为：log
u虚拟假设为： h0：5
0 。估计方程为：log
0.0047 lsat
libvol ＾ 0.53
0.0033rank
0.842rank 的 t 统计值为-11，非常显著。如果 rank 减少 10，起薪中位数预期增加 3.3%。（ii）lsat 是统计不显著的，因为 t
1.18 ，但是 gpa 是统计显著的，t
2.76 。给定 gpa 高度显著的情况下， f 统计量等于 9.95， p 值约为 0.0001，因此联合显著性的检验是无实际意义的。（iii）在模型中引入入学年级的规模和教职工的规模时，将会丢失数据。联合显著性检验的 f 统计量为 0.95， p 值为 0.39。除非使用较大的显著性水平，否则两个变量之间不是联合显著的。（iv）排名本身带有一定程度的不可测性，而且排名可能部分依赖于一些不影响学生质量的琐碎因素。lsat 和 gpa 是学生质量的好的控制因素。性别和种族的差异也是影响薪水的因素。然而，并不确定这些因素与排名相关的原因。由出版物的发行记录来衡量的教职工的质量应该被囊括在内。 3．参考第 3 章习题 14。现在，我们使用住房价格的对数作为因变量：log
u（i）你想在住房增加一个 150 平方英尺的卧室的情况下，估计并得到 price 变化百分比的一个置信区间。以小数形式表示就是 1
2 。使用 hprice1.raw 中的数据去估计 1 。（ii）用 1 和 1 表达
2 ，并代入 log
的方程。（iii）利用第（ii）部分中的结果得到
1 的标准误，并使用这个标准误构造一个 95%的置信区间。答：（i）估计模型为：log
0.000379sqrft
0.0289bdrms＾ 0.10 n
0.5882 2 0.000043 0.0296
0..8 ，表明在住房增加一个 150 平方英尺的卧室的情况下，预期价格将上因此
1涨 8.6%。（ii）因为 2
1501 ，则有log
0.0858 ，（iii）对（ii）中的模型进行回归，可得 se
则 95%的置信区间为
。 1 1 4．在例 4.9 中，可以使用样本中所有 1388 个观测数据去估计约束模型。使用所有观测值计算 bwght 对 cigs ，parity 和 faminc 回归的 r 2 ，并与例 4.9 中约束模型所报告的 r 2 相比较。答：使用样本中所有 1388 个观测数据，可得 r2
0.0348 。当错误的使用了从无约束模型中的 1191 个观测数据得出的 r2 (0.0348) 时，可以得到 f 统计量：f
2.4p 值为 0.091，在 10%的显著性水平上，是显著的，不拒绝虚拟假设。但是这不是正确的结果，正确的 f 值是例 4.9 中使用的 1.42， p 值为 0.242，此时拒绝虚拟假设。5．本题要用到 mlb1.raw 中的数据。（i）使用方程（4.31）中所估计的模型，并去掉变量 rbisyr 。 hrunsyr 的统计显著性会怎么样 hrunsyr 的系数大小又会怎么样（ii）在第（i）部分的模型中增加变量 runsyr （每年垒得分）， fldperc （防备率）和 sbasesyr （每年盗垒数）。这些因素中，哪一个是个别显著的（iii）在第（ii）部分的模型中，检验 bavg ， fldperc 和 sbasesyr 的联合显著性。答：（i）如果去掉变量 rbisyr ，则估计模型变为：log
0.0677 years
0.0158 gamesyr＾ 0.27
0.625 0.0016
0.0014bavg
0.0359hrunsyr 0.0072 此时 hrunsyr 是统计显著的，因为 t
4.99 ，它的系数也增加了 2.5 倍。（ii）增加变量 runsyr （每年垒得分）， fldperc （防备率）和 sbasesyr （每年盗垒数）后的模型为：log
0.0700 years
0.0079 gamesyr＾ 2.00
0.639 0.0027
0.00053bavg
0.0232hrunsyr 0.0086
0.0174runsyr
0.0010 fldperc
0.0064 sbasesyrrunsyr 是统计显著的， t
0.0174 / 0. ，表明在其他因素固定的情况下，垒得分增加一年，预期薪水将大幅度增长 1.74%。每年盗垒数的 t 值是负的，而防备率的 t 值仅为 0.5。职业棒球大联盟的成员们大多数是优秀的守场员，实际上，最小的每年防备率是 800。防备率相对较小的变异，使得它的影响难以估计。（iii）根据 t 检验， bavg ， fldperc 和 sbasesyr 是个体不显著的。它们的联合显著性检验的 f 统计量为 0.69， p 值为 0.56，因此，变量是联合不显著的。 6．本题要用到 wage2.raw 中的数据。（i）考虑一个标准的工资方程log
u表述虚拟假设：多一年工作经历与在现在的岗位上多工作一年对 log
具有相同影响。（ii）在 5%的显著性水平上，相对于双侧对立假设，通过构造一个 95%的置信区间来检验第（i）部分中的虚拟假设。你得到的结论是什么答：（i）虚拟假设为： h 0：2
3 。（ii）令 2
3 ，估计模型为：log
0.0072 ， 0.0112
。因为 0 位于置信区间 95%的置信区间为： 0.
0.0047 ，内，因此不能拒绝原假设，即在 5%的显著性水平上，不能拒绝 2
3 。 7．参考 4.4 节中所用的例子。你将使用数据集 twoyear.raw。（i）变量 phsrank 表示一个人的高中百分位等级。（数字越大越好。比如 90 意味着，你的排名比所在班级中 90%的同学更高。）求出样本中 phsrank 的最小、最大和平均值。（ii）在方程（4.26）中增加变量 phsrank ，并照常报告 ols 估计值。 phsrank 在统计上显著吗高中排名提高 10 个百分位点，能导致工资增加多少（iii）在方程（4.26）中增加变量 phsrank 显著改变了 2 年制和 4 年制大学教育回报的结论了吗请解释。（iv）数据集包含了一个被称为 id 的变量。你若在方程（4.17）或（4.26）中增加 id，预计它在统计上不会显著，解释为什么双侧检验的 p 值是多少答：（i） phsrank 的最小值为 0，最大值为 99，平均值为 56.16。（ii）在方程中增加变量 phsrank 可得：log
0.0755totcoll
0.0049exper
0.00030 phsrank＾ 0.024
0.223 0.0002
0.00024 phsrank 的 t 统计量为 1.25，小于临界值，是统计不显著的。如果排名提高 10 个百分位点， log
预期将增加 0.003，这意味着薪水将会增长 0.3%。（iii）在方程中增加变量 phsrank 使得 jc 的 t 统计量的绝对值变得更小了，为 1.33，但是其系数等于方程 4.26 中的系数。因此增加变量 phsrank 没有显著改变 2 年制和 4 年制大学教育回报的结论。大专学校的回报被估计得更少了，但该差异在标准显著水平下并不是统计显著的。（iv）变量 id 只是工人的身份证号码，是被随机排列的。因此，在回归方程中， id 与任何其他变量都是不相关的。因此若在方程中增加 id ，它在统计上不会显著。实际上，其 p 值约等于 0.54。 8．数据集 401ksubs.raw 包含了净金融财富（ nettfa ）、被调查者年龄（ age ）、家庭年收入（ inc ）、家庭规模（ fsize ）方面的信息，以及参与美国个人的特定养老金计划方面的信息。财富和收入变量都以千美元为单位记录。对于这里的问题，只使用单身者数据（ fsize
1 ）。（i）数据集中有多少单身者（ii）利用 ols 估计模型nettfa
u并以常用格式报告结果。解释斜率系数。斜率估计值有何惊人之处吗（iii）第（ii）部分的回归截距有重要意义吗请解释。（iv）在 1%的显著性水平上，针对 h1：2
1 检验 h0：2
1 ，求出 p 值。你能拒绝 h 0 吗（v）如果你做一个 nettfa 对 inc 的简单回归， inc 的斜率估计值与第（ii）部分的估计值有很大不同吗为什么答：（i）数据集中有 2017 单身者。（ii）回归模型为：nettfa
0.843age＾ 4.082 0.060
0.119inc 的系数表明收入每增加一美元，净金融财富预计将增加 80 美分。 age 的系数表明，其他要素不变的情况下，年龄增长一岁，则净金融财富增加 843 美元。斜率估计值符合常理。（iii） t 统计量为：
1.71 ，在单侧检验下， p 值约为 0.044，因此在 5%的显著性水平下，可以拒绝虚拟假设。（iv）简单回归中 inc 的斜率估计值是 0.821，与原回顾中的 0.799 不同。事实证明，在单身的样本中， inc 和 age 之间的相关系数仅为 0.039，这解释了简单回归和多重回归结果不同的原因。 9．利用 discrim.raw 中的数据回答本题。（也可参见第 3 章计算机习题 c3.8。）（i）利用 0ls 估计模型log
u 统计显著异于零吗在 1%的显以常用形式报告结果。在 5%的显著性水平上，相对一个双侧对立假设，
1著性水平上呢（ii） log
和 prppov 的相关系数是多少每个变量都是统计显著的吗报告双侧 p 值。（iii）在第（i）部分的回归中增加变量 log
。解释其系数并报告 h 0：log hseval
0 的双侧 p 值。（iv）在第（iii）部分的回归中， log
和 prppov 的个别统计显著性有何变化这些变量联合显著吗（计算一个 p 值。）你如何解释你的答案（v）给定前面的回归结果，在确定一个邮区的种族构成是否影响当地快餐价格时，你会报告哪一个结果才最为可靠答：（i）0ls 估计模型为：log
0.073 prpblck
0.380 prppov 0.29
401 ， r 2
0.087 0.027
0.133 双侧检验的 p 值为 0.018，在 5%的置信水平上拒绝虚拟假设，但在 1%的水平上无法拒绝虚拟假设。（ii） log
和 prppov 的相关系数为-0.84，表明可能存在相当高程度的多重共线性。每一个系数都是统
t t 计显著的，
的统计量为 5.1，而
prppov 的统计量为 2.86，双侧检验的 p 值为 0.004。（iii）增加变量 log
后，ols 回归结果为：log
0.098 prpblck
0.052 prppov
401 ， r 2
0.184 0.038 0.134
的系数表示弹性，意味着房屋价值每增加 1%，在其他变量不变的情况下，预计价格增长 0.12%。双侧检验的 p 值的三位小数点都为 0。（ iv）增加变量 log
hseval 后使得 log
income 和 prppov 的个别统计不显著，即使在置信水平为 15% 时，log
和 prppov 系数的 t 统计量都小于临界值。然而，在联合显著检验中，在 5%的置信水平下，分子自由度为 2，分母自由度为 396， f 统计量为 3.52， p 值等于 0.030，因此所有的控制变量是高度相关的，因此部分变量个体上统计不显著就是符合常理的。（v）因为（iii）中的回归包含的最多的控制变量，log
个体上是统计显著的，log
和 prppov 是联合显著的。（iii）看起来是最可靠的。因此，一个合理的估计是：在其他因素固定的情况下，黑人的比例增加 0.1， psoda 估计增加 1%。 10．利用 elem94_95.raw 中的数据回答本题。所得到的结论可以与表 4.1 中的结论进行对比。因变量 lavgsal 表示教师平均薪水的对数， bs 表示平均福利与平均薪水的比率（以学校为单位）。（i）将 lavgsal 对 bs 进行简单回归。斜率估计值在统计上显著异于 0 吗它在统计上显著地异于-1 吗（ii）在第（i）部分的回归中增加变量 lenrol 和 lstaff 。 bs 的系数有何变化这种情形与表 4.1 中的情形相比如何（iii）第（ii）部分中 bs 系数的标准误为何比第（i）部分中的标准误更小（提示：当增加变量 lenrol 和 lstaff 后，对误差方差和多重共线性会造成什么样的影响）（iv） lstaff 的系数为何为负它的绝对值算大吗（v）在回归中再添加变量 lunch 。保持其他条件不变，教师会因教育那些家庭条件不好的学生而得到补偿吗请解释你的结论。（vi）总之，你利用 elem94_95.raw 得到的结论，与表 4.1 在形式上一致吗答：（i）使用 1848 个观测值，
bs 的样本回归估计值为-0.795。95%的置信区间为-1.088 到-0.502，这包括了 -1。因此在 5%的置信水平上，不能拒绝虚拟假设 h0：bs
1 。它在统计上显著地异于 0，不显著异于-1。（ ii ）在模型中增加变量 lenrol和 lstaff ， bs 的系数变为 -0.605 ，统计显著地异于 1 ， 95% 的置信区间为简单回归估计的系数为-0.825，多重回归的系数为-0.605。
0.818 ， 0.392 。这种情形与表 4.1 中的情形很相似，（iii）简单回归估计的标准误为 0.150，多重回归估计的标准误为 0.109。增加的其他解释变量对标准误的作用方向是相反的。在本题中，bs 和两个增加的变量 lenrol 和 lstaff 由于多重共线性的原因而增加标准误。而同时， lenrol 和 lstaff 包含在回归方程中减小了系数的误差方差从而减小了标准误。事实上，它们属于简单回归的误差项的组成部分。在这个案例中，多重共线性相对于误差方差的减少是温和的，因此标准误从简单回归中的 0.231 下降到多重回归中的 0.168，或者也可以从判定系数的角度去观察误差方差的变动。事先无法比较两种效应中哪种效应起主导作用，但是可以在进行两种回归后对误差方差进行比较。（iv） lstaff 变量表示平均每千名学生的教工数的对数。当教工数增加，平均每名学生的教工数将会增加。将此与更小的班级规模联系起来，对教师}

常信村百科网