机器学习对于经济学应用研究的适用性.docx
《机器学习对于经济学应用研究的适用性.docx》由会员分享,可在线阅读,更多相关《机器学习对于经济学应用研究的适用性.docx(14页珍藏版)》请在三一文库上搜索。
1、机器学习对于经济学应用研究的适用性 摘要:机器学习以数据、文本、图片等现实经验信息为研究对象,通过计算机与人工智能相结合的算法进行深度挖掘,对经验现实进行建模与预测。因其对高维、复杂、大样本数据的模型选择和预测优势,应用于经济学研究,尤其是微观经济学、能源经济和金融市场领域。机器学习在数据发现与变量创造、预测、因果推断、政策评估、理论检验等领域有较好的应用,但其在经济学应用研究中的作用与局限是值得注意的问题。关键词:机器学习; 经济研究; 方法论; 作用与局限;Abstract:As a field concerning data-driven algorithm,Machine Learni
2、ng takes real experience information such as data,text,and pictures as research objects,and performs deep mining through algorithms combining computers and artificial intelligence to model and predict empirical reality. Due to its model selection and prediction advantages for high-dimensional,comple
3、x and large sample data,it is generating new opportunities for innovative research in economics,especially in the fields of microeconomics,energy economy and financial markets. Machine learning has a good application in the fields of data discovery and variable creation,prediction,causal inference,p
4、olicy evaluation, and theoretical testing,but its role and limitations in applied economics research are also noteworthy.Keyword:machine learning; economic research; economics methodology; capabilities and limitations;随着人工智能的兴起,机器学习(Machine Learning)最初作为人工智能的一个分支,在各个领域迅速崛起,其对巨量、复杂信息的处理、预测能力和基于数据科学的各
5、种算法体系,使其成为数字经济时代的创新驱动力之一。互联网及大数据模式下的经济活动促使了更多高维、复杂经验数据的产生,机器学习在科学研究领域的应用为新范式下的经济研究提供了新型的研究方法,进而促使经济学研究由当前的线性、低维、有限样本、抽象模型向非线性、高维、大样本、复杂模型的转向。经济学实证研究及计量经济学模型理论研究中对机器学习的应用及相关文献的出现,是这次转向的主要标志。2016年美国经济学年会上,苏珊·艾西(Susan Athey)1首次提出机器学习方法对经济研究的影响,进一步引发了学界对机器学习的广泛关注。应用机器学习进行实证研究的英文文献主要出现于微观经济学、能源经济学
6、和金融市场领域,随着近两年机器学习算法的不断开发,机器学习也开始尝试应用于宏观领域的失业、通货膨胀等问题。但应用机器学习进行经济学实证研究的中文文献还非常少,仍处于初始起步阶段。机器学习范式作为一种新兴数据驱动的模型体系,引起经济学界广泛关注。机器学习模型体系与传统的数理统计及计量经济学模型方法有何不同,其适用领域及在具体应用实践中的作用如何?本文致力于对以上问题作出回答,并尝试从更宏观的方法论层面来理解机器学习范式的本质及其在经济研究中的作用与局限。一、机器学习的内涵界定机器学习的内涵较为广泛,目前对机器学习的内涵有多种界定,包括广义的和狭义的两方面。广义的机器学习认为,机器学习是计算机科学
7、的一些分支领域的集合,也是机器一系列在计算机科学、工程学、统计学尤其是社会科学中发展和使用。由于机器学习算法广泛应用于不同学科,不同领域或学科对机器学习的界定也不同。2狭义的机器学习则来自各个学科对机器学习的分别界定。如计算机科学认为,机器学习是数据科学的核心,是现代人工智能的本质,机器学习简单来说就是涵盖了统计推断的人工智能。工业和工程学等领域认为,机器学习是对能基于现有经验自动改进计算机算法的研究1(P1-2),这种算法对人工智能的发展具有关键的促进作用。统计学认为,机器学习是从数据中挖掘出有价值的信息,是更高层次、更智能化的数据挖掘方法。统计学对机器学习三个层次的划分是基于计算机视觉理论
8、创始人马尔(Marr)关于计算机视觉的三级论定义的,他并将机器学习分为初级、中级和高级三个层次。2(P19-45)初级机器学习是获取数据和提取数据特征;中级机器学习是数据处理与分析,包括应用问题导向的模型和方法的应用,也就是数据挖掘,但机器学习的数据挖掘更强调问题导向,重在提出和发展模型、方法及算法,并探讨其背后的数学原理或理论基础;高级机器学习是通过统计推断而达到某种智能与认知。统计学认为,机器学习和数据挖掘具有相同的本质,只是数据挖掘更偏向于数据端,而机器学习则偏向于智能端。计量经济学认为,机器学习是一种应用计量经济学研究方法3,是传统计量经济学研究方法在数据处理与预测领域的一种进步,是大
9、数据背景下计量经济学回归分析及预测方法的发展,机器学习基于计算机的算法,其本质是对计量经济学工具箱的一种丰富。经济学认为,机器学习是一个领域,旨在开发应用于数据集的算法,这些算法主要集中于回归(预测)、分类和聚类任务,分为有监督机器学习和无监督机器学习两类:有监督的机器学习是在样本数据或向量预先设定好标签;(一系列的预先假定,如分类的标准)的前提下,总结出样本向量的映射关系,如正则化回归和分类;无监督的机器学习是在没有对样本数据或向量设定任何标签;的情况下,从数据中识别出其内部蕴含关系的一种挖掘;工作3,聚类是典型的无监督机器学习。从机器学习的算法出现及其学科应用来看,机器学习具有计算机与人工
10、智能的学科背景,涵盖部分统计学学科内容,研究方法具有高度兼容性,可应用于各个领域、学科门类,对机器学习泛泛的广义界定或基于某个领域、学科门类的狭义界定,都是不恰当的。因此,基于对机器学习的研究对象、学科主旨、学科特点和方法论基础,我们对机器学习的内涵作出如下界定:机器学习是旨在通过数据、文本、图片等现实经验信息,通过计算机算法来进行深度挖掘,进而对经验现实进行建模及预测的一门科学。机器学习强大的数据、文本、图片处理功能,基于计算机和人工智能的深度挖掘功能和基于数据、文本、图像等高度复杂经验信息的模型选择及预测功能,使其广泛应用于现实世界的各个领域,并与各个领域现有研究方法相结合,演化并生成了适
11、合各个领域独特研究的系列机器学习算法,并伴随着各领域的发展而不断进化生成新的算法体系,这使得机器学习成为一门以多学科交叉共融为其首要特点的经验科学。从机器学习本身的学科特征看,机器学习以现实的经验信息为研究对象,以计算机和人工智能相结合的算法为研究方法,以数据科学、人工智能为算法逻辑基础,以对现实复杂的经验信息进行系统化表达与准确预测为学科宗旨,以多领域的交叉共融的高度兼容性和进步性为学科特点。从机器学习学科的方法论基础看,机器学习以逻辑实证主义为其方法论基础,以数据导向的研究模式为其研究范式,以模型与经验信息的一致为其模型体系的特征。二、机器学习对于经济学应用研究的适用性(一)经济研究领域的
12、机器学习机器学习的研究方法主要包括有监督机器学习和无监督机器学习两类。经济学研究领域,有监督机器学习通常需要使用一组特征或变量(X)来预测结果(Y),具体操作就是将数据集分为训练集和测试集,训练集用来发现映射关系,测试集则用来检验训练集中总结出的映射关系。训练集中的观测变量是设定了标签;(假定)的,通过构造X的估计值μx(μx=EY|X=x)的一个估计量,在独立数据集中估计Y的真实值,这里假定观测是独立的、训练集与测试集中的X与Y具有相同的联合分布。有监督的机器学习方法主要包括回归和分类,两者主要特点是,回归算法中的标签;一般是连续的值,而分类算法中的标签一般是离散的值。回归,如预
13、测房屋价值或油价,一般要根据房屋地理位置、房屋条件等标签或市场行情、油价历史波动等标签,这里的房屋价值或油价是连续的数值。分类,如垃圾邮件筛选,标签为(1,-1),分别表示垃圾邮件和非垃圾邮件,是非连续的。这里的回归指正则化回归,如套索估计(LASSO)、岭回归和弹性网,分类包括随机森林、回归树、支持向量机(SVM)、神经网络、矩阵分解等4,有监督机器学习还包括模型平均方法等。这里,套索估计、岭回归等作为高维回归方法,已经开始在经济研究中受到较大关注。无监督机器学习主要涉及寻找具有相似变量的观测聚类,也可解释为降维;,常用于视频、图像或文本样本。典型的无监督机器学习模型是对系列观测的一种分区,
14、分区没有标签;的监督,只有某些聚类特征,如每个子区间中的元素在某种度量方式上具有相似特征,概率向量或权重向量也可作为聚类特征,根据概率向量和权重向量进行分区。4无监督机器学习将所有经验信息输入系统化为样本信息,以数据驱动的方式,在巨大的信息中识别并挖掘出有用信息,进而创造出可用于经济分析的解释变量或被解释变量。经济学研究中常用的无监督机器学习包括K-平均算法、主题建模、社区发现等。(二)机器学习与统计学、计量经济学经济学领域中,机器学习的应用常会与统计学、计量经济学相混淆,因而,首先将机器学习与统计学、计量经济学相对照,有利于我们更好地了解机器学习及其在经济学研究中的独特适用性。作为多学科的交
15、叉与融合,机器学习与统计学在很多研究内容上都有重合。拉瑞·瓦瑟曼(Larry Wasserman)认为:这两门学科(机器学习和数理统计)关心的是同一件事,即我们能从数据中学到什么;,并指出统计学中的评估、分类器、数据点、回归与分类、协变量、响应理念可分别对应于机器学习中的学习、假设、用例、有监督学习、特征、标记理念,认为两个学科的这些词汇在含义上是等同的。5机器学习和统计学都致力于从数据中获取信息或规律,但是,这两门学科的研究方法却具有本质的区别。首先,机器学习源于计算机科学与人工智能,它更多地关心如何构建一个系统去分析数据,也更注重模型的预测效果;源于数学的统计学是以数据为基础
16、利用数学方程式来探究变量变化规律,更注重模型的可解释性。其次,机器学习并不必须对有关变量之间的潜在关系提出先验假设,只需通过算法识别数据中潜在规律,并应用规律于新数据进行预测;统计学则必须了解数据的生成过程、分布规律、估计量的统计特征和期望参数的类型。最后,机器学习对复杂数据处理的能力,使其可适用于高维数据和复杂的高维模型,统计建模通常适用于相对低维的数据和低维模型。与计量经济学相比,机器学习旨在产生准确可行的预测,而计量经济学旨在建立可靠的因果关系。计量经济学的主要目的是揭示变量间的因果关系,如μx或Pr(Y=k|X=x)估计量的结构或表达,重点探讨其他条件不变的前提下,变量X变化对
17、Y的影响。相比之下,机器学习旨在对经验数据(数据)或经验事实(文本、图像)做出准确的模型选择和预测,重点不是估计量的结构,而是最小化预测结果与真实结果之间的偏差,实现更为精确的拟合与预测。虽然机器学习与统计学、计量经济学侧重点不同,但这并不妨碍机器学习与其他两个框架的协同,这种协同与互补使机器学习在经济学的应用研究中独具适用性。首先,发现数据方面,机器学习可以发现数据,进而用于创造计量模型估计中的被解释变量(Y)。如Athey等在研究西班牙谷歌新闻的关闭对消费者阅读新闻类型的影响时,将被阅读的不同类别新闻份额设定为被解释变量,应用无监督学习对新闻进行分类,使用网络理论中的社区检测技术进行分析。
18、6其次,模型设定与选择方面,机器学习适用于复杂、高维的大数据分析,与计量经济学相结合,可以构建高维的复杂计量模型,机器学习的模型选择方法也可用于规避不当的计量模型设定。最后,模型估计方面,计量经济学模型应用机器学习技术可以估计更逼近经验现实的复杂模型。如可以使用机器学习方法,对超多种商品进行分析,研究消费者对商品组合的偏好,进而探讨几万种组合可能性。(三)机器学习的优势与实现机器学习最突出的优势在于对大样本、高维度数据的处理与预测,其灵活的功能形式能够适应不同的数据结构,更好地预测样本。有监督的机器学习算法致力于获取对Y的更好预测,如基于N个样本的观测特征X来预测Y,机器学习会设定损失函数L(
19、y,y),并在数据中找到具有较低期望预期(E(y,x)L(y,y)的损失函数f,用于样本的预测。如一个住房调查的应用研究显示,套索、回归树、随机森林、机器学习集成法等机器学习方法样本内与样本外的预测都更优于普通最小二乘法,在中等规模样本和有限变量的情况下机器学习的预测仍保有优势。7此外,机器学习的模型检验范式主要采用交叉验证法,K折交叉验证法的应用最为广泛。交叉验证的基本思路是在数据量不足的情况下,通过切分给定数据集,将数据集重新组合为训练集与测试集,重复使用数据进行训练、测试和模型选择。交叉验证即使在小样本下都显示出良好的性能,对于大样本,有效性就更为凸显。三、机器学习在经济学中的应用(一)
20、数据发现与变量创造随着网络与人工智能的发展,经济学研究尤其是微观经济学研究日趋大数据化,机器学习可以处理高维非常规数据、图像和文本信息,进而发现新数据、创造新变量。如机器学习对卫星图像的处理就提供了有意义的经济数据,不仅可以科学探讨夜间灯光度与经济产出之间的关系8,还可以根据卫星图像来预估未来农产品产出规模9,引出了一系列关于卫星数据的经济增长研究。在缺乏相对可靠的经济产出数据的情况下,新数据显得尤为重要,尤其是对发展中国家贫困问题的研究,机器学习提供了大量的可追踪数据。10机器学习还可以通过识别文本信息来提供新数据来源。如通过识别网上消费者对产品或服务的在线文本评价来获得相关消费者消费偏好的
21、数据信息,也可通过在线评价数据来对餐厅的受欢迎程度、卫生达标程度等进行预测。11机器学习还可以用来创造新变量,如研究西班牙谷歌新闻的关闭对消费者阅读新闻类型的影响,这里被阅读的不同类别新闻占比是被解释变量。6使用无监督机器学习创建变量还有一个优点,就是不需要解释变量,如样本分割法的模型设定与调整,与传统的计量经济学基于解释变量来调整模型设定不同,样本分割的模型调整是基于一个样本的,进而会减少解释变量与被解释变量之间伪回归;问题的产生。(二)预测机器学习的宗旨是获得准确的预测。与统计学不同,机器学习不需对函数形式、变量间的相互作用和参数的统计分布来做先验假定,机器学习更注重的是对结构化和非结构化
22、数据做出准确预测。这使得机器学习算法更适用于能源价格的预测。因为能源商品价格具有非线性、滞后依赖、非平稳性和波动性聚类等复杂特性,这使得简单的传统模型预测具有挑战性,机器学习方法在处理复杂的内部动态时具有更高的灵活性,因而具有更卓越的预测性能。支持向量机(SVM),人工神经网络(ANN)和遗传算法(GA)是能源经济学研究中最常用的方法,用于预测能源商品价格、预测或模拟能源消费及需求。为了提高预测的准确性,多种机器学习算法被组合使用,如基于经验模式分解(EMD)的神经网络集成学习(NNEL)方法。机器学习与传统计量经济学方法的结合成为经济学应用机器学习进行预测的一个趋势,如动态非线性自回归模型(
23、NARX),集合经验模式分解模型(EEMD),由最小二乘支持向量机模型(Least Square SVM)和粒子群优化模型(PSO)结合产生的LSSVM-PSO模型,广义自回归条件异方差模型(GARCH)等,都是机器学习与计量经济学模型的结合使用。此外,传统的计量经济学时间序列向量自回归(VAR)模型也与随机森林相结合使用,可以克服原来VAR模型中的弱点,提高预测能力。此外,几种机器学习方法混合起来使用也是一种新趋势。混合使用会显着提高预测的准确性,也具有更高的通用性和实用性。如萤火虫算法(FA)与最小二乘SVR(LSSVR)混合使用形成的FA-LSSVR算法,统计上证实FA-LSSVR模型比
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 机器 学习 对于 经济学 应用 研究 适用性
