大数据分析论文范本十二篇

时间:2022-03-12 23:12:35

大数据分析论文

大数据分析论文(篇1)

DOI:10.3969/j.issn.1008-0821.2013.10.039

〔中图分类号〕G250.2〔文献标识码〕A〔文章编号〕1008-0821(2013)10-0166-06

我国情报分析研究起步于20世纪50年代,在80年代后大量吸收国外的新观念,新技术,新方法而迅速发展起来[1]。时至今日,情报分析、情报理论与管理、情报检索与技术并称为情报学研究的三大领域[2]。情报分析是情报学区别于其他学科的核心竞争力所在[3]。迄今为止,我国有关情报分析的研究论文数量颇丰,然而有关情报分析的综述却寥寥无几,且已有综述年份跨度小,样本数据有限,不利于从宏观上把握情报分析领域的总体研究进展。因此,在情报分析研究日趋成熟的今天,有必要对以往的研究情况进行全面的回顾与总结。基于此,本文全面搜集过去35年(1978-2012)间情报分析领域的研究论文并进行计量统计分析,旨在总结该领域的研究现状,分析其进展和不足,并对情报分析的研究趋势进行预测,以期对未来情报分析的研究提供一定的参考与借鉴。

本次样本文献主要检自国内两个权威的大型期刊数据库:《中文科技期刊全文数据库》(1989-2012)和《中国期刊全文数据库》(1978-2012),由于,在我国情报分析又称信息分析[4],因此分别以“情报分析”和“信息分析”作为检索词,以题名为检索入口对两个数据库中的中文期刊论文进行搜集,在《中文科技期刊全文数据库》中共检索到1 383篇相关文献,在《中国期刊全文数据库》中共检索到1 654篇相关文献,通过对两个数据库中的论文汇总后进行剔重,最后得到有关情报分析的研究论文共1 797篇,这些论文构成了核心样本,为其后统计提供直接的数据佐证。

1我国情报分析研究论文的统计分析

1.1数量及发表时间分布

研究论文是一个领域科研成果的集中体现,论文数量在时间上的分布情况一定程度上可以反映该领域学术研究的进展状况以及发展速度。1978-2012年有关情报分析的论文,按时间分布如表1所示。

表1可见,20世纪80年代左右,我国情报分析研究的论文数量呈缓慢增长态势,此时研究领域比较单一,多集中在科技领域。90年代开始,有关情报分析的研究逐渐多了起来。具体的时间分布趋势如图1所示。

大数据分析论文(篇2)

1 机构内科研竞争力分析的意义

随着我国科研的发展,科研资源的配置越来越受到关注,各种科研竞争力评估也应运而生。众多评估案例从不同角度、采取不同的指标来评价机构间的科研实力,也产生了很多版本的高校排名。目前常见评估案例的内容以机构间的对比评价为主,主要为部级别的资源配置提供信息。但对于单个的科研机构而言,其管理部门还经常需要在机构内部的各子机构之间配置资源,因而迫切需要全面了解院系等子机构的科研发展情况,识别出较有潜力的领域和科研团队。在这种情况下,针对某一机构及其子机构的科研竞争力分析报告,将有助于管理部门准确把握各机构目前在国内外所处的位置,科学判断机构所面临的竞争态势,合理分配科研资源。

2011年北京大学发展规划部为编写“十二五”规划,委托北京大学图书馆对本校的科研实力进行评估。为此,图书馆信息咨询部逐步探索了兼顾机构内外,全面反映机构本身及其子机构的科研现状及发展趋势的评估方法,对北京大学学术论文方面的科研竞争力进行了量化评估,最终完成《北京大学科研实力分析报告》。报告通过客观的数据分析,帮助北京大学的科研管理人员更为准确地了解目前的竞争优势与劣势,并为科研决策提供可靠的信息支撑。

2 机构内科研竞争力的评价思路

2.1 评价角度

科研的评价角度非常多,如:学术论文产出情况、著作产出情况、获奖情况、科研项目情况、科技会议参与情况、经费的获取与投入产出比情况等。无论从何种角度出发,都要在同行评议的同时,提供一个基于客观数据的量化评估体系作为基准和参考,才能实现公平客观、科学合理的科研评估。文献计量学分析将提供有关学术活动的一般特征信息,还是一个保持同行评议过程诚信的工具。因此,本文从文献计量的角度,探讨如何依据事实数据,客观评估机构、尤其是其子机构(院系)在学术论文方面的科研竞争实力。

本次评估从机构科研决策的需要出发,主旨在于帮助管理者发现机构的优势、劣势和突破口,因此既需要评估机构的整体科研实力和影响力,也会涉及各院系及个人的科研情况。此外,由于国内外不同机构的院系设置差异较大,难以实现真正院系级别的比较,只能通过学科评估作为院系评估的参考。因此,本文的科研竞争力评估主要包含三个层次:其一,北大整体科研实力以及与国内外知名高校的横向比较;其二,北大各学科的发展情况及其在国内外的地位;其三,北大各院系及研究人员的科研实力。

2.2 评价标准

在机构整体科研竞争力方面,主要分析机构论文被web of Science(WOS)等著名数据库收录和引用的情况,并将其与国内外知名高校进行对比,客观衡量当前的科研实力水平;考察特定时间段内机构论文的收录及被引数量变化,分析机构科研竞争力的发展趋势。考虑到科研人员在领域内著名期刊或影响因子较高的期刊上发表成果通常被视为科研绩效的一种指标,本次评估增加了机构通讯作者、JCR核心期刊、《Nature》、《Science》等的发文量统计;另外,鉴于人文社科领域国内发表的作品较多,将CNKI、CSSCI等中文数据库的收录引用情况作为参考。

在学科科研竞争力方面,主要分析不同学科的活跃程度;分析在全球有一定影响力的学科的及被引情况,并与国内外相关机构进行比较;此外,鉴于人文社科领域的特殊性,将此领域内各学科的论文收录情况与国内人文社科重点院校进行比较。

在院系的科研竞争力方面,主要考察各院系论文的收录及被引情况,并分析特定时间段内院系论文被收录及被引用的数量发展趋势;进行JCR核心期刊、《Nature》、《Science》、ESI的论文统计,识别出院系科研影响力较高的论文及其作者;此外,对多院系合作的论文进行单独分析,考察多院系合作论文的影响力和优秀率,以及学科交融情况。

2.3 数据来源

本文的评估数据主要以WOS数据库的SCI、SSCI、A&HCI数据为主,并参考基本科学指标数据库(Essential Science Indicators,ESI)、期刊引证报告(Journal Citation Reports,JCR)、《Nature》、《Sci-ence》的部分数据。人文社科领域以中国社会科学引文数据库(CSSCI),中国期刊网(CNKI)作为补充。

数据由北京大学图书馆信息咨询部成员按照作者署名、地址等从上述数据库中提取。由于短期的数据难以全面反映机构的科研实力和变化情况,因此本次评估提取了北京大学从2000年到2010年的科研产出数据,包括SCI中的2.5万余篇,CSSCI中的1.9万余篇,CNKI中的2.3万余篇,ESI中的近300篇文章。

由于数据库中作者、地址等字段的数据信息经常会出现不够规范和准确的情况,因此本次评估对提取出的数据库信息进行了人工清理,保证数据具有一定的准确性后再进行下一步的科研竞争力分析。

3 机构科研竞争力评价方法

3.1 整体科研竞争力评价方法

北京大学的整体科研竞争力主要从WOS总收录论文数、总被引次数、篇均被引次数进行分析,评价了2000~2010年北京大学被SCI、SSCI、A 8LHCI数据库收录的论文数量、总被引用次数、平均每篇论文被引次数。为降低国外合作对评估机构真实科研竞争力的影响,进一步分析了北京大学科研人员作为通讯作者的论文占总论文数的比重。同时,将北京大学被SCI、SSCI、A&LHCI数据库收录的论文数量和篇均被引次数与哈佛大学、牛津大学、香港大学、清华大学等国内外知名高校进行对比,衡量北京大学整体科研竞争力在国内外的地位。

考虑到不同学科在期刊论文的发表和引用方面有着很大的差异,我们采取分学科的方式选取优秀期刊,具体做法为:以JCR的特征因子指标为主要参考依据,按照2010年JCR自然科学版和JCR人文社科版的学科分类,选取各学科下特征因子排序前10名的期刊作为优秀期刊。自然科学版分为173个学科,选出1376种优秀期刊;JCR人文社科版分为55个学科,选出462种优秀期刊;两部分去重后共有1759种期刊。最后统计出北京大学在2000-2010年被SCI、SSCI、A~HCI收录的全部论文中发表在JCR优秀期刊上的比例。此外,还统计了北京大学在2000—2010年间每年在《Nature》和《Science》上的数量。

此外,在人文社科领域,我们统计了北大发表的中文论文被CSSCI、中国期刊网人文社科领域核心期刊的收录情况,并与人民大学、复旦大学等国内人文社科重点院校进行对比。

3.2 各学科科研竞争力评价方法

北京大学各学科科研竞争力评价包括根据WOS的SCI、SSCI、A&HCI数据,分析2000-2010年机构发文量最活跃的排名前10位的学科,分别统计理工科和人文社科发文量排名前10的学科。鉴于不同学科之间论文的情况存在显著差异,机构、学科、院系、个人等各个层次的评估都尽量避免不同学科间的比较,主要与国内外同学科的机构、子机构或国际平均水平进行对比。

根据ESI数据分析北大进入全球1%的学科中,WOS收录的论文篇数和篇均被引次数,从每个学科选取ESI中排名前5位的各国高校进行比较,同时选取清华大学、中国科技大学等若干综合实力较强的国内高校与北大进行对比。

鉴于人文社会科学的特殊性,“Social Sciences,General”学科选取人文社科重点院校中国人民大学、复旦大学等进行对比,并将上述人文社科重点院校被CSSCI收录的各学科论文数量与北大进行对比。

3.3 院系的科研竞争力评价方法

北京大学内各院系由于学科的不同,总收录论文数量、总被引次数以及篇均被引次数存在较大差异。评估将2000~2010年各院系发表的论文被SCI、SSCI、A&HCI收录及被引用次数分别按照理工类、交叉学科类、人文社科类进行归类,并分析变化趋势。由于论文数量较少的院系的被引用次数受单篇论文影响较显著,因此只挑选收录和被引较高的前10个院系进行分析。

分析北京大学各院系2001-2010年SCI、SS-CI、A&HCI收录的论文中,在JCR优秀期刊上按发文量排名前20的院系,并计算这些院系在JCR优秀期刊上的发文比例。根据ESI的数据,统计2000—2011年各院系在本领域进入全球前1%行列的论文数量及通讯作者为机构人员的论文数量。此外,将2000-2011年各院系在《Science》和《Nature》上发表的论文数量作为补充指标。

3.4 识别突出科研人员和科研合作情况

分析北京大学各院系2000-2010年在《Sci-ence》和《Nature》上的作者,并根据ESI的数据,统计出各院系进入全球前1%高引论文的作者,尤其是ESI中被引次数高、且通讯作者为北京大学科研人员的优秀论文。通过高被引文章和权威期刊文章识别各院系中成果突出的科研人员。

为了解院系间的合作对科研产出数量与质量的影响以及学科间交融的情况,本次评估同时也分析了北京大学2001-2010年被SCI、SSCI、A&HCI收录的论文中,由不同院系合作完成的论文数量和变化趋势,以及论文的质量和影响力情况,并分析了合作在JCR优秀期刊的比例是否高于全校整体的优秀论文比例。

4 评价小结

此次科研竞争力的评估主要基于SCI、SSCI、A&HCI、中国知网、中国社会科学引文索引等国内外知名数据库中的文献统计信息,并参考JCR、ESI等专业学科评估工具,力图客观、如实地反映北京大学在学术论文方面的科研竞争实力。此外,尝试了院系层面的科研实力、科研合作等方面的分析评估,填补了以往科研实力评估中高校与个人两个层面之间院系层次评估的空白,也为学校的多学科交叉与跨院系合作情况提供了一个新的评估角度。

科研竞争力的评价可以为科研决策提供必要的数据依据,但由于评价方法尚在探索过程中,评价过程也存在一些问题。例如评估中发现各数据库中的论文署名单位、各院系(实验室、研究中心)名称等信息都存在不规范的现象,特别是机构(或院系)英文名称不规范或科研人员的论文署名只包含实验室而未体现机构名称等情况尤为常见,这些因素都会影响到数据导出和分析的准确性。虽然通过人工的数据清理能够在一定程度上解决这个问题,但从根源上则需要各机构进一步规范其署名形式和要求,加强署名规范的宣传和培训,从而在今后的评估中得到更为全面准确的机构成果数据,使评估分析更为精准地反映实际情况。

此次科研竞争力评估是北京大学图书馆信息咨询部开展高端咨询服务的一次有益尝试,充分发挥了图书馆熟悉相关数据库与文献计量方法的特长,以客观、严谨的量化分析为学校的科研管理与决策提供了参考服务,同时也为进一步开展学科服务与高端咨询服务积累了宝贵的经验。机构的科研竞争力分析是一项很有意义的工作,图书馆可以在此领域继续探索,为更加知识化、专业化的服务奠定基础。

参考文献

邱均平,赵蓉英,余以胜.中国高校科研竞争力评价的理念与实践.高教发展与评估,2005,21(1):31-36

大数据分析论文(篇3)

一般的抽象系统中都包含着许多因素,多种因素共同作用的结果决定了该系统的发展态势。人们常常希望知道在众多的因素中,哪些是主要因素、哪些对系统发展影响大等等,而使用灰色相关性分析可以弥补其他系统分析方法的缺陷,适用于本论文的研究。 

灰色系统理论是华中理工大学邓聚龙教授于1982年提出的,该理论利用灰色关联分析来分析因素之间的相关程度[8]。灰色关联分析是根据比较参考序列曲线和比较序列曲线之间的几何相似度来判断二者之间相似程度的,利用灰色关联系数来比较参考序列曲线和比较序列曲线在各点的差异[9,10]。 

二、数据来源和统计方法 

本研究以《灾害学》期刊作为研究对象。从研究学科来看,《灾害学》是进行综合性研究的学术期刊,它以各种自然灾害,包括自然灾害和人文灾害作为研究内容,通过对各种灾害事件的分析讨论,总结经验,吸取教训。从研究内容来看,广泛交流灾害科学的学术思想、研究方法、研究成果;从研究方向来看,注重关于灾害问题的研究动态和防灾减灾对策、人类抗御灾害的科技水平和能力等等的探讨。因此,通过对该期刊的研究,能够全面筛选出各灾害学相关研究的被引次数。 

本研究引用的数据来源于“中国知网”(cnki.net)2004—2015年的数据。其中以2004—2013年的数据作为数据来源,同时参考2014年和2015年的数据。普赖斯认为,科研论文一般在其发表后1—2年即达到被引用最高峰,因此选用2004—2013年10年的数据,2014年和2015年的数据仅作为参考数据。 

本研究利用灰色关联分析,以被引次数最多的50篇论文的相关数据作为研究基础,从论文的被引次数与该论文的下载量、论文作者的职称、的时间、论文研究范围四个方面进行分析。 

三、被引用率灰色关联度分析 

(一)确定比较数列和参考数列 

本文选取论文的被引次数作为参考数列,以该论文的下载量、的时间、论文作者的职称、论文研究的区域作为比较数列,如表1所示。 

表1 影响因子及变量设定表 

其中,职称按照从高往低赋值:设正高=1,副高(博士)=2,中级(硕士)=3,初级=4;研究范围从大到小赋值:设世界性=1,全国性=2,地区性=3,市县等=4,则被引次数最高的50篇论文的相关数据如表2所示。 

(二)无量纲化 

由于系统中各因素列中的数据可能因计算单位的不同,不便于比较,或在比较时难以得到正确的结论,因此,在进行灰色关联度分析时,一般都要进行标准化 (无量纲化)的数据处理。本文利用公式(1),以P50的数据为基准,对原始数据数列和比较数据数列进行初始化运算,以消除量纲或数量级的影响,得到标准化后的数列(表3)。 

(三)产生对应差数列表 

将无量纲化后的比较数列与参考数列进行差值计算,并求绝对值,将之列如对应差数列表,内容包括与参考数列值差(绝对值)、每列最大差和每列最小差。然后计算最大差值和最小差值。 

四、灰色关联的结果分析 

通过灰色关联分析法可知: 

1.论文的下载量、的时间、论文作者的职称、论文研究的范围四个方面的相关度都几乎接近于1,说明这四个方面与论文的被引次数相关度非常大。 

2.从论文的下载量、的时间、论文作者的职称、论文研究的范围四个方面来说,相关度大小排序为:研究范围>时间>作者职称>下载数量。说明论文被引用率影响较大的还是论文本身研究范围。也说明论文刊出时间越长,关注的学者越多,被引的可能性也越高。作者职称和下载数量低于前两个因素。 

3.利用灰色关联度分析法研究结果对把握期刊的服务对象和办刊理念有极大帮助。灰色关联度分析法克服了传统数理统计方法中对样本需要量大、计算量大等缺点,有利于分析期刊研究过程不完全信息中随机因素的显著性和关联性,开拓了期刊研究的新方法。 

参考文献: 

[1] 刘雪立.10 种国际权威科技期刊影响因子构成特征及其启示[J].编辑学报,2014,26(3):296-300. 

[2] 毛国敏,蒋知瑞,任蕾,等.期刊论文被引频次的幂律分布研究[J].中国科技期刊研究,2013,25(2):293-307. 

[3] 叶鹰.高品质论文被引数据及其对学术评价的启示[J].中国图书馆学报,2010,36(1):100-103. 

[4] 方红玲.我国科技期刊论文被引量和下载量峰值年代——多学科比较研究[J].中国科技期刊研究,2011,22(5):708-710. 

[5] 黄鹂.从论文被引频次分析看高校学报在学校科研发展中的作用——以长江大学及其主办的学报为例[J].长江大学学报:社会 

科学版,2012,35(9):184-186. 

[6] 任胜利,柴育成,姚玉鹏,等.地球科学国际主流期刊的引文分析[J].科学通报,2002,47(1):74-79. 

[7] 李斐然.如何创作被引次数最多的论文[J].创新科技,2012,(1):58. 

大数据分析论文(篇4)

专业

计算机科学与技术

学生姓名

杨宇潇

学号

181719251864

一、 选题的背景、研究现状与意义

为什么大数据分析很重要?大数据分析可帮助组织利用其数据并使用它来识别新的机会。反过来,这将导致更明智的业务移动,更有效的运营,更高的利润和更快乐的客户。

在许多早期的互联网和技术公司的支持下,大数据在2000年代初的数据热潮期间出现。有史以来第一次,软件和硬件功能是消费者产生的大量非结构化信息。搜索引擎,移动设备和工业机械等新技术可提供公司可以处理并持续增长的数据。随着可以收集的天文数据数量的增长,很明显,传统数据技术(例如数据仓库和关系数据库)不适合与大量非结构化数据一起使用。 Apache软件基金会启动了第一个大数据创新项目。最重要的贡献来自Google,Yahoo,Facebook,IBM,Academia等。最常用的引擎是:ApacheHive / Hadoop是复杂数据准备和ETL的旗舰,可以为许多数据存储或分析环境提供信息以进行深入分析。 Apache Spark(由加州大学伯克利分校开发)通常用于大容量计算任务。这些任务通常是批处理ETL和ML工作负载,但与Apache Kafka等技术结合使用。

随着数据呈指数级增长,企业必须不断扩展其基础架构以最大化其数据的经济价值。在大数据的早期(大约2008年),Hadoop被大公司首次认可时,维护有用的生产系统非常昂贵且效率低下。要使用大数据,您还需要适当的人员和软件技能,以及用于处理数据和查询速度的硬件。协调所有内容同时运行是一项艰巨的任务,许多大数据项目都将失败。如今,云计算已成为市场瞬息万变的趋势。因为各种规模的公司都可以通过单击几下立即访问复杂的基础架构和技术。在这里,云提供了强大的基础架构,使企业能够胜过现有系统。

二、 拟研究的主要内容(提纲)和预期目标

随着行业中数据量的爆炸性增长,大数据的概念越来越受到关注。 由于大数据的大,复杂和快速变化的性质,许多用于小数据的传统机器学习算法不再适用于大数据环境中的应用程序问题。 因此,在大数据环境下研究机器学习算法已成为学术界和业界的普遍关注。 本文主要讨论和总结用于处理大数据的机器学习算法的研究现状。 另外,由于并行处理是处理大数据的主要方法,因此我们介绍了一些并行算法,介绍了大数据环境中机器学习研究所面临的问题,最后介绍了机器学习的研究趋势,我们的目标就是研究数据量大的情况下算法和模型的关系,同时也会探讨大部分细分行业数据量不大不小的情况下算法的关系。

三、 拟采用的研究方法(思路、技术路线、可行性分析论证等)

 1.视觉分析。大数据分析用户包括大数据分析专业人士和一般用户,但是大数据分析的最基本要求是视觉分析。视觉分析直观地介绍了大数据的特征,并像阅读照片的读者一样容易接受。 2.数据挖掘算法。大数据分析的理论中心是数据挖掘算法。不同的数据挖掘算法依赖于不同的数据类型和格式来更科学地表征数据本身。由于它们被全世界的统计学家所公认,因此各种统计方法(称为真值)可以深入到数据中并挖掘公认的值。另一方面是这些数据挖掘算法可以更快地处理大数据。如果该算法需要花费几年时间才能得出结论,那么大数据的价值是未知的。 3.预测分析。大数据分析的最后一个应用领域是预测分析,发现大数据功能,科学地建立模型以及通过模型吸收新数据以预测未来数据。 4.语义引擎。非结构化数据的多样化为数据分析提出了新的挑战。您需要一套工具来分析和调整数据。语义引擎必须设计有足够的人工智能,以主动从数据中提取信息。 5.数据质量和数据管理。大数据分析是数据质量和数据管理的组成部分。高质量的数据和有效的数据管理确保了分析结果在学术研究和商业应用中的可靠性和价值。大数据分析的基础是前五个方面。当然,如果您更深入地研究大数据分析,则还有更多特征,更深入,更专业的大数据分析方法。

四、 论文(设计)的工作进度安排

2020.03.18-2020.03.20 明确论文内容,进行相关论文资料的查找与翻译。2020.04.04-2020.04.27:撰写开题报告 。

2020.04.28-2020.04.30 :设计实验。

2020.05.01-2020.05.07 :开展实验。

2020.05.08-2020.05.15 :准备中期检查。

2020.05.16-2020.05.23:根据中期检查的问题,进一步完善实验2020.05.24-2020.05.28 :完成论文初稿。

2020.05.29-2020.06.26 :论文修改完善。

 

五、 参考文献(不少于5篇)

1 . 王伟,王珊,杜小勇,覃雄派,王会举.大数据分析——rdbms与mapreduce的竞争与共生 .计算机光盘软件与应用,2012.被引量:273.

2 . 喻国明. 大数据分析下的中国社会舆情:总体态势与结构性特征——基于百度热搜词(2009—2 012)的舆情模型构建.中国人民大学学报,2013.被引量:9. 3 . 李广建,化柏林.大数据分析与情报分析关系辨析.中国图书馆学报,2014.被引量:16.

4 . 王智,于戈,郭朝鹏,张一川,宋杰.大数据分析的分布式molap技术 .软件学报,2014.被引量:6.

5 . 王德文,孙志伟.电力用户侧大数据分析与并行负荷预测 .中国电机工程学报,2015.被引量:19.

6 . 江秀臣,杜修明,严英杰,盛戈皞,陈玉峰 ,郭志红.基于大数据分析的输变电设备状态数据异常检测方法 .中国电机工程学报,2015.被引量:8.

7 . 喻国明. 呼唤“社会最大公约数”:2012年社会舆情运行态势研究——基于百度热搜词的大 数据分析.编辑之友,2013.被引量:4.

六、指导教师意见

 

 

 

 

 

 

 

 

签字:                  年     月    日

七、学院院长意见及签字

 

 

 

 

 

 

大数据分析论文(篇5)

摘要:通过中国知网,从年量等七个方面,对咸阳职业技术学院(以下简称咸阳职院)自升格高职以来发表的期刊论文进行了

>> 基于Web of science数据库竞争情报论文的统计分析 渭南职业技术学院科研论文计量分析 陕西财经职业技术学院科研论文计量分析 基于iHistorian的实时数据库工业报表自动统计分析系统的研究 基于组织机构代码数据库的应用统计分析初探 2006~2012年SCIE数据库收录扬州地区二、三级医院科技论文的统计分析 咸阳职业技术学院物流实训中心建设的构想 数据库在乙型肝炎血清免疫标志物统计分析中的应用 电视机基板品质信息统计分析系统数据库设计 咸阳职业技术学院校园主要绿地植物病害调查初报 咸阳职业技术学院通过微课比赛提升教师信息化水平 基于数据仓库技术的保险业统计分析系统设计 管理数据的统计分析 信息技术在教育科研问卷调查及数据统计分析中的应用 科研院所统计分析中数据的可比性 天津电子信息职业技术学院2009―2013年计量分析 职业院校的科研定位及特色――以宁夏职业技术学院为例 基于BYOD的职业技术学院信息化建设的部署策略 基于web的泸州职业技术学院毕业设计监控平台研究 基于Web of Knowledge Web服务的机构论文统计分析系统 常见问题解答 当前所在位置:.

[3] 秦丽萍, 桂云苗. 基于CNKI的安徽工程大学学术文献计量分析[J]. 安徽工程大学学报,2013,28(3):91-95.

[4] 杨聪, 孙宾宾. 基于CNKI的陕西工业职业技术学院科研论文统计分析[J].电子制作,2015(2):93-94.

[5] 容敏华. 广西高等医学院校发表教育教学论文的统计分析[J]. 卫生职业教育, 2014(23):104-105.

大数据分析论文(篇6)

ThomsonScientific国家科学指标数据库2004年数据显示,中国数学论文在1999~2003年间篇均引文次数为1.03,同期国际数学论文篇均引文次数是1.3,这表明中国数学研究的影响力正在向世界平均水平靠近。相较于物理学、化学和材料科学等领域,中国数学研究的国际影响力是最高的。

我们以美国《数学评论》(MR)光盘(1993-2005/05严为数据来源,用统计数据揭示国际数学论文的宏观产出结构。通过对《MR》收录中国学者发表数学论文每年的总量及其在63个分支上的分布统计,将中国数学论文的产出置于一个相对明晰的国际背景之下,借以观察中国数学的发展态势。此外,我们还以中国科学院文献情报中心《中国数学文献数据库》(CMDDP为数据来源,统计了中国数学论文在63个分支领域的分布,并对其中获国家自然科学基金资助或国家自然科学基金委员会数学天元基金资助的论文情况进行了定量分析。上述数据库均采用国际同行认可的《数学主题分类表》(MSC),分别在国际、国内数学领域具有一定的影响力和相当规模的用户群。

《MR》光盘收录发表在专业期刊、大学学报及专著上的数学论文,其收录范围非常广泛。1993~2004年共收录论文769680篇,其中有74988篇是由中国学者参与完成的,我们称之为中国论文。这里中国论文是指《MR》的论文作者中至少有一位作者是来自于中国(即《MR》光盘中所标注的“PRC”)。12年中,中国论文数占世界论文总数的9.74%。

《CMDD》收录中国国内出版的约300种数学专业期刊、大学学报及专著上刊登的数学论文,此外,还收录了80种国外出版的专业期刊上中国学者发表的论文,并对那些获国家自然科学基金或国家自然科学基金委员会数学天元基金资助的论文进行了特别标注。

2.1《MR》收录中国论文的统计分析

考虑到二次文献的收录时差,为保证数据的完整性,选取的是1993~2004年的文献数据,检索结果如图1所示。数据显示,《MR》12年来收录的中国论文呈现出稳步增长的势头,中国论文的增长速度要大于《MR》总论文数的增长速度。

2.2《MR》收录论文在数学各分支上的分布

为避免重复计数,在对63个数学分支进行统计时,均按第一分类号统计。按2000年《MSC》提出的修订方案,将1993~1999年的数据进行了合并和调整。图2显示了国际数学论文在63个数学分支上的分布。

数学各分支占论文总产出的百分比在一定程度上反映了该领域的研究规模,而相应分支学科的研究热点变化也是统计中着重揭示的问题。在实际统计中,跟踪热点变化主要是通过这63个数学分支的时间序列分析完成的。统计数据揭示的主要特征和趋势如下:1993〜2004年,国际数学或与数学相关论文产出百分比最高的前10个分支依次是:量子理论(81)、统计学(62)、计算机科学(68)、偏微分方程(35)、数值分析(65)、概率论与随机过程(60)、组合论(05)、运筹学和数学规划(90)、系统论/控制(93)、常微分方程(34),这10个分支的产出占总体产出的42.5%。

隹某些分支领域表现出良好的增长势头,如统计学领域的论文数量近3~4年增长较快,有取代量子力学成为现代数学最大板块的趋势。对统计学进一步按照次级主题分类进行统计,结果表明论文产出主要集中在非参数推断(62G)方向(见图3)。

2.3《MR》〉收录中国论文在数学各分支上的分布

MR收录中国学者的数学论文的主要特点表现在以下几个方面:

參1993~2004年论文产出百分比最髙的前10个分支领域依次是偏微分方程(35)、数值分析(65)、常微分方程(34)、系统论/控制(93),运筹学和数学规划(90)、统计学(62)、组合论(05)、概率论与随机随机过程(60)、动力系统和遍历理论(37)、算子理论(47),这10个分支的产出占总体产出的52.25%。

偏微分方程(35)是中国数学论文产出的最大分支,对偏微分方程的二级分类进行细分,结果见图5。

从图中可以看出数理方程及在其它领域的应用(35Q)所占比重较大。同时,根据对35Q的下一级分类的追踪发现,关于KdV-like方程(35Q53)、NLS-like方程(35Q55)的论文有增加的趋势。

差分方程(39)、Fourier分析(42)、计算机科学(68)、运筹学和数学规划(90)、对策论/经济/社会科学和行为科学(91)、系统论/控制(93)、信息和通讯/电路(94)表现出一定的增长势头。

结合环和结合代数(16)、逼近与展开(41)、一般拓扑学(54)、大范围分析/流形上的分析(58)、概率论与随机过程(60)等表现出下降趋势。

与《MR》收录数据的主题分布所不同的是中国的量子力学和统计学均没有进入前5名,量子力学排到了第12位,且有下降趋势。计算机科学(68)、常微分方程(34)在《MR》中分别排在第3位和第10位,而中国数学论文中,常微分方程位居第3,计算机科学位居第11。

1993~2004年《中国数学文献数据库》收录论文统计分析

1993~2004年《CMDD》收录中国学者发表的论文总数达到93139篇。从这些论文在63个数学分支上的分布中可以看出,这63个数学分支学科的发展是不平衡的。对这63个数学分支的论文产出的时间序列分析发现,有些分支增长较快,如运筹学和数学规划(90),对策论/经济/社会科学和行为科学(91),有的变化不大,如几何学(51-52)。

通过对《CMDD》的数据统计,表明中国数学文献的学科分布有如下特点:

參1993〜2004年论文产出百分比最高的前10个数学分支依次是数值分析(65)、运筹学和数学规划(90)、常微分方程(34)、偏微分方程(35)、统计学(62)、系统论/控制(93)、计算机科学(68)、组合论(05)、概率论与随机过程(60)、对策论/经济/社会科学和行为科学(91),这10个分支的产出占总体产出的56.0%。

一些分支表现出良好的成长性。如数理逻辑与基础(03)、矩阵论(15)、实函数(26)、测度与积分(28)、动力系统和遍历理论(37)、Fourier分析(42)、变分法与最优控制/最优化(49),运筹学和数学规划(90)、对策论/经济/社会科学和行为科学(91)、生物学和其它自然科学(92)、系统论/控制(93)、信息和通讯/电路(94)。

參一些分支所占比重下降。如逼近与展开(41)、一般拓扑学(54)、概率论与随机过程(60)、统计学(62)、数值分析(65)等。

參在排名位于前10位的数学分支中,量子理论(81)在《MR》、PRC(《MR》的中国论文)和《CMDD》中所占比重有较大的差异,其余的9个分支尽管所占比重不同但基本上都能进人分布的前10名,例如,计算机科学(68〉在《MR》数据组的排名是第3位,到PRC和《CMDD》数据组就下降到第11位和第7位,在《MR»数据组的排名分别是第8位和第10位的运筹学和数学规划(90)和常微分方程(34),在PRC数据组中,则上升到第5位和第3位,在《CMDD》数据组则为第2位和第3位。这些排名的变化可以部分地揭示出中国在量子理论、计算机科学的交叉研究等方面稍有欠缺,但在数值分析、运筹学(含数学规划)等方面,中国具有相对的竞争优势。

组合论(05)在《MR》、PRC和((CMDD》中所占比重较为一致,分别位居第7、第7和第8位。数据表明组合论中的二级分类图论(05C)的论文产出比例最高,对图论主题进行进一步分析,发现这几年成长较快的图论领域的研究论文大多集中在图和超图的着色(05C15),其次是因子、匹配、覆盖和填装(05C70)。在图论的这两个三级分类上,中国学者的论文产出与国外非常吻合。

    本文中的“基金资助”指的是国家自然科学基金或国家自然科学基金委员会数学天元基金的资助。为统计方便,二者统一按基金资助处理。1993~2004年《CMDD》收录的获基金资助的论文共计27662篇,受资助力度达到30%左右。表8显示,获基金资助的论文近年来有不断上升的趋势。2005年《中国数学文摘)>第6期附表1说明《中国数学文摘》和《CMDD》2005年收录的论文受基金资助的比例达40%以上。《CMDD》收录的获基金资助的中国论文在数学各分支上的分布特点如下:

在数量上,前10个分支领域为:数值分析(65)、系统论/控制(93)、偏微分方程(35)、运筹学和数学规划(90)、计算机科学(68)、常微分方程(34)、统计学(62)、概率论与随机过程(60)、组合学(05)、对策论/经济/社会科学和行为科学(91),这10个分支占总体产出的60.2%。

大数据分析论文(篇7)

中图分类号:G642.0 文献标志码:A 文章编号:1674-9324(2015)28-0231-02

《数据处理与论文写作》是农科院校多个专业的必修课程。该课程对于指导、帮助本科生开展课程实验和毕业论文设计以及毕业后从事科学研究及生产实践具有重要作用。该课程包括数据处理和论文写作两部分,其中数据处理是该课程的重点。但对工科基础比较薄弱的农科院校学生而言,数据处理部分具有理论性强、内容抽象、对高等数学和概率论与数理统计等先修课程要求较高等特点[1],使学生难以掌握该部分内容。课堂调查表明,学生在心理上对该部分内容容易产生一定的抵触情绪,学习兴趣较低,学习效果较差。因此,在学生认知不足、学习积极性不高的情况下,如何加强学生在数据处理学习中的主动性,提高教学效果,是《数据处理与论文写作》课程教师迫切需要解决的问题。

鉴于现在大学生的计算机操作能力普遍较强的特点,在《数据处理与论文写作》教学中引入计算机教学为该课程改革提供了契机。本课程选择当今世界上最著名的科技绘图和数据分析软件之一――Origin软件进行数据处理的计算机教学。

一、Origin软件的简介和特点

Origin软件是美国OriginLab公司开发的科技绘图和数据分析软件。自1991年问世以来,该软件一直在不断升级,目前已发展到Origin 9.1版[2]。

和当前流行的图形和可视化的数据分析软件Matlab、Mathmatica、SAS等相比,采用Origin软件进行数据分析和科学绘图,不需要任何计算机编程基础,也无需熟悉大量的函数和命令,只需单击工具条按钮或者选择菜单命令即可以完成大部分工作。此外,Origin可使用自身的脚本语言LabTalk控制软件,该语言可使用内置的基于C/C++的编译语言Origin C进行扩展。因此,Origin软件具有功能强大、操作简便等特点,既适合于一般的作图需求,也能够满足复杂的数据分析和图形处理。因此,Origin软件已经成为广泛流行和国际科技出版界公认的标准作图工具,是科学研究和工程工作者常用的软件之一[3]。

二、Origin软件的基本功能

Origin软件在科技绘图、统计描述和统计检验等方面功能丰富,这为《数据处理与论文写作》课程中的数据处理提供了便利条件。其功能可分类总结如下:(1)科技绘图:Origin软件可以提供几十种二维和三维的图形模板,包括直线图、描点图、向量图、柱状图、饼图、区域图、箱线图、极坐标图、气泡图、三角坐标图、彩色映射图以及各种3D图和统计用图等,用户可以使用这些模板制图,还可以自定义绘图模板;Origin还具备绘制更为复杂的多变量、多数据集的多层图的功能,可以产生双X轴、双Y轴图等;可以进行线性拟合、多项式拟合、S形曲线拟合等,还可以根据需要设定函数进行拟合;同时,Origin能够提供拟合参数等[3]。(2)统计描述:可以采用Origin进行常用的统计描述,如最大值、最小值、中位数、极差、和、数据点数、平均值、方差、标准偏差、平均值的标准误差、权重和、峰度、偏度及百分位数等。(3)统计检验:Origin软件中常见的统计检验函数有单样本t检验、独立双样本t检验、卡方检验、单因素方差分析、双因素方差分析、存活率分析等。

三、教学实例分析

《数据处理与论文写作》的数据处理部分包括很多理论内容,例如假设检验和方差分析及多重比较的基本原理等。这些内容的讲授通常涉及到大量的公式推导和计算,这使得教师难以在有限的课堂时间内高效地传递这些信息,还易引起学生的厌学情绪,使学生对知识的接受程度较低,教学效果不理想。例如,在讲解有重复的双因素方差分析时,需要计算矫正数、总平方和及其自由度、水平组合平方和及其自由度、两个因素的平方和及其自由度、交互作用平方和及其自由度、误差平方和及其自由度、相应均方等统计量,计算任务繁重,学生尤其难以接受手工计算,故在教学过程中将Origin软件引入教学。具体实现过程如下例题所示。

例题:为提高果汁饮料的口感,研究果汁的pH值(A)和蔗糖添加量(B)两个因素不同水平组合对果汁感官评分的影响。果汁的pH值为3.5、4.0、4.5,蔗糖添加量为10%、15%、20%。每个水平组合重复3次,进行完全随机化试验。试验指标为感官评分越高越好。试验结果如表1所示。试分析各pH值和蔗糖添加量水平下果汁的感官评分是否存在显著差异?

该题目的完成需要先分析pH值和蔗糖添加量对果汁的感官评分是否有显著影响,在此基础上进行多重比较。采用Origin软件分析,步骤如下:(1)按照下列方式将数据录入到origin软件的工作表中,或者选择File/Import将其他数据文件直接调入工作表中;(2)在Statistics选项中选择ANOVA/Two-way ANOVA;(3)在所弹出的对话框中的数据录入区域录入对应数据,选择结果输出的内容:统计描述(Descriptive Statistics)和多重比较(Means Comparison),并明确多重比较结果输出时所采用的显著性水平和多重比较的方法(如Tukey、Fisher检验等),点击OK确认输出结果;(4)根据结果(如表2所示)做出判断。

从表2的结果可以看出,Origin软件所输出的结果直观,无需进行复杂的计算和查找F值表等即可做出判断。

在实际教学过程中,可以先进行数据分析的软件演示,让学生对采用Origin软件开展方差分析建立感性认识,减少学生的畏难心理,为进行方差分析的理论教学做好铺垫;同时,在后期的上机操作训练中,学生的学习积极性得到调动,教学效果得到充分提升。

Origin软件灵活、多变、强大的科技绘图功能能够极大地激发学生的学习兴趣,提高学生的绘图水平,对进一步顺利完成毕业论文乃至未来的科研任务也起到了至关重要的作用。采用Origin进行多个统计量计算时,单击工具条按钮可一步完成所有统计量的计算,通过简单的课堂练习即可掌握;而在统计检验中,学生在软件操作过程中营造了互动的课堂氛围,提高了他们的课堂参与度。Origin软件在《数据处理与论文写作》中的应用很好地诠释了现代信息技术与教育事业的强强联合,使得该课程数据处理部分的教学变得更加容易、简便,摆脱了传统的利用计算器进行计算的方式,简化了计算程序,优化了该课程的教学效果。值得注意的是,尽管Origin软件能够帮助学生实现复杂的计算,但在教学中也应引导学生认识到Origin软件只是工具,必要的理论知识学习才是用好该工具的前提。此外,由于课堂中的学习时间有限,而软件的使用需要在实际应用中反复探索、实践与总结,因此应引导学生加强课后的练习和使用,使之完全掌握该软件,以适应新的经济形式下社会对理论与实践能力兼备型人才的需求。

参考文献:

大数据分析论文(篇8)

摘要:学习成绩是评价学生素质的重要方面,也是教师检验教学能力、反思教学成果的重要标准。利用大连民族大学统计学专业本科生有关数据(专业基础课成绩、平时成绩和回归分析期末成绩),建立多元線性回归模型,对影响回归分析期末成绩的因素进行深入研究,其结果对今后的教学方法改进和教学质量提高具有十分重要的指导意义。

关键词:多元线性回归;专业基础课成绩;平时成绩;期末成绩

为了实现教学目标,提高教学质量,有效提高学生学习成绩是很有必要的。我们知道专业基础课成绩必定影响专业课成绩,而且平时成绩也会影响专业课成绩,这两类成绩与专业课成绩基本上是呈正相关的,但它们之间的关系密切程度有多大?它们之间又存在怎样的内在联系呢?就这些问题,本文主要选取了2016级统计专业50名学生的四门专业基础课成绩以及回归分析的平时成绩和期末成绩,运用SPSS统计软件进行分析研究,寻求回归分析期末成绩影响因素的变化规律,拟合出关系式,从而为强化学生的后续学习和提高老师的教学质量提供了有利依据。

一、数据选取

回归分析是统计专业必修课,也是统计学中的一个非常重要的分支,它在自然科学、管理科学和社会、经济等领域应用十分广泛。因此研究影响统计学专业回归分析成绩的相关性是十分重要的。

选取了统计专业50名学生的专业基础课成绩(包括数学分析、高等代数、解析几何和概率论)、回归分析的平时成绩和期末成绩,结合多元线性回归的基础理论知识[1-2],建立多元回归方程,进行深入研究,可以直观、高效、科学地分析各种因素对回归分析期末成绩造成的影响。

二、建立多元线性回归模型1及数据分析

运用SPSS统计软件对回归分析期末成绩的影响因素进行研究,可以得到准确、科学合理的数据结果,全面分析评价学生考试成绩,对教师以后的教学工作和学生的学习会有较大帮助。自变量x1表示数学分析成绩,x2表示高等代数成绩,x3表示解析几何成绩,x4表示概率论成绩,x5表示平时成绩;因变量y1表示回归分析期末成绩,根据经验可知因变量y1和自变量xi,i=1,2,3,4,5之间大致成线性关系,可建立线性回归模型:

(1)

线性回归模型通常满足以下几个基本假设,

1.随机误差项具有零均值和等方差,即

(2)

这个假定通常称为高斯-马尔柯夫条件。

2.正态分布假定条件

由多元正态分布的性质和上述假定可知,随机变量y1服从n维正态分布。

从表1描述性统计表中可看到各变量的平均值1=79.68,2=74.66,3=77.22,4=78.10,5=81.04,1=75.48;xi的标准差分别为10.847,11.531,8.929,9.018,9.221,y1的标准差为8.141;有效样本量n=50。

回归分析期末成绩y1的多元回归模型1为:

y1=-5.254+0.221x1-0.4x2+0.154x3

+0.334x4+0.347x5

从表2中可以看到各变量的|t|值,在给定显著水平?琢=0.05的情况下,通过t分布表可以查出,自由度为44的临界值t?琢/2(44)=2.015,由于高等代数x2的|t|值为0.651小于t?琢/2(44),因此x2对y1的影响不显著,其他自变量对y1都是线性显著的。下面利用后退法[3]剔除自变量x2。

三、后退法建立多元线性回归模型2及数据分析

从模型1中剔除了x2变量,多元回归模型2为:

y1=-5.459+0.204x1+0.149x3+0.377x4+0.293x5(5)

在表4中,F统计量为90.326,在给定显著水平?琢=0.05的情况下,查F分布表可得,自由度為p=4和n-p-1=45的临界值F0.05(4,45)=2.579,所以F>F0.05(4,45),在表5中,所有自变量的|t|值都大于t?琢/2(45)=2.014,因此,多元回归模型2的线性关系是显著的。

四、结束语

通过对上述模型进行分析,即各个自变量对因变量的边际影响,可以得到以下结论:在保持其他条件不变的情况下,当数学分析成绩提高一分,则回归分析成绩可提高0.242分[4-5];同理,当解析几何成绩、概率论成绩和平时成绩每提高一分,则回归分析成绩分别提高0.149分、0.377分和0.293分。

通过对学生专业基础课成绩、平时成绩与回归分析期末成绩之间相关关系的研究,一方面有利于教师把控回归分析教学课堂,提高教师意识,注重专业基础课教学的重要性,同时,当学生平时成绩不好时,随时调整教学进度提高学生平时学习能力;另一方面使学生认识到,为了更好地掌握回归分析知识,应加强专业基础课的学习,提高平时学习的积极性。因此,通过对回归分析期末成绩影响因素的研究能有效的解决教师教学和学生学习中的许多问题。

统计学毕业论文范文模板(二):大数据背景下统计学专业“数据挖掘”课程的教学探讨论文

摘要:互联网技术、物联网技术、云计算技术的蓬勃发展,造就了一个崭新的大数据时代,这些变化对统计学专业人才培养模式的变革起到了助推器的作用,而数据挖掘作为拓展和提升大数据分析方法与思路的应用型课程,被广泛纳入统计学本科专业人才培养方案。本文基于数据挖掘课程的特点,结合实际教学经验,对统计学本科专业开设数据挖掘课程进行教学探讨,以期达到更好的教学效果。

关键词:统计学专业;数据挖掘;大数据;教学

一、引言

通常人们总结大数据有“4V”的特點:Volume(体量大),Variety(多样性),Velocity(速度快)和Value(价值密度低)。从这样大量、多样化的数据中挖掘和发现内在的价值,是这个时代带给我们的机遇与挑战,同时对数据分析技术的要求也相应提高。传统教学模式并不能适应和满足学生了解数据处理和分析最新技术与方法的迫切需要。对于常常和数据打交道的统计学专业的学生来说,更是如此。

二、课程教学探讨

针对统计学本科专业的学生而言,“数据挖掘”课程一般在他们三年级或者四年级所开设,他们在前期已经学习完统计学、应用回归分析、多元统计分析、时间序列分析等课程,所以在“数据挖掘”课程的教学内容选择上要有所取舍,同时把握好难度。不能把“数据挖掘”课程涵盖了的所有内容不加选择地要求学生全部掌握,对学生来说是不太现实的,需要为统计学专业本科生“个性化定制”教学内容。

(1)“数据挖掘”课程的教学应该偏重于应用,更注重培养学生解决问题的能力。因此,教学目标应该是:使学生树立数据挖掘的思维体系,掌握数据挖掘的基本方法,提高学生的实际动手能力,为在大数据时代,进一步学习各种数据处理和定量分析工具打下必要的基础。按照这个目标,教学内容应以数据挖掘技术的基本原理讲解为主,让学生了解和掌握各种技术和方法的来龙去脉、功能及优缺点;以算法讲解为辅,由于有R语言、python等软件,学生了解典型的算法,能用软件把算法实现,对软件的计算结果熟练解读,对各种算法的改进和深入研究则不作要求,有兴趣的同学可以自行课下探讨。

(2)对于已经学过的内容不再详细讲解,而是侧重介绍它们在数据挖掘中的功能及综合应用。在新知识的讲解过程中,注意和已学过知识的融汇贯通,既复习巩固了原来学过的知识,同时也无形中降低了新知识的难度。比如,在数据挖掘模型评估中,把混淆矩阵、ROC曲线、误差平方和等知识点就能和之前学过的内容有机联系起来。

(3)结合现实数据,让学生由“被动接收”式的学习变为“主动探究”型的学习。在讲解每种方法和技术之后,增加一个或几个案例,以加强学生对知识的理解。除了充分利用已有的国内外数据资源,还可以鼓励学生去搜集自己感兴趣的或者国家及社会大众关注的问题进行研究,提升学生学习的成就感。

(4)充分考虑前述提到的三点,课程内容计划安排见表1。

(5)课程的考核方式既要一定的理论性,又不能失掉实践应用性,所以需要结合平时课堂表现、平时实验项目完成情况和期末考试来综合评定成绩。采取期末闭卷理论考试占50%,平时实验项目完成占40%,课堂表现占10%,这样可以全方位的评价学生的表现。

三、教学效果评估

经过几轮的教学实践后,取得了如下的教学效果:

(1)学生对课程的兴趣度在提升,课下也会不停地去思考数据挖掘有关的方法和技巧,发现问题后会一起交流与讨论。

(2)在大学生创新创业项目或者数据分析的有关竞赛中,选用数据挖掘方法的人数也越来越多,部分同学的成果还能在期刊上正式发表,有的同学还能在竞赛中取得优秀的成绩。

(3)统计学专业本科生毕业论文的选题中利用数据挖掘有关方法来完成的论文越来越多,论文的完成质量也在不断提高。

(4)本科毕业生的就业岗位中从事数据挖掘工作的人数有所提高,说明满足企业需求技能的人数在增加。继续深造的毕业生选择数据挖掘研究方向的人数也在逐渐增多,表明学生的学习兴趣得以激发。

大数据分析论文(篇9)

中图分类号:G642.0 文献标志码:A 文章编号:1674-9324(2015)38-0060-02

一、MOOC与优课联盟

MOOC,即Massive Open Online Courses(大规模开放在线课程,中文名:慕课),起源于开放教育资源运动和连通主义理论思潮,2012年出现了三大最知名的MOOC平台,分别是Coursera、Udacity和edX,称为全球MOOC元年,2013年以来MOOC在国内外呈现风起云涌之势,2013年被称为中国MOOC元年。

随着MOOC不断发展,UOOC联盟应运而生。2014年5月由深圳大学发起成立地方高校联盟,简称UOOC联盟(University Open Online Course,中文名:优课,U代表University和Union二层含义)。2014年9月18日UOOC联盟首批7门课程正式上线运行。UOOC联盟的宗旨是:通过大规模开放在线课程的共建、共享、共赢,达到优质教育资源共享,降低教育成本和协同创新的目的。

二、大数据与大数据分析

大数据(英语:Big data或Megadata),又称为巨量数据、海量数据、大资料,目前学术界对于大数据的概念,并没有一个统一的定义和标准,不过,业界对大数据所具备的4V特征已经达成共识。一是数据体量巨大(Volume);二是数据类型繁多(Variety);三是处理速度快(Velocity);四是价值密度低(Value)。

大数据分析除了许多常规的统计分析方法外,还有许多特有的核心分析技术,比如数据挖掘、机器学习、社交网络分析、舆情分析、推荐引擎等。

目前国内利用大数据分析MOOC学习者的学习行为与学习效果的研究屈指可数。为此,笔者通过收集UOOC联盟平台上的第一手数据,以大数据的视野和分析技术来进行MOOC学习行为与学习效果的研究。

本文采用大数据分析法等深入研究选修UOOC平台上的7门课程的学习者的基本信息、学习行为、课程间各指标间的对比,在此基础上提出MOOC的不足以及提出相应的对策。本文以C1、C2、C3、C4、C5、C6、C7代表有一定的代表性的《唐宋词与人生》、《积极心理学》、《模拟电子技术导论》、《概率论与数理统计》、《大学计算机》、《古典文学的城市书写》、《文献管理与信息分析》这7门课程。

三、学习行为与学习成效分析

首先介绍UOOC联盟平台上首批上线的7门课程的基本情况、注册人数等,其次从课程的访问情况、视频观看情况、作业完成情况、讨论等四个方面来分析学习行为以及与学习成绩、完成率、辍学率间的相关性。

(一)基本情况分析

1.注册人数。2015年1月,学习者完成了首批上线的七门课程的相关学习。笔者从平台后台收集的数据统计,注册7门课程的人数如下图1:

由上图显示的数据可知,7门课程的平均注册人数为795.4人,总计5547人,最多的人数为1783人,最少的是248人。此数据受UOOC联盟平台的注册权限的限制,需要身份认证,必须是联盟高校的学习者。

2.七门课程的基本情况。

(二)学习行为分析

1.学习页面访问情况。学习者访问学习页面是学习的一个重要环节,从平台后台收集的数据显示,七门课程的平均页面访问数为25次,其中最高达到422次,但也有一部分学习者只注册却从未进入学习页面。数据显示的结果也表明了学习者学习的积极性不高,并且存在很大的差异性。

2.视频观看情况。MOOC平台上的学习资源主要以5~15分钟的短视频为主,学习者学习的主要活动是观看教学视频。七门课程的视频总时长最长达到981.2分钟,最短为357.9分钟,平均时长为9.3分钟;7门课程的总观看时长最长是619680.2分钟,个人观看时长最长达到1558.7,最短是0分钟,平均观看时长是492分钟。

3.讨论情况。UOOC联盟平台上的学习者讨论主要有四种情况:发表讨论、回复讨论、置顶讨论以及加精讨论。7门课程的总讨论数为18441次,七门课程中最高讨论数为2616,最低为0次,置顶讨论与加精讨论相对于发帖与回帖而言明显减少,置顶讨论的总次数最高是8次,加精讨论的总次数是86次;平均讨论次数3.6次,平均发表讨论为1.06次,平均回帖次数为2.54次;由数据可以分析得出,回帖的次数多于发帖的次数,在一定程度上说明了学习者学习较被动,主动性还有待提高。

4.任务完成情况。UOOC联盟平台上7门课程的总任务数为785个,平均任务数为112个,最多任务数为163,最少的任务数为43个;在7门课程中,任务全完成占总人数的比例最高达到43%,最低4%;任务完成一半以上占总人数的比例最高为53%,最低为13%;在这七门课程中一项任务都没有完成的人数最高达到58%,最低的占到23%,这一数据也反映了在学习过程中很大一部分学习者是只注册账号,从未完成学习的任务,学习积极性高的学习者与学习积极性不高的学习者之间存在很大的差别。

(三)学习成效分析

1.及格率、辍学率及结课率情况。UOOC平台首批上线的7门课程中,平均及格率为19%,平均辍学率为45%,平均结课率为55%,及格率最高的是课程C6,辍学率最高的是C5,结课率最高的是C4;这些数据说明7门课程的结课率高于辍学率,大部分学习者能够完成相应的课程,但是从及格率来看,学习者的学习成效还不够理想。如表2所示:

大数据分析论文(篇10)

中图分类号:G353.1 文献标识码:A

0引言

目前对大数据研究现状综述的中文文献较少,本文以2007-2015年中国知网CNKI收录的有关大数据研究的相关文献为对象,通过Ucinet[1]、SPSS等数据处理工具进行了可视化分析,为相关研究和应用提供参考。

1数据来源与研究方法

本文在CNKI检索区域主题字段、题名段、关键词段中分别输入“大数据”,时间字段起始为2007年1月1日,截止时间为2015年8月1日,主题字段和题名、关键词间采用“与”运算,题名和关键词间采用“或”运算,检索完后经简单处理共获得到4707篇有效文献,对相关字段进行统计整理。

2大数据研究文献的时间分布

衡量某领域发展的重要指标为学术论文数量的变化,它在一定程度上反映了该领域研究的基本水平和发展规律,绘制相应的分布曲线,为评价该领域所处的阶段具有重要意义,从大数据研究的中文文献分布(如图1所示)情况看,从2013年随着舍恩伯格的《大数据时代》一书的热销,研究热度呈现高速上升,2014年较2013增长了2.5倍,2015年截止到8月1日已经有1808篇文献发表,按照目前的趋势预计到年底将超过3000篇。随着我国对“互联网+”关注的升温,大数据相关研究论文数量也会呈现稳定发展的趋势。

3大数据研究文献的空间分布

3.1机构单位分布

在检索到的4707篇文献共涉及526个,数量在14篇及以上的机构单位有40个,在25篇及其以上的机构共有14个,如表1所示,由高产发文机构可以看出在大数据研究介入方面我国985高校走在前列,是大数据技术研究的前沿基地,中国人民大学以68篇排名第一,该校在2009年3月,便成立中国调查与数据中心,全面支持国家智库战略性研究,同时在2014年牵头联合北京大学、中国科学院大学、中央财经大学、首都经济贸易大学设立大数据分析硕士培养协同创新平台,率先迈出了坚实的一步。

3.2论文基金资助情况

在检索到的4707篇文献中,获得基金资助的文献共有737篇,如图2所示,其中部级层面的基金资助为604篇,国家自然科学基金和国家社会科学基金两大基金分别资助280篇和132篇,“863计划”和“973计划”也分别资助49篇和37篇,可见近几年国家对大数据研究的重视程度,已将大数据研究定位为国家战略。在省级层面资助中,如图3所示,江苏省以28篇占据第一位,走在大数据研究的前沿,河北省、陕西省、广东省、山东省、重庆市分列第二至六位,可见各省市已经普遍开始接受将拥有的数据规模以及从数据中获取知识和价值的能力作为竞争力评价的重要指标。

3.3论文研究类别情况

截止到2015年8月1日,大数据研究中硕士论文有122篇,博士论文有5篇,这与大数据研究从近三年开始刚关注有一定的关系,硕博论文的产生需要一定的时间跨度,但这127篇硕博论文已经表明越来越多的高校和研究机构已经开始关注这个领域,其中5篇博士论文分别来自于吉林大学(2篇)、中共中央党校、武汉大学和上海大学,下载次数最多的博士论文(《大数据时代基于物联网和云计算的地质信息化研究》)已经达到14000次以上,被引用18次。而122篇硕士论文的分布如图4所示,北京邮电大学(10篇)和吉林大学(9篇)分居前两位,在发文总量上(见表1)北京邮电大学(28篇)、吉林大学(26)篇也分别位居第9位和第11位,并且吉林大学还有2篇博士论文,可见两所高校在大数据研究方面的地位,北京邮电大学设有数据科学中心并已在网络流量分析、互联网用户行为分析、无线网络优化等多个领域积累了丰富经验和成果。吉林大学经济学院和金融学院也为本科生开设了《数据科学与大数据分析》课程,培养学生的计算思维、数据思维和互联网思维,更好地迎接“互联网+”时代的到来。

3.4大数据研究的热点

关键词是论文的高度概括和凝练,频次高的关键词常被用来确定一个研究领域的热点问题,通过对检索到的4707篇文献进行整理,共有6835个关键词,对提取的关键词(选取Top44(频次大于等于10))利用可视化软件Ucinet、NetDraw绘制共现网络知识图谱进行可视化分析,如图5所示。由共线图谱可知,“大数据”、“数据挖掘”、“云计算”、“机器学习”、“Hadoop”之间的联系最为密切,而其他节点也均有此热点关键词有联系。

4结语

本文以2007-2015年CNKI收录的4707篇以大数据为主题的研究文献为样本,从文献计量学的视角,利用SPSS、Ucinet、NetDraw等可视化软件以知识图谱的方式对大数据研究的中文文献进行了分析,相信在不远的将来会有更多大数据研究的理论成果应用于国民生产,推动国家新一轮的经济增长。

参考文献

[1] 包惠民,李智.CNKI数据实现ucinet共现分析的方法及实证分析[J].软件

导刊・教育技术,2012(1):91-93.

[2] 滕瀚,曾天山.改革开放后我国教育学科的社会关注度分析――以《新华文

大数据分析论文(篇11)

[8]SEGLEN P.Why the impact factor of journals should not be used for evaluating research[J].British Medical Journal,Education,2007,314(7079):497.

[9]PECK S.Science suffers when getting a grant becomes the goal[J].The Chronicle of Higher Education,2008,55(7):42.

[10]HEIDORN P B.Shedding light on the dark data in the long tail of science[J].Library Trends,2008,57(2):280-299.

[11]REFINETTI R,CORNRLISSEN G,HALBERG F.Procedures for numerical analysis of circadian rhythms[J].Biological Rhythm Research,2007,38(4):275-325.

[12]丹.数据论文:数据集独立出版与共享模式研究[J].情报资料工作,2015,(5):95-98.

[13]YOUNG N S,IOANNIDIS J P,AIUBAYDLI O,et al.Why current publication practices may distort science[J].PLoS Medicine,2008,5(10):1418-1422.

[14]杨滟,孙建军.基于生命周期管理的科学长尾数据管护研究[J].情报理论与实践,2016,(4):45-50.

[15]DCC Curation Lifecycle Model[EB/OL].http:∥dcc.ac.uk/resoutces/curation-lifecycle-model,2015-04-05.

[16]DCC.What is digital curation?[EB/OL].http:∥doc.ac.uk/digital-curation/what-digital-curation,2013-08-11.

[17]Laughton P.OAIS functional model conformance test:a proposed measurement[J].Program:electronic library and information systems,2012,46(3):308-320.

[18]Caplan P.DAITSS,an OAIS-based preservation repository[C]∥Proceedings of the 2010 Roadmap for Digital Preservation Interoperability Framework Workshop,ACM,2010,17.

[19]LaPlant L,Zwaard K.A holistic approach for establishing content authenticity and maintaining content integrity in a large OAIS repository[C]∥Archiving Conference on Society for Imaging Science and Technology,2008,(1):109-113.

大数据分析论文(篇12)

摘 要:政策文本计算是大数据环境下政策分析科学与计算科学交叉融合的产物。文章通过对政策文本计算的方法论、应用工具和典型研究议题的跟踪和梳理,提出了政策文本计算方法的主要特征与不足,并讨论了该方法在精细化政策分析和定量政治研究领域的研究前景。

关键词:政策文本计算;政策诠释;政策分析;方法论

中图分类号: D03 文献标识码: A DOI:10.11968/tsyqb.1003-6938.2016110

Abstract Policy text computing is a new integrated methodology combined with policy analysis science and computing science in the big data era. This paper reviewed the development of computing methods in political text analysis, summarized the typical research topics, tools and applications in this area, then concluded the main characters and shortcomings of this methodology, and discussed the potential application of policy text computing in meta-policy analysis and qualitative political analysis.

Key words policy text computing; policy interpretation; policy analysis; methodology

1 引言

政策文本是指因政策活动而产生的记录文献,既包括政府或国家或地区的各级权力或行政机关以文件形式颁布的法律、法规、部门规章等官方文献,也包括政策制定者或政治领导人在政策制定过程中形成的研究、咨询、听证或决议等公文档案,甚至包括政策活动过程中因辩论、演说、报道、评论等形成的政策舆情文本,历来是政策研究的重要工具和载体[1]。如在政策研究方法论中,Trauth[2]认为主要有“预测-描述”的诠释范式、“价值批判-价值构建”的价值范式、政策过程范式以及政策评估和绩效范式等主要形式,其中诠释范式又分政策文本分析、政策分类或框架体系、政策生命周期律、政策社会系统等理论。可见,政策文本研究在政策分析研究领域占有重要地位。

随着计算机方法的引入应用,政策文本分析所能处理的素材量和处理精度得到了大幅提升,并引入了新的方法和理念。尤其是政策文本数据,如文本型数据(Textual Data)、数据文本(Text as Data)、文本数据空间(Text Universe)等相关概念的提出,研究者在政策文本内容分析法的基础上相继提出了政策文本语料库分析和政策文本数据挖掘方法,并利用上述方法解读和获知政策立场、政策倾向、政策价值、政策情感等深层政策内涵以及广义的政策比较分析。我国李江等[3]提出运用政策计量(Policiometrics)的研究思路来揭示政策引用、主题共现以及机构共现等政策关系。本文通过梳理国内外政策文本内容分析、政策语料库以及政策文本挖掘的相关理论研究进展,探讨了政策文本计算分析的可行框架与应用前景。

3.1 政策文本内容分析方法

政策文本内容分析是一种介于定性与定量之间的半定量研究方法,与之类似的还有一致性分析(Concordance Analysis)、话语分析(Conversational Analysis)、话语文本分析(Discourse Analysis)、计算诠释学(Computational Hermeneutics)、定量文本分析(Qualitative Text Analysis)等研究方法。从20世纪80年代开始业内就陆续研制了相关的文本分析软件用于文本标记、文本编码和相应的编码管理工具,如Atlas.ti、MAXQDA、QDAMiner、NVivo、SPSS Text

Analytics for Surveys、QCAmap、CATMA、LibreQDA、MONK Project等文本数据管理软件工具。虽然引入了计算机软件对政策文本进行概念抽取和定量化统计,并具有文本数据的自动统计和关系识别方法,但其概念抽取方法仍采用传统的文本分析方法和流程,在数据处理环节仍主要依赖研究者的人工提取,体现为一种半计算化分析工具。

因此,这类计算处理方法能够处理的政策文本数据有限,一般处理政策样本集(Sample,n≤200),最多通过协作方式处理政策主题集(Subsets,N≈1000)范畴的政策文本集,而对政策语料库(Corpus,N≥10000)基本上无法处理。因而,这类研究方法的研究议题也主要沿袭了政治学和诠释学中的政治话语研究和政治文本内容分析框架中的符号论和政治语词解读(政策主题识别与比较)的研究传统。

3.2 政策文本计量分析方法

政策文本计量分析主要是采用文本计量分析的基本理论与方法,通过对已有政策文本数据库或政策文本语料库在政策主题分布、政策时间序列分布、政策引证以及政策主体关系等要素进行计量分析[3]。在Grimmer的政策计算分析框架中,政策文本主要来自政策数据库和已有语料库、网络政策文本和非电子化政策文本。因此,政策文本计量分析的主要方法和工具也主要有三种类型:一是政策文本数据库自有的文本计量分析方法与工具,如Lexis Nexis、ProQuest、Westlaw、HeinOnline、北大法宝和CNKI政府公报数据库等政策或法律文本数据库, 利用数据库自带的字段设定结合政策主题、类型、时间、地域等进行政策统计或计量分析,或应用共词或共现分析,能有效分析政策文献增长、扩散、流变等变化规律;二是利用网络分析和替代计量学(Altermetrics)方法和工具进行网络政策文本分析[17],如Wiley, NPG和PLOS One 等开始提供 Altmetric 服务,Altmetric也可以对国内新浪微博进行追踪,因而对社会媒体中的政策文本以及跟踪研究也成为可能,如匹兹堡大学创建的MPQA政策辩论语料和卡内基梅隆大学Sailing实验室Jacob Eisenstein和 Eric Xing创建的政治博客文本集语料;三是通过政策文本采集与语料库构建并提出新的统计口径和研究方法,如苏竣和黄萃等对中国科技政策的类型统计分析[18]以及卡内基梅隆大学Wilson等对网站隐私政策的主题解析分析[19]。

3.3 政策文本数据处理方法

从政策文本的范围看,政策文本结构性差异很大:既有政府的政策文本、法律档案(听证会材料、判例),也有政策新闻、媒体数据和政策研究文献;既有总统竞选纲领、演说文本集,也有社交媒体的公众政治言论和政治评论。而通过自然语言处理将政策文本解析为结构化文本数据(Textual Data),并构建语词、语义或情感等特殊对象,不仅能形成对大规模政策文本语料的系统化处理,而且能在不同的政策文本集中进行比较分析和一致性分析,推动政策文本融合分析。结合政策文本分析的应用,典型的研究方法和工具有政策文本自然语言处理和语法计量分析、政策文本处理以及政策语义分析(见表2)。

在政策文本数据处理过程中,政策文本或语料集适用于通用的自然语言处理方法和文本数据处理方法,政策语词分析和政策语义分析在政策主题统计(聚类)、政策热点识别、政策意分析中应用较多[20-21]。目前,在政策文本处理领域最受关注的议题:一是语料库尺度的政策内容分析[22-24],主要是对政策语料库的统计和计量分析,识别政策语境中的热点议题[25],关注政策议题的扩散或影响[26-27],尤其是政治演说语料库、政见语料库、政治纲领语料库分析;二是政党和选举研究中的政策立场分析和政策倾向研究,政策文本计算的概念本身即为比较政见研究(CMP)的Michchael Laver提出,而基于先验词权(Reference Score)的WordScore和无先验词权的WordFish也是政策文本计算分析中应用最广泛的分析软件,CMP以及后续研究项目(MARPOR)提供的政见语料库也是采纳率最广的语料库。

3.4 政策文本数据挖掘方法

文本挖掘,又称为文本数据挖掘或文本知识发现,是指在大规模文本集合中发现隐含的、以前未知的、潜在有用的模式的过程[28],涉及数据挖掘、机器学习、统计学、自然语言处理、可视化技术、数据库技术等多个学科领域的知识和技术[29]。与政策文本处理更注重政策语词或语义分析相比,政策文本数据挖掘更注重在大量文本数据集合中发现分类/聚类特征、发现关联知识或规则,并注重深层潜在语义的知识发现。因此,政策情感分析、政策意见分析、政府行为预测等典型方法得到政策研究领域的广泛关注,如Saremento等对用户评论的政策倾向分析[30]、Hopkins和King[31]对博客政策意见的分析。政策情感分析在西方国家选情预测中尤为关注,包括政治领导人的政策情感倾向[32]、选民的情感反馈与倾向[33-34]以及整体选情预测[35-37];在政策意见分析中,公众意见收集和政治意见追踪也是常见的研究主题,并将公众政策意见与其政治立场和政党支持度关联,建立了计算化的政党舆情监测、政党竞争或政党派系识别以及政策结果评估的分析方法[38-39];政府行为预测体现了政策预测分析的方法和思路,通过对政府领导人、政党的竞选纲领或关键政策文本的分析,挖掘潜在的政策热点或发展轨迹。国内研究者也利用数据挖掘方法对政策热点[40]以及政策价值[41]进行了分析,或系统利用文本挖掘方法对政策文本的内部结构关系进行了主题识别或关联分析[42-44],但总体上缺乏系统性和连续性。

4 政策文本计算应用研究进展

4.1 政策文本语料库建设

政策语料库以及语料库语言分析是政策文本计算分析的基础。早期的政策语料库一般针对政府出版物或公开政治文本进行采集加工,如政策条文、相关政策解释、政治人物传记、语录或新闻纪录等;现在则扩展到更加多样化的语料来源。除了Lexis Nexis、北大法宝等传统的法律信息服务提供商,目前比较典型的政策语料库有:

(1)德国柏林社会科学研究中心比较政见研究项目政见文本语料库(MRG / CMP / MARPOR) [45]。Manifesto语料库是目前政策分析领域加工最为成熟的开放政策语料,包括1945-2015年70年跨度,涉及所有欧洲国家和少数英美联邦国家(美国、加拿大、澳大利亚、南非、新西兰)总计超过50个国家的4051个政见语料集,涵盖了1979-1989年政见研究组MRG(Manifesto Research Group)、1989-2009年比较政见研究CMP(Comparative Manifestos Project)以及当前基于政治表达的政见研究MARPOR(Manifesto Research on Political Representation)持续研究的政策语料。在语料分析工具包中,既包括手工编码的政策术语编码手册(Code Book),也包括794,536个跨语种的机器识别政策术语、短语或词条;既包括软件版本的WordScore分析工具,也包括R语言的分析包ManifestoR。因此,Manifesto语料库和WordScore分析软件是目前政见分析和政策文本计算领域引用率最广的语料库,尤其在政策立场和政策倾向研究中。

(2)美国康奈尔大学政策文本语料库(Corpus of political discourse)[46],它是康奈尔大学计算机系庞大的语料集中的一个子集,主要是由Matt Thomas, Bo Pang和 Lillian Lee整理的总统国会演讲数据集(Congressional speech data),同时因Lillian Lee设计开发了相应的情感开发工具ReadMe,因此在严肃政策文本的政策情感研究领域受关注度较高,目前共有22篇研究文献利用或援引了该数据集。

(3)美国匹兹堡大学计算机系的MPQA Opinion Corpus语料库(Multi-Perspective Question Answer, MPQA)[47],主要是新闻报纸素材的语料,包含4个子库、4个词表和基于语料库分析技术开发的OpinionFinder系统(目前提供2.0版本下载),其中有一个专门子库为政策辩论数据库(Political Debate Data)。同时,因其情感标注系统比较出色,因而也是博客、评论等开源语料政策情感分析的主要素材和工具。

(4)卡内基梅隆大学计算机系Sailing实验室的政治博客语料库[48]。由Jacob Eisenstein 和Eric Xing整理开发,主要采集了2008年6个博客平台的13246个政治博客文本记录,并且通过意识形态的分层抽样,也是政治博客研究比较重要的语料资源。类似的语料集还有美国海军学院Twitter政策语料集。

(5)香港浸会大学整理开发的政治演讲语料集(Corpus of Political Speeches-HKBU Library)[49]。目前主要包括4个部分:美国历届总统演说语料文本集和多媒体文本(1789-2015)(约443万字)、历届香港总督或特首施政报告语料集(1984-1996,1997-2015,约43万字)、历届中国台湾地区领导人新年致辞和双十演讲语料集以及中国历届政府总理施政报告语料集,是比较完整的中文政策语料集之一。

此外,德国柏林Brandenburg科学研究院的阿德莱登・巴拉巴西提供的德政策语料集[50]则结合了政策语料分析与可视化研究,利用这个政策语料集可进行总统演讲频率、演讲主题和演讲所涉及的政策语言的可视化分析, 网站提供粗语料、分词后的语料以及标引后的语料等不同版本的语料。

4.2 政策文本分析工具研制

因语境意义对政策文本分析的现实意义更大,当前政策文本计算比较注重政策词典和政策文本分析专用工具的研制。目前,主要有两类研究方法:

第一,测试通用文本分析工具在政策文本分析中的适用性。典型如政策情感分析领域,Lori Young等[51]对DICTION、LIWC、RID、TAS/C、ANEW、DAL、WNA、PMI以及LSD等众多情感分析词典的对比研究发现,LSD在选民情绪跟踪研究和对比研究中具有明显优势;Bei Yu等[32]则发现政策评论或政策演说文本中,情感词汇的使用频率明显低于普通文本,并且不同于一般情感分析主要负载于谓词描述,大量政策情感负载于名词性的体词描述中,需要结合上下文才能完全识别,因此在政策文本分类的算法中(SVM、NB),训练文本需更充足。

第二,研制政策分析专有词表和分析工具。典型如政策立场和政见研究中的WordScore算法和WordFish算法。两种方法都注重政策语词对政策内涵表达的影响权重差异,WordScore方法通过专家判定的参考文本作为政策语词权重依据,从而生成政策分析文本中政策内涵的表达效果,其实质是对词频结果进行语义加权处理,类似一种基于动态“词典”的分类算法;WordFish算法认为政策文本具有不同的政策特征向量,在某一特征中政策语词的概率分布符合泊松分布,因此可以通过一种类似非监督学习的方式对政策文本所蕴含的“政策立场”进行分类。由于WordScore算法的分类效果和可解释性优于WordFish,但分类效果受参考文本的影响大,在历时分析或跨文化环境的比较参考分析中效度不高。此外,政策文本计算因德语或北欧国家特有的构词方式而具有一定研究效度,而在英语地区却并不显著,这也是当前政策文本计算研究兴盛于德国和北欧,而英美地区进展缓慢的主要原因。

因此,政策文本分析词表、文本分析效度改进工具和跨语言政策文本分析工具都是目前政策文本分析工具研究的热点问题。

5 政策文本计算的应用前景与障碍

政策文本计算方法是大数据环境下政策分析科学与计算科学交叉融合的产物,目前已经形成了较为稳定的研究议题和研究队伍。随着政策文本资料的日益丰裕以及大数据分析方法日益为社会科学研究者所采纳,可以预见未来政策文本计算在精细化政策分析和定量政治研究领域具有广阔的研究前景。

5.1 政策文本计算的应用前景

就政策文本计算的应用领域而言,精细化政策分析主要体现在政策预测、政策冲突分析与政策辅助决策、元政策评价与政策比较等研究领域,定量政治研究则体现为政党研究、政治立场、政治态度、政策认同、政治联盟以及选举、外交等政治活动领域。

第一,政策文本计算在精细化政策分析领域已经具有研究基础,尤其在语料库政策语言分析中形成了相对成熟的研究框架。首先,计算方法的引入提供了跨语料分析和实时语料分析的研究可能,对政策预测的时效性和精确度都将大大提升;其次,计算方法的引入将改进政策分析的精度和深度,在政策制定中不同政策源的立场识别和主题识别可以避免显性的政策条款冲突,同时对政策主题关系识别也能评判政策相似度或政策形式质量预判,辅助政策制定决策;再次,通过政策文本与政策语义的对应关联,能够挖掘政策的潜在语义和元政策要素,从政策价值、政策倾向、政策工具、意识形态等高度评价或比较不同时期、不同地域甚至不同国别的政策差异,更好地跟踪政策扩散过程,促进政策学习与创新。

第二,定量政治研究则融合了政治学、媒介理论以及政党研究的理论视角,能通过泛在的政策文本载体,识别公众的政治态度、政治立场以及不同主体之间的政治互动关系,进一步通过政治文本解析框架可以分析政治立场、政治距离和政治关系紧密度,从而发现政党合作、国际合作的潜在空间;另一方面,通过不同政治参与主体的互动机制,可以在政策认同、政党监督、政党竞争以及选情预测等领域进行有效分析。

5.2 政策文本计算的应用障碍

正如国内外学者对人文社会科学计算方法的担忧[13,52-53],政策文本计算不论从方法论本身,还是从应用场景的研究效度看,其只能作为决策分析工具,而无法替代政策分析者本身。究其原因,首先,政策文本语料库的局限。语料库具有一定时效性与完备性限制,而语料库规模和多样性是政策文本计算分析效度的关键,但语料库构建成本和可用技术的限制使得语料库很难完全满足政策分析者的需要;其次,文本挖掘和相关计算分析方法的局限。文本挖掘结果的呈现是抽象的或数据化的,只有结合相关的应用背景才能完全理解相关内涵;文本挖掘或计算分析注重研究创新点的突破,很难兼顾整体研究面的覆盖,因而其结论往往是片面的、非系统的;文本计算分析方法是探索性分析方法,其研究结论是非可预期的、不确定的,而文本语料库建设是高成本的,政策文本计算具有一定的研究风险;第三,政策文本算是跨学科研究方法,需要政策研究和计算机研究学者的紧密配合,而实际研究过程中很难兼顾二者。

因此,在未来的政策文本计算研究实践中,一是需要加强学科合作,推动专业化的政策语料库的建设,开发适用于政策文本分析的工具;二是政策文本计算研究具有良好的中立性与客观性,国家应该在智库建设和国际政策比较研究中更加重视政策量化和定量政治研究。

参考文献:

[1] Chilton P A,Sch?]ffner C.Politics as text and talk:analytic approaches to political discourse[M].John Benjamins Publishing,2002.

[2] E.M.Trauth.An integrative approach to information policy research[J].Telecommunications Policy,1986,10(1): 41-50.

[3] 李江,刘源浩,黄萃,等.用文献计量研究重塑政策文本数据分析――政策文献计量的起源、迁移与方法创新[J].公共管理学报,2015(2):138-144.

[4] 杨正联.公共政策文本分析:一个理论框架[J].理论与改革,2006(1):24-26.

[5] 黄萃,任|,张剑.政策文献量化研究:公共政策研究的新方向[J].公共管理学报,2015(2):129-137.

[6] Beauchamp N,Laver M,Nagler J,et al.Using Text to Scale Legislatures with Uninformative Voting[EB/OL].[2016-09-20].http:///work/Beauchamp_scaling_current.pdf.

精选范文
相关文章
推荐期刊