网站首页 | 经济学论文 | 证券金融 | 管理学 | 会计审计 | 法学论文 | 医药学论文 | 社会学论文 | 教育论文 | 计算机 | 艺术论文 | 哲学论文 | 财务管理 |
写论文网
  • 证券投资论文
  • 金融研究论文
  • 期货市场论文
  • 债务市场论文
  • 银行管理论文
  • 公司研究论文
  • 保险学论文证
  • 您的位置:写论文网 > 证券金融 > 证券投资论文 > 2019流感预测 基于Hadoop ... 正文 2019-08-04 08:38:26

    2019流感预测 基于Hadoop 的通用流感预测研究

    相关热词搜索:

    【关键词】大数据 网络爬虫 分布式平台 非

    结构型数据库 地图应用

    随着互联网的深入应用,数据爆炸式增

    长,我们需要从这些数据中挖掘有价值的信息,

    帮助人们发现早期的疾病暴发。2013 年流行

    病学调查显示,80% 左右的人感染H7N9 禽流

    感病例有明确的活禽市场暴露史, 说明对大数

    据的处理有利于医学研究。日前,Google 仅

    实现数据统计,百度大数据只有疾病预测框架。

    我们要考虑:大数据的多元异构性,数

    量过大,难以分析和存储。从数据来源直至最

    后的直观显示,是一个缓慢繁杂的过程,很难

    构成一套体系。

    本文建立流感预测模型,通过爬虫使数

    据同构化,使用Hadoop、Cassandra 技术,以

    Google API 为辅给用户带来直观方便的使用体

    验。

    1 研究框架

    1.1 设计与流程

    基于分布式,采用爬虫、非结构化数据

    库和地图构建研究系统并进行相关实验。

    通过爬取网络信息得到流感数据,对数

    据进行整理运算,在伪分布平台下,利用相关

    存储结构及计算框架得到所需结果;将结果存

    储在非结构型数据库并在地图中显示,根据用

    户地理信息查询信息;利用SIR 模型计算流感

    比例,告知流感程度。

    1.2 网络爬虫

    利用爬虫,从指定URL 开始,发送请求,

    用正则表达式匹配链接内容,得到有效链接,

    将其存储到待抓取队列,解析该队列,下载对

    应网页。将已解析的URL 放进已抓取队列,

    避免重复抓取。

    1.3 搭建分布式平台

    研究基于Hadoop,流程由图一给出,其

    中包含两个部分:

    文/杜舒舒 赖振意 马衡 钱昔勇

    日前,公共卫生问题在国际

    范围内成为热点,流感预测系统

    的数据数量过大,来源繁多,其

    数据的处理,存取速度偏低。为

    改善此状况本研究利用计算机技

    术预测流感的爆发时间及程度:

    基于分布式平台,非结构化数据

    库和爬虫技术,一定程度上解决

    了数据来源,处理,存取速度的

    问题。实验表明该研究可以较好

    的预测流感的爆发趋势。

    摘 要

    (1)实现对原始数据进行初步加工,找

    出每个地区每星期的患病人数,并按照日期排

    序,为每个国家及国家各个地区建立索引;

    (2)计算出每个国家每个地区每隔一星

    期的人数差值,从而方便对疾病爆发趋势进行

    分析,对记录进行分组,并找出同一组记录间

    的差值。

    1.4 非关系型数据库

    使用非关系型数据库,采用客户端来进

    行客户端和数据库的通信,同时编写接口供后

    台系统查询,构建三个列族来存储流感数据:

    (1)CityPopulation——存储每个城市各

    个时期的人口;

    (2)CityFluerNumber——存储每个城市

    各个时期患流感的人数;

    (3)CityFluLevel——存储每个城市各个

    时期的流感等级。

    2 预测流感模型的应用

    本文基于Hadoop, 利用Python,

    Cassandra 和GoogleMap API 实现该研究,在

    此基础上进行仿真实验:实验使用SIR 仓室模

    型,使用2015 年1 月到4 月巴西登革热流感

    数据进行预测,表一给出对比,图二给出趋势

    预测与实际对比图,结果表明:

    (1)预测趋势与实际流感趋势相似;

    (2)对于增幅或降低明显的数据预测结

    果更加准确;

    (3)若人数变化不明显会影响预测结果,

    相对于变化趋势偏高。

    3 结束语

    通过研究和实验表明,基于分布式平台

    对流行病大数据进行处理分析可以相当可靠的

    预测爆发程度和趋势。该研究克服了不能存储

    分析过大数据的不足,利用非结构化数据库与

    分布式平台快速有效的分析大数据,得到结论。

    当前研究仅适用一种流行病预测,之后只需要

    更改部分模型,可适用于各大方面大数据分析。

    参考文献

    [ 1 ] G a o R , C a o B , H u Y , e t a l . H u m a n

    i n f e c t i o n w i t h a n o v e l a v i a n -

    origin influenza A(H7N9) virus[J].

    N e w E n g l a n d J o u r n a l o f M e d i c i

    ne,2013,368(20):1888-1897.

    [ 2 ] X J i a n g u o , L S h a n , W H a i y i n , C

    C h e n . R e d u c i n g e x p o s u r e t o

    a v i a n i n f l u e n z a H 7 N 9 [ J ] . L a n c

    et,2013,381(9880):1815-1816.

    [3] 卢珊, 陈晨, 于伟文, 等. 利用网络爬

    虫技术分析我国活禽贸易与H7N9 禽流

    感病毒传播的关系[J]. 中华流行病学杂

    志,2014,35(3).

    [4] 李学龙, 龚海刚. 大数据系统综述[J].

    中国科学: 信息科学,2015(1).

    [5] 董新华, 李瑞轩, 周湾湾, 等.Hadoop 系

    统性能优化与功能增强综述[J]. 计算机

    研究与发展,2013,50(z2).

    [ 6 ] K e r m a c k W O , M c k e n d r i c k A G .

    Contributions to the Mathematical

    Theory of Epidemics, Part I[J].

    Bulletin of Mathematical Biology,

    1991,53(1-2):33-55.

    作者单位

    新疆大学软件学院 新疆维吾尔自治区乌鲁木

    齐市 830000

    ●项目来源:自治区级大学生创新实践计划项目“Hadoop 平台下的流行病大数据挖掘系统”(项目编号:xju-srt-15144)项目负责人:杜舒舒;

    指导教师:钱育蓉。

    图1:分布式系统处理流程

    图2:实验预测趋势与实际趋势比对图

    表1:实验结果比对表

    月份

    预测实验数据准确率

    趋势程度人数趋势(较上月)趋势

    四月上升注意预防230 上升100%

    五月上升警惕263 上升100%

    六月上升爆发262 平缓60%

    七月平缓爆发231 下降70%

    八月下降警惕203 下降100%

    合计86%

    • 范文大全
    • 教案
    • 优秀作文
    • 教师范文
    • 综合阅读
    • 读后感
    • 说说
    2019流感预测 基于Hadoop 的通用流感预测研究》由(写论文网)整理提供,版权归原作者、原出处所有。
    Copyright © 2019 写论文网 All Rights Reserved.