首页 > 论文范文 > 社科论文 > 基于异步JavaScript技术的水稻病虫害图像网络爬虫设计_免费论文全文下载

基于异步JavaScript技术的水稻病虫害图像网络爬虫设计_免费论文全文下载

申明:本网站内容仅用于学术交流,如有侵犯您的权益,请及时告知我们,本站将立即删除有关内容。

【摘 要】本文的设计是水稻病虫害信息的网络爬虫程序,通过多线程方法对特定的URL进行分析、去重,获取到水稻病虫害信息内容,然后将获取的信息内容进行下载并进行分类,用户可通过该网络爬虫程序下载的图像进行水稻病虫害图像的研究。该网络爬虫程序的设计与实现,便于人们对水稻病虫害的技术研究和农业科技的发展。

【关键词】网络爬虫;水稻病虫害;多线程;搜索策略
随着计算机和互联网技术的不断成熟和大量使用。怎样快速的帮用户在茫茫的互联网的海洋中找到需要的信息,已经成了互联网研究的一项重要的内容。为了让用户在互联网中快速有效的进行互联网搜索信息,一类被称为搜索引擎的搜索工具随之产生,给用户和他们所要搜索的信息之间提供了一座桥梁。而搜索引擎最重要的部分是网络爬虫,所以网络爬虫为搜索功能的实现奠定了重要的基石。
水稻是我国最重要的食品之一,在我国种植面积很大,分布全国各个地区。而影响我国每年的水稻产量的重要因素之一就是水稻的病虫害的发生,其控制水稻病虫害发生的问题一直是提高水稻产量的重要且急需解决的问题。
为结合科技力量进一步加快水稻病虫害防治的研究步伐,本文拟采用水稻病虫害图像网络爬虫搜索引擎,进一步推进水稻病虫害研究,有效改善水稻生产,进一步地促进我国水稻病虫害的法治,让我国的水稻产量得到有力的提升。
1 国内外研究现状
目前,基于爬虫技术的搜索引擎在互联网技术的飞速发展中闪耀,给农作物病虫害防治的研究提供了技术上的支持。同时,发达国家对水稻等作物病虫害防治情况的大力关注,越来越多的国家和机构加入使用爬虫技术来控制病虫害行列中来。
随着科学技术和生活水平的提高,网络已经成为人们生活的一部分,各种搜索引擎纷纷涌现,作为基础技术的爬虫技�g也越来越成熟,国内许多搜索引擎巨头如百度,搜狗等等迅速向前推进,分别推出了各自的搜索引擎系统。同时,中国的“五年计划”高度关注农业发展,使得爬虫技术在农作物病虫害防治的问题上越来越受到公众的关注。
2 网络爬虫的定义
网络爬虫(也称为蜘蛛)是一种客户端程序或脚本,顾名思义,网络爬虫能像“蜘蛛”一样在特定的范围内获取到所需要的信息,网络爬虫是根据某些特定的规则来自动抓取网络上的信息。而且网络爬虫是搜索引擎的重要组成部分,通过对网页的自动提取,能从网页获取到搜索引擎所需的页面。在爬取网页信息时,为获取初始页面的URL列表,需从一个或多个初始网页的URL进行抓取,在抓取的过程中,自动将当前页面的新URL从队列中分类到抓取状态,直到满足系统的停止条件为止。
3 水稻病虫害图像网络爬虫设计
3.1 网络爬虫的模型分析
首先是抓取URL链接地址。从URL地址抓取开始,先确定URL是否重复,然后根据预先设置的广度来抓取图像,搜索图像时通过设计的算法和排序方式来进行搜索。搜索完成后将与主题相关的图像筛选出来,然后将筛选后的图下像载到本地中,与此同时也通过jdbc将图像存储到数据库中。然后任务列表再次开始抓取URL,使网络抓取器运行,依次循环,直到要抓取的URL线程完成为止。
3.2 网络爬虫的搜索策略
广度优先搜索策略是在当前搜索级别完成之后再执行下一级搜索。在尽可能多的页面的覆盖范围内,通常使用广度优先搜索方法来抓取用户所需要的信息,同时也因为该算法的设计和实现相对简单。有许多研究将广泛优先搜索策略应用于聚焦爬网程序。基本思想是,初始URL与页面之间的距离内具有一定的链接与主题的相关程度很大。另一种方法是使用广度优先搜索和网络过滤技术,首先采用广度优先策略来抓取页面,然后不相关的页面过滤掉。这些方法的缺点是随着爬网数量的增加,大量不相关的页面将被下载和过滤,并且算法的效率会降低
3.3 水稻病虫害图像网络爬虫设计
本设计通过研究异步JavaScript网络爬虫系统的关键技术问题,采用基于对象的程序切片算法,以及脚本执行引擎与切片模块的互操作技术进行设计。
将功能模块分为前台界面显示和后台数据抓取存库。前台界面显示主要分为两个部分:搜索导航部分和数据显示部分。界面分上下两个部分,上部分为搜索导航部分,比占40%;下部分为数据显示部分,比占60%。上部分是用来关键字搜索导航,对要搜索的水稻病虫害关键字进行全站搜索;下部分是用来显示搜索到的数据,用表格的形式分别显示水稻病虫害图片和相关介绍信息。后台数据抓取存库主要分为两个部分:抓取水稻病虫害数据和数据存入数据库。
通过关键字来获取并下载水稻病虫害图像主题的网络爬虫程序,下载满足客户需求的水稻病虫害图像。根据用户的不同需求,水稻病虫害主题网络爬虫程序需要实现以下目标:基于多线程设计,下载用户需求的所有的水稻病虫害图像,筛选出用户所需要的图像通过一定的正则表达式和算法,通过关键字来获取水稻病虫害图像主题的一个网络爬虫程序,通过设定的关键字来爬取网络上的图像,并下载满足客户需求的图像。
4 小结
运行爬虫程序后,在控制台输入要爬取的图像关键字,程序会在本地中生成一个image文件夹,文件夹内容包含html、img、txt三个文件夹,还有一个url.txt文本文件。Img文件夹是保存爬取下载的水稻病虫害图像,根据水稻病虫害的分类,img文件夹中可以实现八类不同病虫害图像的文件:稻曲病图像、稻瘟病图像、恶苗病图像、胡麻叶斑病图像、霜霉病图像、纹枯病图像、小球菌核病图像、叶鞘腐败病图像。
【参考文献】
[1]王艳阁.主题微博爬虫的设计与实现[D].中原工学院硕士论文,2013.
[2]于成龙,于洪波.网络爬虫技术研究[J].东莞理工学院学报,2011,18(3):25-29.
[3]曾伟辉,李淼.基于JavaScript切片的AJAX框架网络爬虫技术研究[J].计算机系统应用,2009,18(7):169-171.
[责任编辑:朱丽娜]

本站内容均来自互联网,仅供演示用,请勿用于商业和其他非法用途。如果侵犯了您的权益请与我们联系,我们将在24小时内删除。QQ:522-52-5970