宁波seoesball提款:单击Login按钮便能看到Heritrix的主界面

发布时间:2018-09-22 18:48

  弹出NewJavaClass对话框,在这个对话框中可以对要创建的类进行一些定制,如图8-25所示。这里,去掉Inheritedabstractmethods复选框前边的勾,选中publicstaticvoidmain(String3叹3[])复选框。类名取名为Test,包名com.myclass。单击Finish按钮。
  图8-25NewJavaClass对话框
  如图8-26所示,Eclipse已经生成了部分代码。
  图8-26创建好的Test类
  在main方法中添加如下代码。
  packagecom.myclass;publicclassTest{/**

单击Login按钮便能看到Heritrix的主界面的图片189

  *@paramapgs.
  */
  publicstaticvoidmain(String[]args){Z/TOOOAuto-generatedmethodstub

单击Login按钮便能看到Heritrix的主界面的图片185

  System,out.printIn(“HelloWord!”);}
  该行代码的作用是在控制台中输出HelloWorld!;接下来,运行这个工程。右键单击TestProject,在弹出的菜单中选择RunAs,再选择JavaApplication,如图8-27所示。

单击Login按钮便能看到Heritrix的主界面的图片195

  在右下方的控制台处,即可看到运行结果,如图8-28所示。
  图8-28控制台输出结果
  Tomcat的安装与配置
  将Tomcat的压缩包解压,本头例将Tomcat解压到了C:\ProgramFiles下,如图8-29所示。
  解压后
  apache-to)?cat-5.6.23
  Q回?
  文件编辑C£)查EURa)收《00工具a)帮助QI)◎后退,$z.搜索。文縣圃。

单击Login按钮便能看到Heritrix的主界面的图片192

  C:\ProgrwnFiles\ap&che-tomcat-5523
  Proarai,?>!<;?;OWtSC档'd共享文档J獅电脑!网上郐居sij」5u文3BM文7
  LJUJUJisE
  webapps
  BNOTICE
  文件1KP-
  姻拗I
  lJconf
  uJ*ork
  RELEASE-NOTES
  文件?EB
  u
  图8-29Tomcat目录结构
  设置Tomcat的环境变量TOMCAT_HOME,值为Tomcat的根目录路径,例如图8-30所示,TOMCAT—HOME变量的值为C;\ProgramFiles\Apache-Tomcat-5.5.23。即TOMCAT_HOME=c:\ProgramFiles\Apache-Tomcat-5:5.23。设置好环境变量后,测拭一下Tomcato痛To篇cat
  \jdkl.0\hin;.;C:\U1NDOW8\S?nin;C:\WINDOURv:;ysten32;C:\WINDOWS;G:\Pro?/rapiFiles\TbinkPod\lltilities;C:\WINDOWS\systen32;C:\WIHDOWS;C:\W1NDOWSxSy:;tei?32\Uben;e:\ProgranFiles\Intel\Wireless\Bin\;C:\ProgranFiles\Tbinl

单击Login按钮便能看到Heritrix的主界面的图片183

  -11-1W12:45:11org.apache.catalina.core.StandardEnginestartStartingSei*uletEngine:ApacheToncatzS.5.232007-11-1012:45:11o?*  J

单击Login按钮便能看到Heritrix的主界面的图片193

  图8-30启动Tomcat
  打开bin文件夹,运行startup,bat这个文件,这时,Tomcat会启动,并监听8080端口,运行结果如图8-30所示。
  打开浏览器,输人http://localhost:8080(或者http7/127.0.0.1:8080),如果看到如图8-31所示的界面,表明Tomcat运行正常。
  图8-31Tomcat主页
  如果要关闭Tomcat,回到bin文件夹下,双击shutdown,bat文件,即可关闭Tomcat。接下来,在Eclipse中配置一下。单击Eclipse菜单中的Window—〉Preferences选项,在弹出的Preferences对话框中展开Server,选中InstalledRuntimes,如图8-32所示。
  图8-32Eclipse中配置Tomcat
  单击Add按钮,看到一个新的窗口,如图8-33所示图8-33添加新的Server
  展开Apache选项卡并选中ApacheTomcatv5.5,然后选择Tomcat安装的路径,如图8-34所示。完成后,单击Finish按钮。这样Tomcat在Eclipse中就配置好了。
  图8-34选择Tomcat安装的路径
  Heritrix的安装与配置
  本实例所用的为Heritrixl.10.1的源代码版本。之所以采用源代码版本,是因为本实例中,需要对Heritrix进行一些扩展,以适应本实例的需求。将Heritrix的压缩包解压,解压后的文件如图8-35所示。
  目录中的lib和src是本实例需要的两个文件夹。lib文件夹下存放的是Heritrix运行时所需要的第三方类库,src文件夹下就是Heritrix的源代码。
  在Eclipse中打开菜单File|new|JavaProject,并在Projectname中输人Heritrix,这样就新建了一个项目名称叫做Heritrix,同时将源代码文件夹下的lib文件夹拖放置新建好的项目工程Heritrix下,如图8-36所示(以下简称Heritrix)。

单击Login按钮便能看到Heritrix的主界面的图片188

  Wherittix-1.10-1
  BB?
  图8-35Heritrix目录结构
  图8-36Heritrix工程
  单击菜单栏的Window,选择OpenPerspective中的Java,将当前视图设置成Java视图,如图8-37所示。

单击Login按钮便能看到Heritrix的主界面的图片194

  右键单击Heritrix,在弹出的菜单中选择BuildPath|ConfigureBuildPath,弹出PropertiesofHeritrix窗口,选择Libraries选项卡,单击右边的AddExternalJARs…按钮,将刚才添加到项目工程Heritrix的lib文件夹下的所有的。jar文件选中,单击”打开“按钮,如图8-38所示。
  在图8-39中,单击OK按钮就完成了运行库的添加任务。
  将位于Heritrix源代码文件夹下的src\java\的org和st两个文件夹直接拖进Heritrix工程的src下,CustomizePerspective.SavePerspectiveAs…ResetPerspectiveClosePerspectiveCloseAllPerspectivesNavigation?
  jCc'.WorkingSets
  WebBrowser
  Preferences…
  图8-37设置Java视图
  JARSelection
  SB
  图8-38选择lib文件夹下的所有。jar文件
  图8-39添加运行库
  如图8-40所示。
  注意,当添加完后可能会报错,只是因为Eclipse默认的编译版本为1.4,所以要改成5.0或者6.0版本。单击菜单中的Window,选择Preferenceso之后,展开左边的Java选项,单击其中的Compiler,如图8-41所示。将Compilercompliancelevel改成6.0o将位于Heritrix源代码文件夹下的src\conf\下的所有文件和文件夹拖至Heritrix工Java-TestProject/src/co?/?yclass/Test-java-EclipsePlatforas叵晒
  fileEditSourceR*fftcX?rNavigateS?$rchprojectguiiWindow铃,O,<1,忐滋该,为趋V:
  fiBKi
  o,(V
  r-SYffiT?t.j?va
  packagecoro.mycla3S;
  publicclassTest
  區1T*skListf‘、
  tUncategoriied
  lii-^org.apache.
  (£?班org-apache.

单击Login按钮便能看到Heritrix的主界面的图片182

  !Borg.apache,ffi-org.archive申激orS-archiv*Sit趣org.archiv*
  |£?讓org.archive$?org.archiv<
  org.archivel£l班org.archivt
  SI-爆org.?rchiv<
  Siorg.?rchiv(
  ffiorg.archivev
  args
  publicstaticvoidmain(St.f
  ifTODOAut-o-geueESitec國
  System.out.printIn(”HelloWore疆>
  Problems('>'Jav^doc:私Declarati0Test[JavaApplication]
  IOutline,’、

单击Login按钮便能看到Heritrix的主界面的图片191

  &m7
  厂曲1
  a???

单击Login按钮便能看到Heritrix的主界面的图片187

  myclass
  exu
  mainString门)
  uu:、+
  国ConsoleK;
  X,/m.
  r3*:
  ;a4
  电par
  图8-40添加后的结果
  图8-41修改Compiler
  程下的sre内,在sre内找到heritrix.properties并打开,如图8-42所示。该文件是Heritrix的配置文件,在“heritrix.cmdline.admin=”后边添加用户和密码,格式如admin:admin,在登录Heritrix的管理界面时需要此用户名和密码。在配置文件中还能够指定Heritrix管理界面的访问端口,图中所示为8080端口。
  将Heritrix源代码文件夹下的sre下的其他文件夹,即除conf和java两个文件夹以外的所有文件夹,拖至Heritrix项目工程下,图8-43所示的为Project所对应的实际文件目录下的情况。
  至此,Heritrix已经可以运行起来了。运行Heritrix,单击菜单栏中的Run,选择Open图8-42Heritrix配置文件
  图8-43创建好的Heritrixg录结构
  RunDialog,弹出对话框如图8-44所示。
  在图8-44中单击Search按钮,出现图8-45所示的画面,在此画面中输人Heritrix后,单击OK按钮。之后出现如图8-46所示的画面。
  单击图8-46所示对话框下边的Apply按钮,然后单击Run按钮,Heritrix在控制台输出一段信息,如图8-47所示。这就表示Heritrix已经运行成功了。
  图8-44Heritrix启动配置
  图8-45SelectJavaApplication窗口
  图8-46Heritrix启动配置
  Heritrix/src/heritrix.proper!les-EclipsePlatfora£il?£ditSourceRefactor;門、;昝▼o,g*vic?t?Scyck£roj*ctgun£i&dow){?lpOf:邊班?,:dta.
  ::圃
  Hi
  ‘“a”
  <-ja%鲈
  lUESaSSB
  由,讲src

单击Login按钮便能看到Heritrix的主界面的图片181

  田-城JRESyst??Libru1£R?f*rencedLibr?睽-’磁articlesOncc田驗>dtsicnlib
  田‘驗resources$驗scripts9-^w?b^ps:田終xsdl±lT?itProj?ct?T?st.j*v?^1htritrix.properties£3c’。?Propertleswitn?t)^ric^jt.or,'o^.arcr(tfintoSystem.propertiesonstartupso
  ffVersionisfilledinbythewgygg.jgn1林currentVersionproperty,heritrix.version-1.10.1#Locationoftheh^titrizJobsdirectory,heritrix.jobsdir=jobs林Defaultgcjznnwifi^}J.J.^xe;startupvalues.
  #Belowvaluesareusedifunspecifiedon
  heritrix.cwdline.adxnin=admin:adminheritrix.cmdline.port-8080A<.>
  L*Problems(ivJavadoc[v,;Declaration;?Console?'Heritrix[JavaApplication]C:\Progr??Fil?s\Jav?\j05:01
  :01
  :01
  □5:01
  :01
  惠泰
  B回gi

单击Login按钮便能看到Heritrix的主界面的图片190

  購TaskListgsX“
  场Uncalegorized

单击Login按钮便能看到Heritrix的主界面的图片186

  i'Sso
  ”s'
  Anoutiia*isnotavailable
  ?KGr'j,
  gcax.r;‘in,3.Jetcyz^.'sfzy——*——W
  EVENTStarcedWebApplic?*itlonContext(/,HeritrixConsole]M000EVENTTheacvacchDiryouspecified:G:\-Java\workspace\HeSStartedSocketListeneron127.0.0.1:8080
  EVENT062EVENT
  Heritrixversion:1.10.1
  Startedocg.mortbay.jetty.Serve.c0IbfJ*v*)J  X
  图8-47控制台出现的信息
  启动浏览器并在浏览器的地址栏中输人http://localhost:8080便可看到Heritrix的登录界面,如图8-48所示。
  图8-48Heritrix首页
  在图8-48中用户名和密码处分别输人在配置文件中输人的admin和admin,单击Login按钮便能看到Heritrix的主界面,如图8-49所示。
  图8-?Heritrix控制台界面
  前边已经介绍了,本实例网页捜集部分将会使用开源的Heritrix作为爬虫(或蜘蛛程序),但如果不告诉Heritrix需要什么样的网页,Heritrix会将它所能爬到的网页全部抓取下来,因此,要先定制Heritrix,使它满足本实例的需求。
  设置Heritrix抓取任务
  启动Heritrix,并进入图8-48所示的Heritrix起始页面。输人用户名admin和密码admin,便可进人到Heritrix的控制台页面,如图8-49所示。
  在图8-49所示的画面中,首先要为Heritrix定制一个任务。单击Job,选择Withdefaults之后,出现图8-50所示的画面。在此画面中要输人此次任务的名称、描述以及种子图8-50Heritrix中设置Seeds
  所谓种子,就是Heritrix的开始抓取的页面,通常会选取一些门户页面或者导航页面作为Seeds,因为这样的页面里链接很多,是某个esball.net的人口,从这里实行抓取才能最大限度地遍历整个esball.net。在这里设置了北京林业大学的首页http://www.bjfu.edu.cn作为Seeds,主要目的就是搜索北京林业大学校内esball.net的内容。
  然后,单击Modules按钮,在这个页面要为此次任务设置各个处理模块,如图8-51所示。
  图8-51设置各个处理模块
  图8-51中,有很多的选项,逐一进行设置。在SelectCrawlScope标题下,在CrawlScope选项中,选择org.archive,crawler,scope.BroadScope,并单击右边的Change按钮。如图8-52所示。需要注意的是,每次设置一项都要单击右侧的按钮才会记录设置状态。
  图8-52设置CrawlScope
  在SelectURIFrontier标题下,在URIFrontier选项中,选择org.archive,crawler,frontier.BdbFrontier,并单击右边的Change按钮,如图8-53所示。

单击Login按钮便能看到Heritrix的主界面的图片184

  图8-53设置URIFrontier
  在SelectPreProcessors标题下,选择org.archive,crawler,prefetch.Preselector和org.archive,crawler,prefetch.PreconditionEnforcer,并单击右边的Add按钮,如图8-54所示。
  图8-54设置PreProcessors

单击Login按钮便能看到Heritrix的主界面的图片180

  在SelectFetchers标题下,选择org.archive,crawler,fetcher.FetchDNS和org.archive,crawler,fetcher.FetchHTTP,并单击右边的Add按钮,宁波seoesball提款如图8-55所示。
  在SelectExtractors标题下,选择org.archive,crawler,extractor.ExtractorHTTP和org.archive,crawler,extractor.ExtractorHTML?并单击右迈的Add按钮,如图8-56所示。
  在SelectWriters标题下,选择org.archive,crawler,writer.MirrorWriterProcessor,并单击右边的Add按钮,如图8-57所示。
  tHeritrix:Adjustaodules-licrosoftInternetExplorer□回?
  图8-55设置Fetchers
  图8-56设置Extractors
  图8-57设置Writers
  本文转载自
  宁波seoesball提款www.leseo.net
Seoesball.netesball提款相关拓展:
如何做好SEO搜索引擎esball提款?
seo高清视频在线观看
一篇读懂SEO、SEM区别与优劣势!
单页SEO站群技术用10个esball.netesball提款排名
为什么放弃了SEO这个标签,过时了吗?
seo是什么意思?
SEO是什么
SEO搜索esball提款软件
如何做好SEO的基本步骤
SEO工作职责及工作流程
搜索引擎esball提款(搜索esball提款)
关于esball世博
esball世博介绍
esball世博思维
人才招聘
使用条款
隐私保护
RSS订阅
esball.net地图
新闻动态
esball世博观点
行业动态
频道介绍
服务介绍
案例展示
品牌研究
品牌理论
品牌体系
联系我们
400-680-2900
社会媒体
微信公众平台
微信公众平台
<友情连结> 宁波斯博网络科技有限公司/ 宁波易企网络科技有限公司/ 宁波云网网络科技有限公司/ 围子里新闻/ 晋江市财经/