感谢支持
我们一直在努力
RackNerd Banner 468x60 RackNerd Banner 468x60

Nutch、Hadoop、Lucene、Solr 之间 的数据交互

Nutch1.4


最近一段在研究Nutch、Solr,Nutch 把数据 存放在 HDFS 上,想探讨一下 Nutch 是怎么把数据存储到HDFS 上,查看源码分析。


在看 Nutch 源码时,没有找到一点于 Lucene 关联的内容,Nutch 把所有的,都按自己的重新写了一遍,NutchDocument、NutchField ,都 实现 Hadoop的 Writable 接口。这样就很容易的写到了 HDFS 上。


Nutch 可以 用 把数据传输给 Solr


bin/nutch solrindex http://127.0.0.1:8983/solr/ crawldb -linkdb crawldb/linkdb crawldb/segments/*
这个命令调用的是:org.apache.nutch.indexer.solr.SolrIndexer 


在上面会 MapReduce 的配置 及启动。查看Reduce的实现,没有任何的 向Solr 写内容的代码,在初始化Job的时候


NutchIndexWriterFactory.addClassToConf(job, SolrWriter.class); 


有一个这样的类,SolrWriter ,在这个里面可以找到相关与Solr交互的代码。


而Solr 里,接收请求的是:BinaryUpdateRequestHandler ,会把 Nutch 传进来的 内容 转换成 Lucene 的索引。


更多Hadoop相关信息见Hadoop 专题页面 http://www.linuxidc.com/topicnews.aspx?tid=13

赞(0)
转载请注明出处:服务器评测 » Nutch、Hadoop、Lucene、Solr 之间 的数据交互
分享到: 更多 (0)