安卓源码Asp源码Php源码.Net源码Jsp源码其它源码JS特效程序插件程序模板书籍教程
高级搜索
关键字:Discuz!  Axure  团购系统
最新更新发布资源提建议收藏本站
网站源码下载
当前位置:A5源码 > 源码下载 > 其它源码 > 其他网站源码 > Apache Nutch v2.3.1

Apache Nutch v2.3.1

  1. 资源链接:[ 下载地址 ]  [ 评论报错 ] [ 购买源码 ]
  2. 授权方式:免费软件
  3. 界面语言:简体中文
  4. 文件大小:7.19 MB
  5. 更新时间:2018-01-07
  6. 资源类型:国产软件
  7. 推荐等级:★★★☆☆
  8. 平台环境:Win2003,WinXP,Win2000,Win9X
  9. 作者主页:点击查看
  10. 演示地址:点击查看
详细介绍 - [ Apache Nutch v2.3.1 ]
Nutch的创始人是Doug Cutting,他同时也是Lucene、Hadoop和Avro开源项目的创始人。Nutch诞生于2002年8月,是Apache旗下的一个用Java实现的开源搜索引擎项目,自Nutch1.2版本之后,Nutch已经从搜索引擎演化为网络爬虫,接着Nutch进一步演化为两大分支版本:1.X和2.X,这两大分支最大的区别在于2.X对底层的数据存储进行了抽象以支持各种底层存储技术。
在Nutch的进化过程中,产生了Hadoop、Tika、Gora和Crawler Commons四个Java开源项目。如今这四个项目都发展迅速,极其火爆,尤其是Hadoop,其已成为大规模数据处理的事实上的标准。Tika使用多种现有的开源内容解析项目来实现从多种格式的文件中提取元数据和结构化文本,Gora支持把大数据持久化到多种存储实现,Crawler Commons是一个通用的网络爬虫组件。
大数据这个术语最早的引用可追溯到Nutch。当时,大数据用来描述为更新网络搜索索引需要同时进行批量处理或分析的大量数据集。现在,大数据的含义已经被极大地发展了,业界将大数据的特性归纳为4个“V”。Volume数据体量巨大,Variety数据类型繁多,Value价值密度低,商业价值高,Velocity处理速度快。 Hadoop是大数据的核心技术之一,而Nutch集Hadoop之大成,是Hadoop的源头。学习Hadoop,没有数据怎么办?用Nutch抓!学了Hadoop的Map Reduce以及HDFS,没有实用案例怎么办?学习Nutch!Nutch的很多代码是用Map Reduce和HDFS写的,哪里还能找到比Nutch更好的Hadoop应用案例呢? 
Apache Nutch截图
Apache Nutch
相关阅读
同类推荐:站长常用源码  
下载地址 - [ Apache Nutch v2.3.1 ]
网友对“Apache Nutch v2.3.1”的评论
您喜欢这个源码么?
(0)
0%
(0)
0%
[ 下载地址 ][ 评论吐槽 ]
本类热门源码
  1. 源码推荐
  2. 软件推荐
关于我们联系我们发布资源广告服务合作伙伴网站地图版权声明与我们对话
齐乐娱乐下载