Nutch 搜索引擎

开源网站开源项目 24-06-01 13:17:06

Nutch是一个开源Java实现的搜索引擎。它提供了我们运行自己的搜索引擎所需的全部工具。包括全文搜索和Web爬虫。

Nutch的创始人是Doug Cutting,他同时也是Lucene、Hadoop和Avro开源项目的创始人。Nutch诞生于2002年8月,是Apache旗下的一个用Java实现的开源搜索引擎项目,自Nutch1.2版本之后,Nutch已经从搜索引擎演化为网络爬虫,接着Nutch进一步演化为两大分支版本:1.X和2.X,这两大分支最大的区别在于2.X对底层的数据存储进行了抽象以支持各种底层存储技术。在Nutch的进化过程中,产生了Hadoop、Tika、Gora和Crawler Commons四个Java开源项目。如今这四个项目都发展迅速,极其火爆,尤其是Hadoop,其已成为大规模数据处理的事实上的标准。Tika使用多种现有的开源内容解析项目来实现从多种格式的文件中提取元数据和结构化文本,Gora支持把大数据持久化到多种存储实现,Crawler Commons是一个通用的网络爬虫组件。

Nutch 致力于让每个人能很容易, 同时花费很少就可以配置世界一流的Web搜索引擎. 为了完成这一宏伟的目标, Nutch必须能够做到:

每个月取几十亿网页

为这些网页维护一个索引

对索引文件进行每秒上千次的搜索

提供高质量的搜索结果

以最小的成本运作

在线Javadoc:http://tool.oschina.net/apidocs/apidoc?api=nutch2.0

[Nutch 搜索引擎]相关推荐
Eruda 手机网页前端调试面板

Eruda 手机网页前端调试面板

前言 进行移动端网页开发时,想要查看手机浏览器信息从来都不是一件容易的事。特别是当目标环境为APP内置……...

RobotJS GUI 自动化工具

RobotJS 是一个 Node.js 的 GUI 自动化工具,可用来控制鼠标、键盘和读取屏幕。 目前自在 Mac + Node.js ……...

jrtplib 流媒体实时传输开发包

RTP 是目前解决流媒体实时传输问题的最好办法,如果需要在Linux平台上进行实时流媒体编程,可以考虑使用……...

今日开源
  1. PySide Python for Qt

    PySide 项目的目的是提供一个 LGPL 的 Python 绑定 Qt开发平台。 在 Qt 的 Python 的项目旨在提供一个完整的端口 PySide 模块。 该模块于2018年6月中旬作为技术预览版发布(支持Qt 5.11),并于2018年12月针对 Qt ……

    开源软件 2024-06-28

  2. Harmonai:音频生成开源工具 让每个人都可以轻松制作音乐

    Harmonai:音频生成开源工具 让每个人都可以轻松制作音乐

    Harmonai,由Stability AI Lab支持的开源项目,致力于让音乐制作变得更加容易和有趣。该模型利用先进的AI算法,可以生成定制的无限音乐库,为用户提供高品质、创新性的音乐资源,让用户可以轻松地创作多元化的音乐……

    AI 2024-06-28

  3. OkHttp 轻量的 Java 网络请求框架

    okhttp 是一个 Java 的 HTTP+SPDY 客户端开发包,同时也支持 Android。 示例代码: OkHttpClientclient=newOkHttpClient();Stringget(URLurl)throwsIOException{HttpURLConnectionconnection=client.open(url);Inp……

    开源软件 2024-06-28

返回顶部小火箭