Colly 简单快速的 Web 爬虫框架

开源网站开源项目 24-07-04 16:50:38

Colly 是一个采用 Go 语言编写的 Web 爬虫框架,旨在提供一个能够写任何爬虫/采集器/蜘蛛的简洁模板。通过 Colly ,你可以轻松从网站中提取结构化的数据,然后进行数据挖掘、处理或归档。

项目特性

清晰明了的 API

快速(单个内核上的请求数大于1k)

管理每个域的请求延迟和最大并发数

自动 cookie 和会话处理

同步/异步/并行抓取

高速缓存

自动处理非 Unicode 编码

支持 Robots.txt

支持 Google App Engine

通关环境变量进行配置

可扩展

示例

funcmain(){c:=colly.NewCollector()//Findandvisitalllinksc.OnHTML("a[href]",func(e*colly.HTMLElement){e.Request.Visit(e.Attr("href"))})c.OnRequest(func(r*colly.Request){fmt.Println("Visiting",r.URL)})c.Visit("http://go-colly.org/")}
[Colly 简单快速的 Web 爬虫框架]相关推荐

Atom PHP唯一ID生成扩展

使用Twitter的Snowflake算法,有兴趣可以了解一下这个算法:https://github.com/twitter/snowflake php.in……...

MQTT 消息传输协议

MQ 遥测传输 (MQTT) 是轻量级基于代理的发布/订阅的消息传输协议,设计思想是开放、简单、轻量、易于实现……...

QQWry PHP的IP地址查询库

QQWry 是一个php扩展,实现语言为c。这个扩展的作用,就是根据ip来获取纯真数据库(QQWry.Dat)的地址信息……...

WSS 项目管理系统

WSS 项目管理系统

WSS(White Shark System)基于PMI®全球项目管理标准,专注于项目管理规范性、易用性、以及视觉效果。 主……...

LayaAir HTML5 开源游戏引擎

LayaAir 是 HTML5 开源引擎。 提供 Canvas 和 Webgl 同时渲染,如果 Webgl 不可用,则可自动切换到 Canva……...

今日开源
  1. knight HTTP 服务器

    knight 是一个 Go 语言写的 HTTP 服务器,支持自动重载功能,就是可以自动检测文件的改变并根据需要重启服务器。 用法: packagemainimport("fmt""net/http""github.com/fengsp/knight")funchandler(whttp.Respons……

    开源软件 2024-07-06

  2. Winds 高颜值 RSS & Podcast 应用

    Winds 高颜值 RSS & Podcast 应用

    Winds 是基于 React / Redux / Node 构建的高颜值开源 RSS 和 Podcast 应用。 Winds 由Stream提供活动流和私有化,Algolia用于搜索,AWS用于托管,MongoDB Atlas提供 DBaaS ,均可以使用免费的版本托管或在自己的……

    开源软件 2024-07-06

  3. WinPcap 网络封包抓取工具

    WinPcap 是用于网络封包抓取的一套工具,可适用于32位的操作平台上解析网络封包,包含了核心的封包过滤,一个底层动态链接库,和一个高层系统函数库,及可用来直接存取封包的应用程序界面。 WinPcap 是一个免费公……

    开源软件 2024-07-06

返回顶部小火箭