Scalding Cascading 的 Scala API

开源网站开源项目 24-07-05 15:03:48

Scalding 是一个 Scala 库简化了 Hadoop MapReduce 作业开发。基于 Cascading 构建。Scalding 跟 Pig 类似,但提供更紧密的 Scala 集成。

Hadoop 是一个统计词(counting words)的分布式系统。这里看 Scalding 如何实现统计词:

packagecom.twitter.scalding.examplesimportcom.twitter.scalding._classWordCountJob(args:Args)extendsJob(args){TypedPipe.from(TextLine(args("input"))).flatMap{line=>tokenize(line)}.groupBy{word=>word}//useeachwordforakey.size//ineachgroup,getthesize.write(TypedTsv[(String,Long)](args("output")))//Splitapieceoftextintoindividualwords.deftokenize(text:String):Array[String]={//Lowercaseeachwordandremovepunctuation.text.toLowerCase.replaceAll("[^a-zA-Z0-9\\s]","").split("\\s+")}}
[Scalding Cascading 的 Scala API]相关推荐

mushroom metric for java 方案

mushroom 是一个 metric for java 的方案,目前 v0.2 版本的源码均来自 Hadoop 1.0.4 的 metric2 package……...

Felony 开源 PGP 秘钥链

Felony 开源 PGP 秘钥链

Felony 是一款开源的 PGP(Pretty Good Privacy) 秘钥链,主要用于采用 Electron, React 和 Redux 开发的w……...

Jetty Servlet 容器

Jetty是一个轻量级的高度可扩展的基于java的web服务器和servlet引擎。其目标是以大批量低延迟的方式支持H……...

wxPython Python 图形开发包

wxPython Python 图形开发包

wxPython 是 Python 语言的一套优秀的 GUI 图形库,允许 Python 程序员很方便的创建完整的、功能键全的 G……...

zTree JQuery Tree 插件

zTree JQuery Tree 插件

zTree 是一个依靠 jQuery 实现的多功能 “树插件”。优异的性能、灵活的配置、多种功能的组合是 zTree 最大……...

今日开源
  1. PyQuery Python 的 HTML/XML 解析库

    PyQuery 让你使用 jQuery 的风格来遍历 XML 文档,它使用了 lxml 来处理 XML 乃至 HTML 文档。 你可以直接从字符串、URL或者文件中加载文档: >>>frompyqueryimportPyQueryaspq>>>fromlxmlimpor……

    开源软件 2024-07-08

  2. LDC 高性能 D 语言编译器

    LDC 高性能 D 语言编译器

    LDC 是一个高性能的 D 语言编译器,依赖 DMD 作为语言前端,后端使用 LLVM 架构生成代码,在各项测试中与C 和 C++ 性能持平,这也使得 dlang 的计算性能高于比较新的 rust 和 golang 。 LDC 支持非常多的编译架构……

    开源软件 2024-07-08

  3. Blip 用于查看网络延迟的工具

    Blip 是一个端到端的测试工具,旨在让你测量后两个要素:延迟和丢包。这些是你的网络浏览性能的真正指标。它并不试图测量带宽。 Blip 是用纯 JavaScript 编写的,所以它完全在你的浏览器中运行,不需要服务器端的……

    开源软件 2024-07-08

返回顶部小火箭