[译]Apache Flume 性能调优 (第一部分)

Apache Flume,是一个分布式的、可靠的、高可用的服务,用于收集、聚合、传输大量的事件型数据的应用组件。本篇文章是关于Apache Flume性能调优系列文章的第一部分。

GraphX 与Hbase的整合实践

使用Hbase来存储Graphx的节点与边,是一种很棒的实践。

使用MySQL实现分布式资源调度

一般来讲, 全局资源调度可以利用Zookeeper、Redis进行。 在全局资源量比较小的情况下,也可以利用MySQL的ACID特性来进行资源调度。

记一次DNS引发的问题

公司有一个邮件群发的服务,近期需要将邮件群发的服务日志接入到公司的Hadoop日志收集平台,

使用elasticsearch DIY 自己的搜索引擎(一)

如果你拥有百万份、千万份数量级的文档的时候,如何快速的从浩如烟海的文档中搜索到自己感兴趣的文档呢?

Alfred workflow 开发指南

小帽子alfred是mac上最为传奇的效率作品, 今天,我们一起来探索alfred workflow 的世界吧!

使用sklearn + jieba中文分词构建文本分类器

jieba是一个优秀的中文分词模块,使用python编写,并在Github上开源。 使用jieba分词可以将一整串的中文句式切分为独立的语言元素。

使用joblib持久化sklearn模型

在用sklearn训练好一个模型之后,如何将它持久化到硬盘中,并随时反序列化回来呢?

使用nolearn构建ANN神经网络完成数字识别挑战

对于我这样的data science新手来说,kaggle是一个很好的练手平台,在kaggle的starter难度中,数字识别是一个比较有代表性的项目。 昨晚使用nolearn构建ANN神经网络,识别率可以达到到98%.