小勾の胡言乱语

May 4th, 2016

[译]Apache Flume 性能调优 (第一部分)

Apache Flume，是一个分布式的、可靠的、高可用的服务，用于收集、聚合、传输大量的事件型数据的应用组件。本篇文章是关于Apache Flume性能调优系列文章的第一部分。

January 10th, 2016

使用Hbase来存储Graphx的节点与边，是一种很棒的实践。

December 25th, 2015

一般来讲，全局资源调度可以利用Zookeeper、Redis进行。在全局资源量比较小的情况下，也可以利用MySQL的ACID特性来进行资源调度。

August 26th, 2015

公司有一个邮件群发的服务，近期需要将邮件群发的服务日志接入到公司的Hadoop日志收集平台，

July 13th, 2015

如果你拥有百万份、千万份数量级的文档的时候，如何快速的从浩如烟海的文档中搜索到自己感兴趣的文档呢？

May 23rd, 2015

小帽子alfred是mac上最为传奇的效率作品，今天，我们一起来探索alfred workflow 的世界吧!

May 6th, 2015

jieba是一个优秀的中文分词模块，使用python编写，并在Github上开源。使用jieba分词可以将一整串的中文句式切分为独立的语言元素。

April 28th, 2015

在用sklearn训练好一个模型之后，如何将它持久化到硬盘中，并随时反序列化回来呢？

April 6th, 2015

对于我这样的data science新手来说，kaggle是一个很好的练手平台，在kaggle的starter难度中，数字识别是一个比较有代表性的项目。昨晚使用nolearn构建ANN神经网络，识别率可以达到到98%.