[译]Apache Flume 性能调优 (第一部分)
Apache Flume,是一个分布式的、可靠的、高可用的服务,用于收集、聚合、传输大量的事件型数据的应用组件。本篇文章是关于Apache Flume性能调优系列文章的第一部分。
Apache Flume,是一个分布式的、可靠的、高可用的服务,用于收集、聚合、传输大量的事件型数据的应用组件。本篇文章是关于Apache Flume性能调优系列文章的第一部分。
使用Hbase来存储Graphx的节点与边,是一种很棒的实践。
一般来讲, 全局资源调度可以利用Zookeeper、Redis进行。 在全局资源量比较小的情况下,也可以利用MySQL的ACID特性来进行资源调度。
公司有一个邮件群发的服务,近期需要将邮件群发的服务日志接入到公司的Hadoop日志收集平台,
如果你拥有百万份、千万份数量级的文档的时候,如何快速的从浩如烟海的文档中搜索到自己感兴趣的文档呢?
小帽子alfred是mac上最为传奇的效率作品, 今天,我们一起来探索alfred workflow 的世界吧!
jieba是一个优秀的中文分词模块,使用python编写,并在Github上开源。 使用jieba分词可以将一整串的中文句式切分为独立的语言元素。
在用sklearn训练好一个模型之后,如何将它持久化到硬盘中,并随时反序列化回来呢?
对于我这样的data science新手来说,kaggle是一个很好的练手平台,在kaggle的starter难度中,数字识别是一个比较有代表性的项目。 昨晚使用nolearn构建ANN神经网络,识别率可以达到到98%.