利用Spark SQL实现轻量级用户数据查询

2015-08-02
阅读 3 分钟
10.5k
当人们把越来越多的大数据存储在HDFS或者AWS的S3上,通常下一个问题是如何让全公司范围的员工能够方便的查询这些数据。一个选项是建立一个SQL-on-Hadoop系统,让用户使用SQL或者类SQL语言来查询数据,但是这些SQL-on-Hadoop系统往往比较复杂,需要一定的开发和维护工作量。

实用大数据系统设计

2015-07-13
阅读 2 分钟
3.8k
大数据一般人听着比较复杂,觉得可能需要很大成本来部署和实施。幸运地是市面上已经有一些云服务来帮助我们让大数据变得更简单。另外,如果你选择合适的开源工具,也往往会使你的大数据之路起到事半功倍的效果。下面会列出实用并且较低成本的大数据实施系统,供参考。

数据分析报表系统的80/20法则

2015-06-15
阅读 1 分钟
5.2k
80/20法则是计算机领域经常见到的现象,比如一个软件80%的时间只是在运行其中20%的代码,或者计算机芯片CPU只有20%的时间在做计算,其他80%的时间在休眠或者等待其他操作。

SQL on Hadoop开源项目总结

2015-05-27
阅读 2 分钟
6.4k
随着Hadoop的流行,越来越多的企业把数据存储在Hadoop上,或者Non-SQL数据库上,随之相关的数据处理技术也从一开始的Map Reduce一统江湖,到现在各种技术竞相出现。最新的趋势是,大家普遍希望能够快速得到查询结果,做交互式查询,同时也希望传统的BI(Business Intelligence,商务智能)工具可以直接和基于Hadoop的大数...

美国大数据创业公司总结-融资篇

2015-05-03
阅读 3 分钟
4.8k
本人前一篇文章总结了美国现阶段大数据创业公司的技术或产品特点,本来想加上它们的市值或者公开可查询到的融资情况,但是考虑到篇幅太大,就另外作了这篇文章,单独总结各公司的融资情况。

美国大数据创业公司总结

2015-04-30
阅读 3 分钟
13.7k
其它还有很多提供商务数据分析,可视化报表,大数据平台的公司,就不详细例举了,包括:Tableau, GoodData, ZoomData, SpagoBI, Pentaho, Eclipse BIRT, birst, netezza, paraccel, Ayasdi, Trifecta, Clearstory, Alpine Data Labs, Altiscale, Trifacta, Splice Machine, DataTorrent, Continuuity, Xplenty, Aerospik...