Spark 源码解析之SparkContext

2016-12-09
阅读 3 分钟
4.3k
SparkContext 是Spark 应用的主入口,通过它可以连接Spark 集群,并在集群中创建RDD,累加器,广播变量等;==每一个启动 JVM 上只能有一个SparkContext,在启动一个新的SparkContext之前,必须停掉处于活动状态的SparkContext==。

Spark Streaming 避坑的注意事项

2016-12-09
阅读 1 分钟
6.2k
两个RDD不能嵌套计算: {代码...} 解决方案:将一个rdd进行action转换后,保存在内存中。 计算中内存溢出 原因:Spark Streaming执行一个流处理的时候,这个流处理还没有处理完成,又接入了下一流; {代码...} 解决方案:加快每个流的处理速率,调整流处理的时间间隔,保证在下个流到来之前,当前流就处理完成。 资源配...

字符串匹配算法比较

2016-10-10
阅读 4 分钟
3.3k
最近研究算法,才发现字符串匹配竟然有这么多的算法可以选择,并且对字符串查找的效率也有提升,在这里对几个典型的算法做一个总结。各种算法的原理在所有算法书籍或者Google都能找到,这里就不再重复,只将自己实现的java版代码贴下。