magicfolks - SegmentFault 思否

OVAL实现自定义基于注解的数据验证

2018-02-24

阅读 3 分钟

如今开发项目中数据的安全验证已经是必不可少的一部分，如果只是让前段做验证，并不能保证整个系统的安全。故在介绍一款非常好用的后端验证数据有效性的框架：ovaloval已经内置支持字段非空，数据长度，数据范围，正则匹配等验证，同时还可以在此框架的基础上实现自定义的验证。这次我就介绍一下常用的数据是否在数据库...

kafka集群搭建

安迪的信仰

2017-10-06

阅读 2 分钟

什么是kafkaKafka是一种高吞吐量的分布式发布订阅消息系统，它可以处理消费者规模的网站中的所有动作流数据。这种动作（网页浏览，搜索和其他用户的行动）是在现代网络上的许多社会功能的一个关键因素。这些数据通常是由于吞吐量的要求而通过处理日志和日志聚合来解决。对于像Hadoop的一样的日志数据和离线分析系统，...

zookeeper多节点集群搭建

安迪的信仰

2017-10-04

阅读 3 分钟

7.6k

写在开始在上次关于zookeeper文章中给大家介绍了单节点情况下启动运行zk相关步骤，很简单，但是也很有必要。今天就在这给大家介绍下zk多节点的集群搭建（此次用到3台虚拟的centos7系统，Zookeeper的大部分操作都是通过选举产生的。比如，标记一个写是否成功是要在超过一半节点发送写请求成功时才认为有效。同样，Zookeep...

elasticsearch支持类似与sql语句的查询表达式

安迪的信仰

2017-09-21

阅读 4 分钟

6.8k

写在之前ElasticSearch是一个基于Lucene的搜索服务器。它提供了一个分布式多用户能力的全文搜索引擎，基于RESTful web接口。Elasticsearch是用Java开发的，并作为Apache许可条款下的开放源码发布，是当前流行的企业级搜索引擎。设计用于云计算中，能够达到实时搜索，稳定，可靠，快速，安装使用方便。在之前在项目开发中...

分布式应用之zookeeper（一）

安迪的信仰

2017-09-15

阅读 2 分钟

3.1k

什么是zookeeper? ZooKeeper是一个分布式的，开放源码的分布式应用程序协调服务，是Google的Chubby一个开源的实现，是Hadoop和Hbase的重要组件。它是一个为分布式应用提供一致性服务的软件，提供的功能包括：配置维护、域名服务、分布式同步、组服务等。 ZooKeeper的目标就是封装好复杂易出错的关键服务，将简单易用的接...

向EML文件追加附件的Java实现

安迪的信仰

2016-12-01

阅读 3 分钟

2.9k

说明之前在网上也找了一下该需求的实现，但是后面测试发现几乎全部都只能够对没有附件的eml文件进行追加，如果已近带了附件的eml文件在执行时源文件会被破坏掉。所有在此写下可以附件追加代码。

下载镜像网站所有文件

安迪的信仰

2016-11-16

阅读 1 分钟

2.3k

镜像网站: 还没有改成多线程下载,所以下载速度较慢. 流程就是先获取资源的url写入文件,然后下载,如果下载中程序意外终止会保存程序当前的下载状态.下次重启下载程序即可继续下载.源码地址

crawl facebook user basic infomation and photos

安迪的信仰

2016-09-18

阅读 8 分钟

4.6k

自从之前爬取twitter后公司要求对fancebook进行爬取，瞬间心中有一万只×××。毕竟这些社交网络的站点反爬机制做的很不错。但既然上面安排下来只能硬着头皮上了。通过抓包，发现登陆m.facebook.com站点psot的数据相比facebook.com要简单,所有就写了一套利用scrapy爬取facebook的爬虫。

scrapy爬虫使用Ghost.py动态获取cookie

安迪的信仰

2016-09-02

阅读 2 分钟

8.8k

前段时间在用scrapy爬取某个网站时一直报521错误，在seeting.py里设置HTTPERROR_ALLOWED_CODES= [521]后会发现返回的response是一段加密的js代码。这段js代码是动态取得cookie信息的（但是只有一个value,故放弃了使用python库去执行js的打算）,最后利用浏览器打开网页将其cookie手动添加到爬虫中会正常返回数据，最后找...

java实现zip,gzip,7z,zlib格式的压缩打包

安迪的信仰

2016-09-01

阅读 4 分钟

6.6k

前言利用Java原生类和apache的commons实现zip,gzip,7z,zlib的压缩打包 maven依赖 {代码...} zip格式 {代码...} gzip打包 {代码...} 7z打包 {代码...} zlib打包 {代码...}

scrapy利用redis实现url去重与增量爬取

安迪的信仰

2016-08-30

阅读 3 分钟

17.7k

之前数据采集时有2个需求就是url去重与数据的增量爬去（只能够请求增加的url，不然会增加被爬网站的服务器负荷）,最开始的想法是指用redis的set实现url去重，但在后面开发中无意的解决了增量爬去的类容。下面贴上主要代码。