在看文章之前,先上一个图片看看我们要达到的实际效果。
这是一个自动运作的过程,自动过程由于是基于chrome插件实现的,实现起来也比较简单,所以这里不做这方面的分析(关于chrome插件自动化实现思路,我接下来的博文再做分析)。这里我只做一下如何实现文章概要的总结并混淆实现伪原创的过程。
1、抓取文章text文本
利用chrome插件获取页面html富文本内容,过虑掉html标签,得到纯文本内容,过虑正则表达式为:"/<[^>]*?>/ig" 。
2、总结文章概要
这里直接使用现成的新闻摘要提取接口:
http://showdoc.dagoogle.cn/index.php/Home/page/index?page_id=127
3、文章内容的混淆实现伪原创
实现自动伪原创的思路千万种,最好的不过是自动重写了,但要做到自动重写,一般手段是无法实现的,所以我这里只尝试了抓取5118.com网站的每日热门词(接口https://www.jsanai.com/hotwords)进行自动关键词混淆,提供下php实现html富文本自动插入关键词的代码
//隔开html随机向指定文本插入内容,txt 内容;insert要插入的关键字,可以是链接,数组
function rand_in_str($txt,$insert){
//将内容拆分成数组,每个字符都是一个value,英文,中文,符号都算一个,只能在utf-8下中文才能拆分
preg_match_all("/[\x01-\x7f]|[\xe0-\xef][\x80-\xbf]{2}/", $txt, $match);
$delay=array();
$add=0;
//获取不能插入的位置索引号($delay 数组),也就是< > 之间的位置
foreach($match[0] as $k=>$v){
if($v=='<') $add=1;
if($add==1) $delay[]=$k;
if($v=='>') $add=0;
}
$str_arr=$match[0];
$len=count($str_arr);
if(is_array($insert)){
foreach($insert as $k=>$v){
//获取随机插入的位置索引值
$insertk=insertK($len-1,$delay);
//循环将insert数据 拼接到 随机生成的索引
$str_arr[$insertk] .= $insert[$k];
}
} else{
//获取随机插入的位置索引值
$insertk=insertK($len-1,$delay);
//循环将insert数据 拼接到 随机生成的索引
$str_arr[$insertk] .= $insert;
}
//合并插入 关键词后的数据,拼接成一段内容
return join('',$str_arr);
}
function insertK($count,$delay){//count 随机索引值范围,也就是内容拆分成数组后的总长度-1;delay 不允许的随机索引值,也就是不能在 < > 之间
$insertk=rand(0,$count);
if(in_array($insertk,$delay)){//索引值不能在 不允许的位置处(也就是< > 之内的索引值)
$insertk=insertK($count,$delay);//递归调用,直到随机插入的索引值不在 < > 这个索引值数组中
}
return $insertk;
}
4、自动推送至百度或者其他
自动推送可以后端实现,但使用后端实现的效果,不如使用前端js推送的效果好,所以为了实现前端js推送,就必须有人访问这个页面实现,于是我这里就顺带使用微头条的兴趣推送功能,把文章概要作为内容发到微头条,然后附加上文章链接作为微头条的详情链接,这样就算没有人点击查看这微头条,字节跳动公司的服务器也会通过内部服务器对附带的链接进行模拟访问,这个访问其实也达到了自动推送的功能。
整个流程的实现代码,将会在后续的文章中一个个展示,欢迎关注此话题。
**粗体** _斜体_ [链接](http://example.com) `代码` - 列表 > 引用
。你还可以使用@
来通知其他用户。