爬取网址:http://q.10jqka.com.cn/gn/det...
简单的table,
我用queryList 最简单方式去爬,结果为:array(),
代码:
<?php
require './phpQuery.php';
require './QueryList.php';
use QL\QueryList;
$hj = QueryList::Query('http://q.10jqka.com.cn/gn/detail/field/199112/order/desc/page/1/ajax/1/code/300800',
array(
"content"=>array('td','text'),
)
);
$data = $hj->getData(function($x){
return $x['content'];
});
print_r($data);
网页结构:
很整齐的结构,照理说很容易获取数据的,为什么结果为空?是因为页面不是完整的html?
QueryList不支持不完整的html,需要手动补全html结构,或者截取你要采集的部分完整html代码片段给QueryList来提取内容。