前几天接到一个领导派来的任务
要抓 https://www.maicoin.com/ 网站上html的资料
或 https://www.maicoin.com/api/p... 的资料
我用curl 去抓取再来解析 ,
curl_setopt($ch, CURLOPT_SSL_VERIFYPEER, False);
curl_setopt($ch, CURLOPT_SSL_VERIFYHOST, false);
对于一般ssl网站有用,但这个网站没用 一直得到404的错误
上网抓了几天的文 ,大约是
一、証书错误 :http://unitstep.net/blog/2009... 这个文有教如何汇出凭証,但我一直找不到去哪汇出。到 https://curl.haxx.se/docs/cae... 下载 最新的pem 也无法。用 openssl s_client -connect www.maicoin.com:443 看到了凭証,但也不知道要怎么用。
二、cookies问题 :某位大大说 是cookies的问题 https://stackoverflow.com/que... ,这篇说得很仔详,但不知道怎么设置 cookies file (这时才发现知识的重要) ,
三、有人说 用curl_error可以看到哪里出了错,但我总是只看到404 的画面。
曾听到有人说过 curl非常的强大,可以模拟出brower的环境,让主机以为是brower来的,我一直没有什么感觉,觉得这是一件很难的事情 。
总之,就是我抓不到html 我试了很久很久,有没有哪位有经验的前辈可以略微指导一番
感谢
curl 'https://www.maicoin.com/api/prices/btc-twd' -H 'Cookie: locale=InpoLVRXIg%3D%3D--a65135f98901cde92d397aef024641fac25550a3; currency=InR3ZCI%3D--6eec4eff818e386526edfcc1b4af684de0367230; visid_incap_160122=8CKUBS5CRzW2jgxC+wKaVpYHrloAAAAAQUIPAAAAAAA9XFHlJQppJiQOwk6k6aA1; incap_ses_434_160122=RB6ACx7+Mno9jD/UC+EFBpYHrloAAAAAJMgpqZFKRf5j9Cj/HLAW/A==; _ga=GA1.2.1402085178.1521354648; _gid=GA1.2.1469388641.1521354648; _twcoin_session=YkVLWUZUaWFnSGE0UEl3VDhmc2QvcGI3cndTTlZ5MVdITE1xSWNtOS84MThvS3pieDFFT0dWc1NlajI5SXBDVG43dlJTQkJjMjBmSUNob0xqanN5TnM2TnNDNk1rS2NucHB4NTUzbXB5K3BpN1VGWlRKQ29nRi9zd0p5cXpxMzFibDFyVHMrbVh4VjYvclY5ZFBnWDh3PT0tLTQwYWdQUHlSSXJwNHM2c3d0S0pIaFE9PQ%3D%3D--5217aa1d4a5c131b7f37bef34c90ce10e2fb7586'
要带上cookie