我先想从很多搜索引擎中 爬去 抓取我要的信息和智能请问:
需要哪些软件来执行爬取和抓取?
又需要哪些软件进行只能分析?
如何入门?哪里有相关的论坛 或者聚集地?
我先想从很多搜索引擎中 爬去 抓取我要的信息和智能请问:
需要哪些软件来执行爬取和抓取?
又需要哪些软件进行只能分析?
如何入门?哪里有相关的论坛 或者聚集地?
3 回答3k 阅读✓ 已解决
2 回答2.5k 阅读✓ 已解决
2 回答1.9k 阅读✓ 已解决
1 回答2.4k 阅读✓ 已解决
2 回答1.2k 阅读✓ 已解决
2 回答1.8k 阅读✓ 已解决
2 回答1.7k 阅读✓ 已解决
回答前我想先问一下,你标签里放了
python
和go
,但问题描述里问的都是哪些软件
,所以,你是想用代码开发还是用人家现成的软件?如果你是想用现成软件的,我自删答案。
如果你想用代码开发,我认认真真回答。
看到有朋友在评论里让我回答Python,就更新一下。
由于本人正处于并将长期处于
Python自动化脚本开发
的工作当中,Python与网络相关的内容现在已经很少碰了,因此只简单回答,不作详细探讨,如有纰漏,还望指出~第一个问题:
我权当是
需要怎样编写爬虫程序
了。入门Python爬虫一般应按照如下几个顺序来学习,我这里斗胆抛个砖引个玉:
至于更加深入的分布式啊什么的,就个人而言,一般也很难有条件去实践,所以……先打好基础吧。
这里奉上3个传送门:
知乎:如何入门Python爬虫,主要是一些大神对爬虫的介绍
爬虫教程一
爬虫教程二
爬虫简单说到这儿,接下来的问题:
题主这里问的是数据分析,依然来说Python,Python大数据分析目前最流行的应当是
pandas + numpy + scipy + matplotlib
的组合了,再加一个解释器ipython
。简单介绍一下吧:
1、pandas
pandas
最初就是作为数据分析工具被创造出来的,它本身基于numpy
,就是名单上的第二个,我这里贴一个我不久前回答的一个问题,可以简单看到pandas
的神奇效果:python多个字典合并包含同样key的字典项?。2、numpy
Python大数据分析的核心,以下摘自百度百科 - numpy。
NumPy(Numeric Python)提供了许多高级的数值编程工具,如:矩阵数据类型、矢量处理,以及精密的运算库。专为进行严格的数字处理而产生。多为很多大型金融公司使用,以及核心的科学计算组织如:Lawrence Livermore,NASA用其处理一些本来使用C++,Fortran或Matlab等所做的任务。
3、scipy
这个说实话我也不是特别了解,一般配合numpy使用,里面也提供了强大的数学模型,欢迎大神来补充。
4、matplotlib
简单说,前三个是用来处理数据的,而
matplotlib
是用来将数据转化成各种图形(图表)的,即数据可视化,类似Excel
中自动生成图表。5、ipython
Python的一个解释器,交互式shell,比Python自带的要强大,
pandas
官方的教程也是在ipython
上完成的。然后简单说一下怎么学。
由于市面上关于Python的中文书籍本身就不多,这些工具类的更是少之又少,单独的
pandas
入门级书一本都没有,想入门pandas
基本上只能通过官方文档来,网上也有一些博客文章,但都比较零碎,而且很多也是改编或翻译的官方文档。numpy
的倒是有一本《Python数据分析基础教程:NumPy学习指南(第2版)》
,而且它里面包含了matplotlib
、scipy
以及ipython
的安装和使用,是入门级的书籍。然后基础入门的差不多了,可以看一本叫
《利用Python进行数据分析》
的书籍,里面是以pandas
为主体,涵盖了大量用例。切记,本书一定要在有以上几个库的基础下看。综合类的书籍并不止这一本,由于其他的不了解,上述两本均是我看过的,这里写出来推荐给大家,有更好的欢迎推荐~
差不多就这样吧,文章中有哪里不对的地方,望各路大神指出~轻喷呐~