首页 » 产品日记 » 正文

python学习:阶段性小结

1、从爬虫开始学习python,能爬到某房产网站房价信息,了解requests模块基本用法,包括get请求,自定义请求头(常见的包括User-Agent、Referer、Cookie),主要是用来伪装浏览器,绕过反爬虫机制,然后用beautifulsoup模块来把get过来的html结构化并提取目标数据,最后用pandas来吧数据保存到excel中;
2、python爬虫基础必备知识之HTML标签,第一篇文章内涉的beautifulsoup需要对html有一定的了解,所以有了这篇分享(原本不在计划中),html标签是个成对出现的,有开始,有结束,可以嵌套,甚至是无限极嵌套,标签有属性,有属性值,属性和属性值并非单一,属性是用来给html编号、定位、调节样式等作用,这样展示给用户看到的才是丰富多彩且能互动的网页,而到beautifulsoup中将会用来定位目标数据。
3、BeautifullySoup模块的基本用法,主要用到她的css选择器,select方法,她能通过标签、标签路径、属性、标签+属性、标签路径+属性等参数来查询目标数据,除了select外还有find、find_all方法,这俩个的区别主要是找第一个元素和找所有元素,用法和select基本一致,唯一不同的是传参的时候是分开写,尤其是class属性的时候要写成‘class_’,实战中可以慢慢体会。

在学习python写爬虫的过程中,尤其初学者,更尤其是完全没有编程经历的,还是要先把学习的目的和路径搞清楚了:

一、学习python的目的是啥?
一定要清楚的是,学习python是用来做什么的?业务需要?职业选择?有目的才能有针对性的来指定学习策略和方向,效率才会高!
不管目的是啥,最好是先定一个短期的小目标,刚开始可以简单一些,不要一开始就把自己给搞懵了,从一个能爬到数据的爬虫做起,也别一开始就去爬那种反爬机制很强的网站(小白阶段就别挑选那种很厉害的对手啦)。
二、新手上路,趁手的武器要有
1、能写python的工具有很多,pycharm还可以,没啥特别配置,一路回车安装完就可以了,百度一下好多;
2、一个学习记录和训练的工具,我用的是jupyter notebook,这个环节还是蛮重要的,别看说python写代码很方便,方便之处在于代码补全和自动缩进,而这也恰恰会阻碍新手的学习效果,代码还是自己敲进去的好;
3、最好有一本手抄或者书,关于python基础语法和基本函数应用的,可以随时翻看,别说电脑手机方便,谁用谁知道。
三、开始尝试各种小项目中去实践和深入学习
这个地方也要结合相应的目的来做,比如你当前正在做什么事,是否可以用python来提升效率,哪怕是个很简单的复制粘贴
四、一定一定要做总结
不管是学习还是实践,结束之后一定要及时总结,哪怕不能做到及时,当日总结也要有,这样才能在实践过程中得心应手

好了,先记录这么多
之后会继续沿着爬虫来学习相关的模块,比如异常处理、数据库操作、可视化、多线程、计划任务等等,一步一个脚印。

发表评论