python学习:阶段性小结 2019/05/13 | 产品日记 | Gary.w | 暂无评论 | 634 views 1、从爬虫开始学习python,能爬到某房产网站房价信息,了解requests模块基本用法,包括get请求,自定义请求头(常见的包括User-Agent、Referer、Cookie),主要是用来伪装浏览器,绕过反爬虫机制,然后用beautifulsoup模块来把get过来的html结构化并提取目标数据,最后用pandas来吧数据保存到e……
python模块Requests的基础用法 2019/05/12 | 产品日记 | Gary.w | 暂无评论 | 555 views 想想还是把这个模块的简单用法补充一下 安装 pip install requests 老规矩,爬虫实战中的一贯用法如下代码: 另外,在实际场景中也经常会遇到一种情况是,获取到的数据是乱码,这个时候就要判断下它的编码格式,常见的有gbk和utf-8,根据实际情况,可以用以下方法来设置编码: r.encoding = ‘utf-8’# 设置编……
python模块BeautifulSoup 2019/05/11 | 产品日记 | Gary.w | 暂无评论 | 576 views 在通过requests获取到目标数据之后,并不是所有的内容都是我们需要的,所以需要用到一些方法把我们不需要的给剔除掉,或者说把我们想要的单独摘出来,这个时候BeautifulSoup就出现了。 这里有必要提一下的是,有时候我们获取到的就是它的接口返回的JSON类型的数据,那么这里就需要用到python的json模块,这些等后面的训练项目出……
python数据挖掘 2019/05/10 | 产品日记 | Gary.w | 暂无评论 | 4949 views 主要应用场景:快速提取用户评论中关注的焦点,直接反应品牌或产品的主观感受,方便市场、运营、产品等相关人员收集市场信息,有针对性的调整或优化产品、策略等。 比如本次练习用到的数据是抓的淘宝一个爆款面膜的部分评论,一眼就能看出消费者关心的是啥,可以直接拖到文末看效果图,是不是很神奇? 本文用到两个第三方库,jieba、wordcloud、nu……
从爬虫开始学习python 2019/05/09 | 产品日记 | Gary.w | 暂无评论 | 4887 views 学习python的目的只是为了增加技能,个人认为python还蛮适合作为一个辅助工具的,把她看成是单纯的编程工具可能会有点自我设限,好了,开工! 环境:windows10+python3.7+pycharm2018用到的模块requests、BeautifulSoup、pandas 模块的安装直接命令行:pip install 模块名 获……