标签目录:爬虫

以下是与标签 “爬虫” 相关联的文章

用QueryList写个小爬虫

最近项目(TP6)中要做一些数据采集,找到了QueryList这个采集框架,还蛮容易上手的,主要是把采集到的数据,在入库之前做了下处理,官方文档中还有更高级的玩法(见官方文档:http://www.querylist.cc/docs/guide/v4/processing-data),直接在规则部分,通过过滤器来处理数据,记录一下:

python抓取网站所有URL地址

背景说明:最近在做一个网站推广的项目,想获取这个网站的所有url地址,生成一个网站地图,就拿python练练手。 思路:爬网站所有url,也就是获取网页-》分析网页-》提取所有a标签-》最终获取url,再将获取的url作为源信息来查找新的url。 从网页中提取a标签属性值最快的方法有两个,一个是正则,一个用CSS选择器。Beautiful……

selenium静默执行(无浏览器界面)

后台运行爬虫,就想到了selenium,但是以往在用她的时候会把浏览器也打开,就想能不能后台操作,结果百度了下还真有: 逻辑:模拟用户浏览行为:搜索、浏览(滚动条+页面停留时间)、浏览不同页面等找一堆代理定一一堆请求头(包括浏览器类型、终端机型等)执行模拟操作然后一个死循环 附:chromedriver安装可以到http://npm.ta……

python模块pymysql

pymysql是python中操作mysql数据库的一个优秀的模块,使用起来也是非常的简单和方便,只用记住几个下面标注红色的部分的用法就ok了。 从数据库的增删改查操作来学习pymysql: 上面的代码是连接数据库,眼熟就对了,基本都是一个套路,有个地方需要说明下的是,后面的字符集,前几天在抓某宝商品评论的时候就遇到一个问题,评论内容里面……

python学习:阶段性小结

1、从爬虫开始学习python,能爬到某房产网站房价信息,了解requests模块基本用法,包括get请求,自定义请求头(常见的包括User-Agent、Referer、Cookie),主要是用来伪装浏览器,绕过反爬虫机制,然后用beautifulsoup模块来把get过来的html结构化并提取目标数据,最后用pandas来吧数据保存到e……

python模块Requests的基础用法

想想还是把这个模块的简单用法补充一下 安装 pip install requests 老规矩,爬虫实战中的一贯用法如下代码: 另外,在实际场景中也经常会遇到一种情况是,获取到的数据是乱码,这个时候就要判断下它的编码格式,常见的有gbk和utf-8,根据实际情况,可以用以下方法来设置编码: r.encoding = ‘utf-8’# 设置编……

python模块BeautifulSoup

在通过requests获取到目标数据之后,并不是所有的内容都是我们需要的,所以需要用到一些方法把我们不需要的给剔除掉,或者说把我们想要的单独摘出来,这个时候BeautifulSoup就出现了。 这里有必要提一下的是,有时候我们获取到的就是它的接口返回的JSON类型的数据,那么这里就需要用到python的json模块,这些等后面的训练项目出……

python数据挖掘

主要应用场景:快速提取用户评论中关注的焦点,直接反应品牌或产品的主观感受,方便市场、运营、产品等相关人员收集市场信息,有针对性的调整或优化产品、策略等。 比如本次练习用到的数据是抓的淘宝一个爆款面膜的部分评论,一眼就能看出消费者关心的是啥,可以直接拖到文末看效果图,是不是很神奇? 本文用到两个第三方库,jieba、wordcloud、nu……