用QueryList写个小爬虫

2022/10/29 | 产品日记 | Gary.w | 暂无评论 | 676 views

最近项目（TP6）中要做一些数据采集，找到了QueryList这个采集框架，还蛮容易上手的，主要是把采集到的数据，在入库之前做了下处理，官方文档中还有更高级的玩法（见官方文档：http://www.querylist.cc/docs/guide/v4/processing-data），直接在规则部分，通过过滤器来处理数据，记录一下：

python抓取网站所有URL地址

2019/11/26 | 产品日记 | Gary.w | 暂无评论 | 871 views

背景说明：最近在做一个网站推广的项目，想获取这个网站的所有url地址，生成一个网站地图，就拿python练练手。思路：爬网站所有url，也就是获取网页-》分析网页-》提取所有a标签-》最终获取url，再将获取的url作为源信息来查找新的url。从网页中提取a标签属性值最快的方法有两个，一个是正则，一个用CSS选择器。Beautiful……

selenium静默执行（无浏览器界面）

2019/06/03 | 产品日记 | Gary.w | 暂无评论 | 2962 views

后台运行爬虫，就想到了selenium，但是以往在用她的时候会把浏览器也打开，就想能不能后台操作，结果百度了下还真有：逻辑：模拟用户浏览行为：搜索、浏览（滚动条+页面停留时间）、浏览不同页面等找一堆代理定一一堆请求头（包括浏览器类型、终端机型等）执行模拟操作然后一个死循环附：chromedriver安装可以到http://npm.ta……

python模块pymysql

2019/05/14 | 产品日记 | Gary.w | 暂无评论 | 2802 views

pymysql是python中操作mysql数据库的一个优秀的模块，使用起来也是非常的简单和方便，只用记住几个下面标注红色的部分的用法就ok了。从数据库的增删改查操作来学习pymysql：上面的代码是连接数据库，眼熟就对了，基本都是一个套路，有个地方需要说明下的是，后面的字符集，前几天在抓某宝商品评论的时候就遇到一个问题，评论内容里面……

python学习：阶段性小结

2019/05/13 | 产品日记 | Gary.w | 暂无评论 | 598 views

1、从爬虫开始学习python，能爬到某房产网站房价信息，了解requests模块基本用法，包括get请求，自定义请求头（常见的包括User-Agent、Referer、Cookie），主要是用来伪装浏览器，绕过反爬虫机制，然后用beautifulsoup模块来把get过来的html结构化并提取目标数据，最后用pandas来吧数据保存到e……

python模块Requests的基础用法

2019/05/12 | 产品日记 | Gary.w | 暂无评论 | 516 views

想想还是把这个模块的简单用法补充一下安装 pip install requests 老规矩，爬虫实战中的一贯用法如下代码：另外，在实际场景中也经常会遇到一种情况是，获取到的数据是乱码，这个时候就要判断下它的编码格式，常见的有gbk和utf-8，根据实际情况，可以用以下方法来设置编码： r.encoding = ‘utf-8’# 设置编……

python模块BeautifulSoup

2019/05/11 | 产品日记 | Gary.w | 暂无评论 | 540 views

在通过requests获取到目标数据之后，并不是所有的内容都是我们需要的，所以需要用到一些方法把我们不需要的给剔除掉，或者说把我们想要的单独摘出来，这个时候BeautifulSoup就出现了。这里有必要提一下的是，有时候我们获取到的就是它的接口返回的JSON类型的数据，那么这里就需要用到python的json模块，这些等后面的训练项目出……

python数据挖掘

2019/05/10 | 产品日记 | Gary.w | 暂无评论 | 4911 views

主要应用场景：快速提取用户评论中关注的焦点，直接反应品牌或产品的主观感受，方便市场、运营、产品等相关人员收集市场信息，有针对性的调整或优化产品、策略等。比如本次练习用到的数据是抓的淘宝一个爆款面膜的部分评论，一眼就能看出消费者关心的是啥，可以直接拖到文末看效果图，是不是很神奇？本文用到两个第三方库，jieba、wordcloud、nu……

从爬虫开始学习python

2019/05/09 | 产品日记 | Gary.w | 暂无评论 | 4848 views

学习python的目的只是为了增加技能，个人认为python还蛮适合作为一个辅助工具的，把她看成是单纯的编程工具可能会有点自我设限，好了，开工！环境：windows10+python3.7+pycharm2018用到的模块requests、BeautifulSoup、pandas 模块的安装直接命令行：pip install 模块名获……

MeJump 专注于生产力工具的实践和奇思妙想

标签目录：爬虫