Python Crawler – 网信贷黑名单数据爬取-JobPlus

网信贷黑名单网站截图：

真实数据截图：

我这里想爬取这些个人的信息，但是有些内容是需要登陆才可以查看的，所以先去注册了一个账号。

登陆进来后得到的内容是完整的：

(PS：这里就不激活邮箱了)

– 结构分析&代码编写

这些被黑名单的人信息是首页点入进去的，对比下：

1. <tr onclick="localHref('jgp94CtrsB')" class="pointer">

点开后的链接是：

acklist-jgp94CtrsB.html

相信大家一眼就看出来了规律吧，显示的HTML代码中有链接特征。

根据链接的规则我们可以写出这样一段python代码：

1. target_url = 'https://*.cc' #设置url

2. r = requests.get(target_url) #访问url

3. html = r.text#获取html代码

4. h = r"localHref(\'(.*?)\')" #正则代码

5. h_re = re.compile(h) #生成正则

6. href_all = h_re.findall(html) #正则匹配出链接特征

7. for i in href_all: #匹配出来的链接特征需要用for遍历

8. url = 'https://*.cc/blacklist-' + i + '.html' #遍历出来组合成url

现在我要获取的是“姓名、身份证、手机号、微信、支付宝”，这里我使用的是XPATH来获取这些数据，因为这样更简单一些。

大概的来了解下XPATH的语法吧：

这里完全可以使用更快速的方法：

直接使用Firebug或者其它浏览器的Copy XPath：

得到的XPath语法：

1. /html/body/div[2]/div/div/h2

我们要获取的名字是h2标签内的所以直接修改成：

1. /html/body/div[2]/div/div/h2/text()

直接上Python代码：

(注：from lxml import etree 是支持XPath语法的库)

可以看到输出的结果是unicode编码，直接解码就显示了：

其他的XPath代码：

1. sfzOBJ = htmlOBJ.xpath('//h3[@class="margin_top_15"]/span[@class="inline"]/i[1]/text()') #身份证

2. phoneOBJ = htmlOBJ.xpath('//*[@id="body"]/div/div/h3[1]/span[2]/i/text()') #手机号

3. wechatOBJ = htmlOBJ.xpath('//*[@id="body"]/div/div/div[3]/span[1]/text()') #微信

4. alipayOBJ = htmlOBJ.xpath('//*[@id="body"]/div/div/div[3]/span[2]/text()') #支付宝

这里要记得加上登陆的Cookie去访问哦：

1.在控制台输入document.cookie获取Cookie

2.带上Cookie请求访问

1. geturl = requests.get(url,headers={'Cookie':'__cfduid=d8b7bef3c3b678161d9fe747ccb651cea1499931877; PHPSESSID=mp6oh6j7o03hqd42n06r9p2bii;

2. AJSTAT_ok_pages=5; AJSTAT_ok_times=1; _ga=GA1.2.1572452184.1499931870; _gid=GA1.2.2100292624.1499931870'})

– 最后

核心的代码都写好了，其他的就是结构的梳理，完善代码：

1. import requests,re

2. from requests.packages.urllib3.exceptions import InsecureRequestWarning

3. requests.packages.urllib3.disable_warnings(InsecureRequestWarning)

4. from lxml import etree

5. target_url = 'https://www.xinyongheimingdan.cc/'

6. cookie = '你的cookie'

7. r = requests.get(target_url,headers={

8. 'Cookie':cookie

9. })

10. html = r.text

11. h = r"localHref\(\'(.*?)\'\)"

12. h_re = re.compile(h)

13. href_all = h_re.findall(html)

14.

15. for i in href_all:

16. url = 'https://www.xinyongheimingdan.cc/blacklist-' + i + '.html'

17. geturl = requests.get(url,headers={

18. 'Cookie':cookie

19. })

20. urlHTML = geturl.text.encode("utf-8")

21. htmlOBJ = etree.HTML(urlHTML)

22. nameOBJ = htmlOBJ.xpath('/html/body/div[2]/div/div/h2/text()')

23. sfzOBJ = htmlOBJ.xpath('//h3[@class="margin_top_15"]/span[@class="inline"]/i[1]/text()')

24. phoneOBJ = htmlOBJ.xpath('//*[@id="body"]/div/div/h3[1]/span[2]/i/text()')

25. wechatOBJ = htmlOBJ.xpath('//*[@id="body"]/div/div/div[3]/span[1]/text()')

26. alipayOBJ = htmlOBJ.xpath('//*[@id="body"]/div/div/div[3]/span[2]/text()')

27. all_info = nameOBJ,sfzOBJ,phoneOBJ,wechatOBJ,alipayOBJ

28. print all_info

成果：

网信贷黑名单网站截图： <img src="https://file.jobplus.com.cn/2017/07/24/0859831dcc9c42e3901a69512b91e2c0.png" _src="https://file.jobplus.com.cn/2017/07/24/0859831dcc9c42e3901a69512b91e2c0.png"/> 真实数据截图：<img src="https://file.jobplus.com.cn/2017/07/24/55de2c5159db4afcaedc3375d2397462.png" _src="https://file.jobplus.com.cn/2017/07/24/55de2c5159db4afcaedc3375d2397462.png"/> 我这里想爬取这些个人的信息，但是有些内容是需要登陆才可以查看的，所以先去注册了一个账号。登陆进来后得到的内容是完整的：<img src="https://file.jobplus.com.cn/2017/07/24/95e42f515c9d4d34a7eac4b418b0ce4f.png" _src="https://file.jobplus.com.cn/2017/07/24/95e42f515c9d4d34a7eac4b418b0ce4f.png"/> (PS：这里就不激活邮箱了)– 结构分析&代码编写这些被黑名单的人信息是首页点入进去的，对比下：<img src="https://file.jobplus.com.cn/2017/07/24/98d563b7909142da9a704a5d3758ea67.png" _src="https://file.jobplus.com.cn/2017/07/24/98d563b7909142da9a704a5d3758ea67.png"/> 1. <tr onclick="localHref('jgp94CtrsB')" class="pointer"> 点开后的链接是：acklist-jgp94CtrsB.html相信大家一眼就看出来了规律吧，显示的HTML代码中有链接特征。根据链接的规则我们可以写出这样一段python代码：1. target_url = 'https://*.cc' #设置url 2. r = requests.get(target_url) #访问url 3. html = r.text#获取html代码 4. h = r"localHref(\'(.*?)\')" #正则代码 5. h_re = re.compile(h) #生成正则 6. href_all = h_re.findall(html) #正则匹配出链接特征 7. for i in href_all: #匹配出来的链接特征需要用for遍历 8.    url = 'https://*.cc/blacklist-' + i + '.html' #遍历出来组合成url 现在我要获取的是“姓名、身份证、手机号、微信、支付宝”，这里我使用的是XPATH来获取这些数据，因为这样更简单一些。大概的来了解下XPATH的语法吧：<img src="https://file.jobplus.com.cn/2017/07/24/e4184501338b4c82aef31a877ccfa47f.png" _src="https://file.jobplus.com.cn/2017/07/24/e4184501338b4c82aef31a877ccfa47f.png"/> 这里完全可以使用更快速的方法：<img src="https://file.jobplus.com.cn/2017/07/24/cd95cd5bb24c4346a3cfd2f48619603b.png" _src="https://file.jobplus.com.cn/2017/07/24/cd95cd5bb24c4346a3cfd2f48619603b.png"/> 直接使用Firebug或者其它浏览器的Copy XPath：<img src="https://file.jobplus.com.cn/2017/07/24/fcc41d3d9203428a8d1599a7812f57f0.png" _src="https://file.jobplus.com.cn/2017/07/24/fcc41d3d9203428a8d1599a7812f57f0.png"/> 得到的XPath语法：1. /html/body/div[2]/div/div/h2 我们要获取的名字是h2标签内的所以直接修改成：1. /html/body/div[2]/div/div/h2/text() 直接上Python代码：<img src="https://file.jobplus.com.cn/2017/07/24/1ecdf121ed4745178d505030db26133a.png" _src="https://file.jobplus.com.cn/2017/07/24/1ecdf121ed4745178d505030db26133a.png"/> (注：from lxml import etree 是支持XPath语法的库)可以看到输出的结果是unicode编码 ，直接解码就显示了：<img src="https://file.jobplus.com.cn/2017/07/24/fa1b45816e3f42b98170abedc3094a5c.png" _src="https://file.jobplus.com.cn/2017/07/24/fa1b45816e3f42b98170abedc3094a5c.png"/> 其他的XPath代码：1. sfzOBJ = htmlOBJ.xpath('//h3[@class="margin_top_15"]/span[@class="inline"]/i[1]/text()') #身份证 2. phoneOBJ = htmlOBJ.xpath('//*[@id="body"]/div/div/h3[1]/span[2]/i/text()') #手机号 3. wechatOBJ = htmlOBJ.xpath('//*[@id="body"]/div/div/div[3]/span[1]/text()') #微信 4. alipayOBJ = htmlOBJ.xpath('//*[@id="body"]/div/div/div[3]/span[2]/text()') #支付宝 这里要记得加上登陆的Cookie去访问哦：1.在控制台输入document.cookie获取Cookie<img src="https://file.jobplus.com.cn/2017/07/24/c560c9efd1ad47adb4c68a79fc81833c.png" _src="https://file.jobplus.com.cn/2017/07/24/c560c9efd1ad47adb4c68a79fc81833c.png"/> 2.带上Cookie请求访问1. geturl = requests.get(url,headers={'Cookie':'__cfduid=d8b7bef3c3b678161d9fe747ccb651cea1499931877; PHPSESSID=mp6oh6j7o03hqd42n06r9p2bii;  2. AJSTAT_ok_pages=5; AJSTAT_ok_times=1; _ga=GA1.2.1572452184.1499931870; _gid=GA1.2.2100292624.1499931870'}) – 最后核心的代码都写好了，其他的就是结构的梳理，完善代码：1. import requests,re 2. from requests.packages.urllib3.exceptions import InsecureRequestWarning 3. requests.packages.urllib3.disable_warnings(InsecureRequestWarning) 4. from lxml import etree 5. target_url = 'https://www.xinyongheimingdan.cc/' 6. cookie = '你的cookie' 7. r = requests.get(target_url,headers={ 8.     'Cookie':cookie 9.     }) 10. html = r.text 11. h = r"localHref\(\'(.*?)\'\)" 12. h_re = re.compile(h) 13. href_all = h_re.findall(html) 14.  15. for i in href_all: 16.     url = 'https://www.xinyongheimingdan.cc/blacklist-' + i + '.html' 17.     geturl = requests.get(url,headers={ 18.             'Cookie':cookie 19.             }) 20.     urlHTML = geturl.text.encode("utf-8") 21.     htmlOBJ = etree.HTML(urlHTML) 22.     nameOBJ = htmlOBJ.xpath('/html/body/div[2]/div/div/h2/text()') 23.     sfzOBJ = htmlOBJ.xpath('//h3[@class="margin_top_15"]/span[@class="inline"]/i[1]/text()') 24.     phoneOBJ = htmlOBJ.xpath('//*[@id="body"]/div/div/h3[1]/span[2]/i/text()') 25.     wechatOBJ = htmlOBJ.xpath('//*[@id="body"]/div/div/div[3]/span[1]/text()') 26.     alipayOBJ = htmlOBJ.xpath('//*[@id="body"]/div/div/div[3]/span[2]/text()') 27.     all_info = nameOBJ,sfzOBJ,phoneOBJ,wechatOBJ,alipayOBJ 28.     print all_info 成果：<img src="https://file.jobplus.com.cn/2017/07/24/dab508a5259f4502ba399332c80c2991.png" _src="https://file.jobplus.com.cn/2017/07/24/dab508a5259f4502ba399332c80c2991.png"/>

关于我们

法律声明

帮助中心

商务合作

相关文章

关于我们

法律声明

帮助中心

商务合作