数据不八卦,跟我从零做一次「数据收集与分析」
通过对近期热门的“薛李事件”追踪,教你如何有效进行数据爬取和分析。
不得不说呢,我是一个非常八卦的产品经理~今天,就借目前比较火的《李雨桐与薛之谦事件》来做一个基础的数据分析吧。因为我也是一个新手,很高级的方法就暂时没掌握了。此篇答案作抛砖引玉。
前言
大家在平时如果需要进行一个需求说明或者是一些用户相关的展示,如果用到了一些可视化的数据图表,是会让自己的展示增色不少的。虽然目前可视化图表的制作手段已经很充分了,比如说:BDP个人版、百度图说、阿里巴巴DATAV。
这一类的可视化图表工具很多,具体功能大同小异。但是有了一个好的工具,一定是需要一些强有力的数据支撑,才可以保证论据的有效性。所以本篇文章准备借一个例子来讲一下平时进行数据分析会用到的工具和思路。希望对你们有用。
做数据分析之前应该要做的事情
那在做每一次的数据分析之前呢,有一个很重要的事情就是,你需要确定:预期从本次数据分析中收获哪些方面的内容。同时,也要思考清楚,是需要通过这次的数据分析去得到哪些结果?这些结果的关键影响因素是哪些?
那我们这次展示的是,通过数据分析,了解本次事件中的受关注程度、舆论走向、人群画像。
1.如何了解受关注程度(初级收集)
我们该怎么去判断一个事件的受关注程度呢?我们可以去看看有多少人关注了这件事情,在讨论这个事情,以及相关指数报告。
1)通过微博
李雨桐从9月12日第一次发博至今,粉丝从50W上涨到了166万,净增长116万,用时半月,能与这种速度媲美的,近期我能想到的就是《中国有嘻哈》里的嘻哈歌手了,大概是数以亿记的曝光。
微博除了能这样搜索以外,还有什么用法呢?你还可以这样进行搜索哦。
因为参考薛之谦是明星,所以之前的内容也很多,所以这里放他的搜索结果没什么说服力。而有关李雨桐的微博,截止至9.26有2.8E条之多了。
2)通过各类指数网站
比如百度指数、新浪-微指数、阿里指数-电商向、艾瑞指数。百度指数中,李雨桐的指数是这样的。
不得不说这个上升的变化率,真的是很长。长到我数不清了,因为发博之前(9.12日之前)李雨桐的搜索指数几乎为0。
热度的顶峰是因为9.22重磅微博:超级石锤!薛之谦原版录音!典藏版!13分钟的音频竟然可以有6200W次的播放!!如果放到各大音乐App上,肯定瞬间成为音乐风云榜的榜首了。
2.如何收集人物画像
其实对于人物画像的收集,我们需要先确定,是在哪些场景之下的用户。那这次是事件比较简单,就是爆发在微博上的,所以就选择关注了这些事件的用户进行分析了。
1)简单方法:微博微指数
如果我们不去寻找过去精确的结果,那就可以直接通过微指数中看到一些我们需要的数据了。比如我们由此可以知道,八卦这件事情呢,女生肯定是大比重的,所有关注李雨桐事件里的用户,有70.92%是女性。
同时还可以查看年龄的比重:越年轻,越八卦是没错的。
但是我们在收集数据的时候需要切记,有些数据可能参考价值不是那么高。比如星座标签,发现是魔蝎座的用户占比最高,而且还高不少,难道是因为魔蝎座更八卦吗?没那么玄乎吧。
然后我就去查了一下魔蝎座是生日在12月22日~1月19日,是不是因为注册微博的用户如果没有填写生日信息就默认是1.1日出生了,所以魔蝎座的比较多呢?(这些只是个人猜测)
3.通过简单的爬虫来研究舆论走向
说到这里肯定有很多同学难受,因为爬虫一般来说需要代码基础的嘛。
的确如果学过Python语言,去写爬虫的效率会高上不少,而且能够爬到的资料也会丰富的很多。但是我当然不是来产品论坛里讲代码的啦,所以我会分享一款简单易用的爬虫工具,保证每个同学只要使用了基本就没什么问题可以爬,不过能爬到的东西会少一些、也无法调用多线程。
先展示一下我用爬虫收集到的数据:
不好意思上错图了,如果没有技巧的去爬虫,会遭遇新浪的反爬措施的,比如把你的IP给暂时封了。当然,网上也有很多反反爬的手段,这里不细说哦。这里是大概一份未处理的原始数据。
我只收集了评论者的评论内容与性别,因为我是对舆论走向比较感兴趣。但是如果有想要深度探究的同学,完全是可以继续去收集每个评论者的地区、院校、昵称、关注数、粉丝数、微博数、简介(我们可以通过这些来鉴别他可能的一些兴趣爱好,以及他是不是一个僵尸号!)
我要介绍的是一款chrome浏览器的插件,他叫做Web Scraper,他的界面大概是这样的。
爬虫在Python里面的代码是通过import scrapy来开始的,是同一回事哦哈哈。该怎么操作呢,首先是需要下载谷歌浏览器,这个web scraper是上面的一个插件。
你可以爬取许多显性不需触发一直显示的资料(比如文字、图片),比如下图红框中的所有信息,都可以爬下来,不过需要根据内容的多少定实际时间的长短了。
有兴趣的同学,可以在下载后,进行如下操作:
1)打开插件
2)选择Import sitemap,进入这个界面
3)在Sitemap JSON框内,输入如下代码
{"selectors":[{"parentSelectors":["_root"],"type":"SelectorText","multiple":true,"id":"word","selector":"span.ctt","regex":"","delay":"500"}],"startUrl":"https://weibo.cn/comment/FmXu3pDCs?uid=1810037440&rl=0&page=[200]","_id":"li123"}
4)输入一个名字,这个随便你们。
5)点击这个Scrape,它在Sitemap菜单里。就会实现自动爬取李雨桐200页的微博了。
这个工具的好用之处在于,不需要设置什么复杂的东西(包括上面那一段代码,也不是我自己输入的,在完成点选以后会自动生成的),所以很方便产品小白使用的。
以下展示第三部分:舆情走向的展示(主要内容为八卦分词)
如果我们通过分析后,得到了几十上百万条微博评论,虽然已经有了原始数据,但是必须要做进一步的分析,不然这东西完全没办法看你说是不是!先看看分析结果:
这是9.12李雨桐发出第一条微博时,底下骂声一片的评论,我通过分词(后面会讲到方法)的方法,这是几个高频的词汇:
找李雨桐要证据的人有24.8%,说她蹭热度和恶心的人也在18%左右。当然,这个数据是9.12日刚发微博不久的10W条评论的统计。
然后时间到了9.15日,这是薛之谦第一次发微博回应的时候,内容大概是。
能够进前排的高频词汇都是下面这些,表达了正面性词汇(相信、支持、爱你、挺你一类的)占了几乎60%,而剩下的也有许多是在攻击李雨桐。
然后,9.19,李雨桐再次发微博。
因为李雨桐之前放出的石锤,以及薛之谦的不做解释,大家可以发现,在本次对于李雨桐的评论中,表示相信、站你、支持的正面词汇变多了。
本次回复中,统计相信、支持、加油、求更新、实锤等词汇约占总评论的24.4%。而在9月21号,薛之谦再次放出新的截图(据说是P的,知乎上有大神发现了)。
然后,大家可以从新的分词云中看出,薛之谦评论中的高频词汇,除了“永远支持你”“支持老薛”这些以外,多了“吸精”“辣鸡”“渣”等词。这说明舆论走向正在变啊。
最大最重磅的改变,是在9.22日,李雨桐发出录音的微博,上面有过截图的。
点击量非常的高,然后我再次进行爬取评论并进行高频分词,发现了如下的情况。
是还有不少人说李雨桐恶心的(因为居然偷偷留了一手录音)料谁也没想到吧。但最主要的评论走向还是在支持李雨桐上的,而看到评论列表中,几乎所有的热门评论一致都是在站李雨桐的。根据统计,约有七成以上的评论是对李雨桐表达肯定意见了。这场娱乐圈大战的舆论走向最终以此告终。
最后,我们谈谈技术
以上的分词展示,我相信应该是有不少产品的同学想学一下的吧?其实对于很复杂的文本数据(最近统计了几百万条微博评论,大约有几百M的文字数据),通过分词的手段可以很好的处理这些数据。
分词我使用的方法是jiaba分词,以下两个链接是关于jieba的一些内容,可以浏览到一些官方的信息。
jieba分词-GitHub
Python手册-jieba分词
如果同学们学会了使用jieba分词,就可以很轻松的把excel中繁杂的文本数据一次搞定了。但是,这些前提是,你要学过Python啊。
那么如果没学过Python怎么办呢?也很简单,我已经把这个代码写好了,你只需要按照我说的方法进行操作,就可以成功进行分词了!
首先,第一步
打开Python官网,进行下载Python2.7.14。
记住!这里需要下载的是2.7.14,下载了3.6.2会无法使用我的代码。
安装完成后,进行如下操作!
1.安装jieba
安装步骤,首先打开运行,就是这个玩意
输入cmd以后进入终端
输入
pip install jieba
输入后直接按回车,你会看到各种行动条,后面提示successfully就可以了。
2.下载我给的代码文件(关注我的微信公众号pmdiray123,回复“分词代码”)
对,就是他
3.在当前目录下,创建2个TXT(UTF-8编码)文件,听好了这里是重点
一个txt文件命名为word.txt,这个文件里是你的原始数据,可能是几十万字的评论,没关系的,代码处理的很快。
另一个txt文件命名为newdict.txt,这个文件是词典,在这里你添加一些可能你判定会有的高频词汇。
这样就ok了。后面你的文件夹内有的文件是需要这样的。
然后单击jieba.py就会开始自动分析了。
分析时长会在几分钟内。你就会发现该文件夹多了2个文件了,然后你打开文件会发现如下的内容。
脚本已经帮你分词而且按词频排列好啦~然后当你成功分词并获得词频以后,就可以很轻松的制作词云啦。词云做法请参考以下网址。
除了 Tagxedo外,还有什么好的软件制作可以词云?
登录 | 立即注册