I.引言
值此情人节之际,祝天下有情人终成眷属。
1 | The knowledage of this article is shallow. Please read it in an ornamental angle. |
本文使用的是 python3 下的 pandas,matplotlib,PIL,numpy 等库。由于本次的源码太乱(好吧是我懒的整理了),本文将只说明过程,不展示代码。
II.开始
数据预处理
首先从 QQ 电脑版的消息管理器中导出了 txt 和 mht 两种格式的聊天记录,打开 txt 文件发现消息记录一共78755
行。
看起来消息记录的格式很规范,于是便想先用正则表达式
把 txt 文件保存成 csv 文件。
1 | time_patten = ".*([0-9]{4}[-/][0-9]{1,2}[/-][0-9]{1,2}?)[\s]*([\d]*:[\d]*:[\d]{2}?)[\s]*(.*)?" #时间正则表达式 |
整理成如下格式:
然后对无效数据和非法数据进行了过滤,开始正式数据分析(WordCount)
。
1 | Probably the following word is dog food. |
聊天次数
从数据上来看,我在7月16日
竟然发了350
多条消息。我们的感情或许就是从这天开始的吧。
哦我的上帝!我的小姐儿竟然跟我在同一天发消息最多,竟然达500
多条。或许这就是话 lao 吧(哈哈)。
这张图是每个月的聊天数量,原来我们在 QQ 上还发了这么多消息,平均都在2000
多条,最高竟然近6000
条,要谈成网恋了哈哈。
聊天时间
柱状图似乎只能看出来每晚睡九个小时啊,换种图:
小提琴图似乎能够看出来聊天密度集中在下午和晚上,可能某人的生活中没有上午吧。
原以为热点图可以显示我们在什么时间上聊天最多,结果就成了这样全是黑点了。
聊天关键词
这是我的聊天关键词
这是小姐儿的
不知道为啥子哦,不
字为啥子出现的频度这么高哦
来一张词云!
哇,不行,这不够优雅!过滤重来!
啊,我尽力了。。。这我感觉可以组个句子!
1 | 感觉我喜欢和学姐在宿舍玩手机。 |
心情分析
好了,前面都是盲目分析,这个地方应该认真起来了。在一起呢,重要的是要开心!
这个是小姐儿的心情分析曲线,我,的,天!这个类似的正弦曲线是什么鬼!不过的确最近的心情不是很好,嗯,应该多陪陪猪佩奇了。
我的心情曲线说明了我的情绪波动比较大,或许我应该沉稳点了。。。
总结
When you finish reading this article, you will know the love with us ,Happy Valentine’s Day!