plainify

为了更好的运营,我剖析了某公众号的数据

完整源码可在公众号:「01 二进制」后台回复:「公众号数据分析」获取 1. 前言 在同学的影响下,我在 18 年 9 月注册了一个公众号「01 二进制」,因为种种原因(其实就是懒)直到 11 月 11 日才在这个公众号上发布了第一篇文章。到写这篇文的时候,我已经发布过 21 篇文章,用户也只有 86 人,这不禁引发了我深深的思考。为啥我的公号没有用户? 为此我还特地请教了我的好友 🐔 哥,他告诉我,文笔是一方面,另一方面还要能抓住热点,说完便给我发了一份某知名公众号的相关数据,让我给安排安排。 这不,一分析才发现原来想让公众号有阅读量也是要讲究套路的,接下来就让我们以一个 coder 的角度去分析下究竟是哪些套路吧。 2. 分析目的 笔者在本项目中的分析目的主要有 3 个: (1)对某知名公众号内容运营方面的若干分析,主要是对发文量、点赞量、发文时间等方面的描述性分析; (2)通过对标题的分析,来说明什么样标题更受人喜欢; (3)将冗杂无序的结构化数据和非结构化数据进行可视化,展现数据之美。 3. 实验环境 工欲善其事,必先利其器,在开始分析之前,我先说明此次分析所处的实验环境,以免出现异常: MacOS 10.14.3 Python 3.6.8(Anaconda) Visual Studio Code(开发) Jupyter Notebook(调试环境) 使用的包有: pkuseg(分词) pyecharts(绘图) numpy(数学计算) pandas(数据计算) 4. 数据获取及预览 4.1 数据获取 本次数据集是通过网络爬虫爬取某公众号的所以文章整理而成,该部分不进行阐述,需要数据集可以直接下载源码查看或者在公众号:「01 二进制」后台回复:「公众号数据集」获取。 4.2 数据预览 在该项目中,我使用了 Pandas 进行数据的读取和预览,Pandas 在数据科学中使用非常广泛,有兴趣的小伙伴可以去搜索相关资料了解下。...

plainify

当 Python 遇到了你的微信好友

临近毕业,慢慢的也感伤起来,回想大学这几年,除了技术的成长,最值得庆幸的就是结交了一帮志同道合的好友。后期自己做了公众号,微信好友的数量也越来越多,身边人所扮演的角色也越来越丰富,有早已结婚生子为人父母的同学,有沉迷科研学术的教师,当然也少不了一众还在 996 的程序猿。事实上,你所处圈子的质量很大程度上就决定了你的人生质量,那么今天我们就来看看当 Python 遇到了你的微信好友后能擦出怎样的火花。 完整代码可在公众号:「01 二进制」后台回复:「微信好友」获取_ 前言 这次我们直奔主题,本文要做的是以下几件事: 分析微信好友的总人数、男生数、女生数、男女比 分析好友的地域分布 利用 自然语言处理 的方法分析出你好友的情感倾向 获取微信好友的头像并拼接成指定图片 准备 还是老样子,做实验前,先做好准备工作,实验环境如下: Python 3.6 (虚拟环境的管理为 Pipenv) Pycharm 主要使用到的包有: itchat pyecharts baidu-aip photomosaic pillow 对 Pipenv 这个虚拟环境管理工具不熟悉的可以去看我之前的文章:《Python 管理哪家强?》,里面对于 Pipenv 这个虚拟环境管理工具有一些介绍。 itchat 是一个开源的微信个人号接口,可以让我们使用 python 来调用微信 pyecharts 是 python+echarts 的结合,用于进行数据的可视化 baidu-aip 是百度推出的一个 nlp 的包 photomosaic 是用来生成蒙太奇马赛克图片的 大家获取到源码之后只需要将 Pipfile 复制到你们的项目根路径下,然后再终端执行 pipenv install 即可创建一个安装好所有包的虚拟环境了(前提是你的电脑上已经安装了 pipenv 了)...

李鬼见李逵——我用翟天临的论文做了分析

完整源码可在公众号:「01 二进制」后台回复:「翟天临」获取 昨天是元宵节,在南京,元宵节一到也意味着这个年过完了,我们也该回到自己的工作岗位上了。都说今年的瓜特别多(葫芦娃的那种),但是过年期间最甜的我想非翟天临的“知网是什么?”莫属了吧。 前段时间,微博上开始不断爆出翟天临学术不端,论文抄袭的消息,以至于牵扯到其导师、院长甚至整个北京电影学院。 我平常不怎么关注娱乐圈,所以刚开始并没有把这件事放在心上,直到网上爆出翟的论文大篇幅抄袭陈坤论文的消息,我才对这位娱乐圈博士的文章起了兴趣。接下来就让我们以一个 coder 的角度来硬核分析下翟的论文吧。 实验环境 工欲善其事,必先利其器,在开始分析之前,我先说明此次分析所处的实验环境,以免出现异常: MacOS 10.14.3 Python 3.6.8(Anaconda) Visual Studio Code 使用的包有: pkuseg(分词) matplotlib(绘图) wordcloud(词云) numpy(数学计算) sklearn(机器学习) 数据获取 说实话,起初我以为就算翟不知“知网”为何物,“知网”也该收录翟的文章吧,可我在知网搜了好久也没能找到翟的论文,好在我在今日头条上找到了他的文章,保存在data/zhai.txt中。说到这,还真要感谢翟天临啊,都是因为他,大家才变得这么有学术精神,开始研究起本科硕士博士论文了。 数据清理 上一节我们已经将他的论文保存到一个 txt 中了,所以我们需要先将文章加载到内存中: # 数据获取(从文件中读取) def readFile(file_path): content = [] with open(file_path, encoding="utf-8") as f: content = f.read() return content 我统计了下,除去开头的标题和末尾的致谢,总共 25005 个字。 接下来我们来进行数据清理,在这里我用了pkuseg对内容进行分词处理,同时去掉停用词后输出分词的结果。 所谓停用词就是在语境中没有具体含义的文字,例如这个、那个,你我他,的得地,以及标点符合等等。因为没人在搜索的时候去用这些没意义的停用词搜索,为了使得分词效果更好,我就要把这些停用词过滤掉。 # 数据清理(分词和去掉停用词) def cleanWord(content): # 分词 seg = pkuseg....