完整源码可在公众号:「01 二进制」后台回复:「翟天临」获取
昨天是元宵节,在南京,元宵节一到也意味着这个年过完了,我们也该回到自己的工作岗位上了。都说今年的瓜特别多(葫芦娃的那种),但是过年期间最甜的我想非翟天临的“知网是什么?”莫属了吧。
前段时间,微博上开始不断爆出翟天临学术不端,论文抄袭的消息,以至于牵扯到其导师、院长甚至整个北京电影学院。
我平常不怎么关注娱乐圈,所以刚开始并没有把这件事放在心上,直到网上爆出翟的论文大篇幅抄袭陈坤论文的消息,我才对这位娱乐圈博士的文章起了兴趣。接下来就让我们以一个 coder 的角度来硬核分析下翟的论文吧。
实验环境 工欲善其事,必先利其器,在开始分析之前,我先说明此次分析所处的实验环境,以免出现异常:
MacOS 10.14.3 Python 3.6.8(Anaconda) Visual Studio Code 使用的包有: pkuseg(分词) matplotlib(绘图) wordcloud(词云) numpy(数学计算) sklearn(机器学习) 数据获取 说实话,起初我以为就算翟不知“知网”为何物,“知网”也该收录翟的文章吧,可我在知网搜了好久也没能找到翟的论文,好在我在今日头条上找到了他的文章,保存在data/zhai.txt中。说到这,还真要感谢翟天临啊,都是因为他,大家才变得这么有学术精神,开始研究起本科硕士博士论文了。
数据清理 上一节我们已经将他的论文保存到一个 txt 中了,所以我们需要先将文章加载到内存中:
# 数据获取(从文件中读取) def readFile(file_path): content = [] with open(file_path, encoding="utf-8") as f: content = f.read() return content 我统计了下,除去开头的标题和末尾的致谢,总共 25005 个字。
接下来我们来进行数据清理,在这里我用了pkuseg对内容进行分词处理,同时去掉停用词后输出分词的结果。
所谓停用词就是在语境中没有具体含义的文字,例如这个、那个,你我他,的得地,以及标点符合等等。因为没人在搜索的时候去用这些没意义的停用词搜索,为了使得分词效果更好,我就要把这些停用词过滤掉。
# 数据清理(分词和去掉停用词) def cleanWord(content): # 分词 seg = pkuseg.pkuseg() text = seg.cut(content) # 读取停用词 stopwords = [] with open("stopwords/哈工大停用词表.txt", encoding="utf-8") as f: stopwords = f.read() new_text = [] # 去掉停用词 for w in text: if w not in stopwords: new_text.append(w) return new_text 执行结果:
这里我提两点: 为什么分词工具用的是pkuseg而不是jieba? pkuseg是北大推出的一个分词工具,官方地址是:https://github.com/lancopku/pkuseg-python,他的README中说他是目前中文分词工具中效果最好的。
...
树莓派家用指北
前两天刚刚入职,最近几天忙着租房搬家,忙活了几天总算是住进了自己小屋里,作为一个软件工程师,怎么可以没有一台家用服务器呢?方案有很多种,上至几千元的 NAS,下至淘汰的老电脑,但是旧电脑响声大功耗高,NAS 动辄三四千的价格对我这个刚毕业的大学生来说着实有些困难,于是我将目光放到了另一个小玩意上——树莓派。
我选择树莓派的原因也很简单,第一便宜,第二可查阅的资料非常多,基本上你之后使用过程中的问题网络上都有解决方案了,因此本文不会介绍怎么使用树莓派,怎么烧录系统,这些东西有太多人写过了,我重复写也没什么意思,因此这块内容我就一笔带过了,本文是我自己的家用服务器方案,更多的是提供一个方向性的指导,如果你觉得我的文章对你有所帮助,欢迎点个关注支持一下哦~
什么是树莓派? 打开任何一个搜索引擎在里面输入**「树莓派」**三个字都会出现很多内容,其实树莓派本质上就是一台小电脑,虽然外形只有信用卡大小,却具有电脑的所有基本功能。和我们平常用的电脑不一样的是,树莓派自身是没有屏幕、键盘、鼠标这些东西的,但是它提供了网口、USB 口以及视频输出口(其实意思就是让你自己配)。
当然了,树莓派和主流电脑一个很大的区别就是他的芯片,和主流的 x86 桌面级电脑不同的是,树莓派用的是低功耗的 ARM 芯片,因此在性能上和常规电脑还是有些差距的,不过随着近年来 ARM 芯片的不断发展,其性能已经和传统 x86 处理器不相伯仲,甚至在某些方面遥遥领先,例如苹果的 M1 芯片。这里推荐阅读我之前写的两篇文章 👉《M1 暴打 Intel?——x86 与 ARM 的爱恨情仇》和《M1 暴打 Intel?——这次的芯片有何不同》
好在在学校的这些年,有一些闲置的键盘、鼠标和移动硬盘没来得及出手,于是我便果断的选择了树莓派作为我的家用服务器。
树莓派的选择 打开淘宝搜索树莓派,眼花缭乱的,那应该如何选择呢?
其实很简单,虽然树莓派的型号众多,但是细分下来也只有三类:
Model B 系列:旗舰版,接口全,性能强 Model A 系列:青春版,外形小,性能一般,配置和接口略有阉割 Zero 系列:迷你版,拥有超小身材,性能较弱 目前,树莓派已经发展到了第四代了,如果资金不是非常紧张的,推荐购买树莓派 4B 版,官网对他的介绍如下:
相较于前代,处理器性能大幅增强,并且最高支持 8G 内存,支持 4K 视频输出,同时使用 USB- C 供电,完全可以作为一个桌面级电脑使用了,用作家用服务器绰绰有余了。
操作系统选择 说完了树莓派的硬件,怎么可以离开软件呢?树莓派相较于传统电脑另一个好处就是可以自由选择烧录的操作系统,官方推荐的是 Raspberry Pi OS,系统的烧录网上的教程太多了,这里我推荐直接使用官方提供的烧录软件**「Raspberry Pi Imager」**,从下面的图中也可以看出来是一个非常容易上手的软件了。
SD 卡选择 16G 的即可,如果容量大一些也是可以的,读写速度自然也是越快越好了,这里我烧录的系统是官方推荐的 Raspberry Pi OS,针对树莓派进行了性能优化,由于是基于 Debian 开发的操作系统,经常使用 Ubuntu 的同学上手难度会稍微低一些。
...
梦回2009——QQ for Linux
我时常会想起 10 年前的某个夏日午后,阳光灿烂,微风习习。那一年,我 12 岁。
那时候没有工作,没有烦恼,有新鲜空气可以呼吸,有假期可以期待。我喜欢的那个打着辫子的姑娘,就坐在我前面。而我刚刚考了全班第一,走上人生的巅峰。
想回到过去,你可能需要一个小叮当;但想体验过去,你只需要 QQ for Linux!
作为国内聊天软件的头头,QQ 陪伴了很多人的青春,在使用 MacOS 前,我很享受使用 Linux 的便捷体验,但QQ、微信这类软件只能通过 wine 在 Linux 上使用却又让我十分头疼,刚在 Windows 上打游戏,头一回被腾讯拉回 Linux。
10月24日,在这几乎没人关注的节日里,QQ 的程序员们给自己送上了一份大礼,QQ for Linux。
并且支持x64、ARM64和MIPS64架构
官网的安装帮助也十分详细,详情点击👉https://im.qq.com/linuxqq/download.html
安装体验 上图是官网给出的部分的安装建议,这里我选择 shell 脚本的通用安装方式,使用这种方式安装有一个好处就是不需要考虑不同Linux发行版的包结构问题,相比于繁琐的wine,我们只需要两条命令即可梦回2009。
我使用的是Ubuntu 18.04,centos/manjaro等其他Linux发行版的安装过程类似。
首先先将安装脚本下载到本地
然后在该路径空白处右键打开 terminal
修改脚本执行权限
chmod -R 777 linuxqq_2.0.0-b1-1024_x86_64.sh 执行安装脚本
sudo ./linuxqq_2.0.0-b1-1024_x86_64.sh 这里一定要以root用户进行操作,否则会无法安装。执行脚本的结果如下图所示。
到这里我们就安装成功了,打开应用程序就可以看见熟悉的QQ了。
相较于在Linux下使用wine来安装QQ,正规军QQ for Linux的安装过程简直过于简洁,只是当我打开这个程序的时候,一股浓浓的历史感扑面而来。
对比下QQ 2009 的UI,我这是穿越了🐎
等我打开了聊天界面后
看到这个上古时代的UI,内心十分感慨,QQ for Liunx终于想起了他最重要的作用——传文件,相信之后手机和Linux系统互传文件就会方便很多了。
...
此生无悔入漫威
★★★★★
漫漫英雄路,终有落幕时。《复仇者联盟4》,我给五星好评!
今天凌晨去看了复仇者联盟4的首映,看完我只想说,漫威,真有你的。作为一个90后,我起初并不懂为什么30年前的星战系列会如此火爆;也并不懂10多年前的指环王为什么被那么多人说堪称史诗,如今看完这部长达3小时的终局之战,我才明白了十年一役所承载的份量。
我第一次接触漫威还是在小学,那个时候每天中午回家就是打开中央少儿看《蜘蛛侠》的动画,就是下面这个。
当时我也不知道什么是漫威,也不知道他是国外的一个超级英雄,只觉得他好帅。然后后来出了超凡蜘蛛侠的动画,再然后家里有了电脑就开始看蜘蛛侠的电影(那时候还是托比·马奎尔的三部曲)。也是那时我才知道原来蜘蛛侠的背后是一个叫漫威的公司。因为高中的学业太过紧张,直到高考结束我才重新接触到漫威电影。
那时候看的电影是《复仇者联盟2奥创纪元》,初看我对里面的人物关系一窍不通,不懂他们集结的目的,不懂他们为何要战斗(当时纯粹是高考结束想放松才去看的)。所幸后来在油管上看到一个YouTuber,他叫超粒方,我当时关注他的时候他还是一个只有几百订阅的影评人,如今已经有过59w的订阅量了。通过他我开始了解漫威,开始了解美漫,也理解了什么是“everything is connected my ass”。
超粒方在复仇者联盟3上映前做了一个叫《迈向无限之战》的系列解说,不会科学上网的可以在b站找到搬运,这是一个非常优秀的MCU解说系列,不仅可以帮你理清漫威的电影情节,更可以让你体会漫威电影独有的深度。
回到复仇者联盟4,这部长达三个小时的终局之战,有笑有泪,惊喜连连!如果你对漫威电影和漫威的漫画非常熟悉的话你会发现从头到尾有无数数不清的梗(everything is connected my ass)。观影期间,一到关键人物的爆发,全场尖叫、鼓掌,那种狂欢、热血、共鸣,是一个漫威粉丝对漫威11年22部电影铺垫出来的情绪的彻底释放和宣泄。私以为这是最好的漫威电影,首映观毕,全场掌声雷动,肆意狂欢,多年来一切属于漫威的记忆犹如昨日重现,涌上心头。一句“I AM IRONMAN! ” 既是开始也是结束。谢谢钢铁侠,谢谢漫威给我们带来的欢笑、泪水和感动,谢谢你给我带来的最好的漫威电影以及爱你的3000遍!
此生无悔入漫威!