nlp 归档 - Tinyfool的个人网站

Go语言的词干还原器库GoLem

tinyfool — Mon, 11 Dec 2023 13:48:44 +0000

英语的屈折形态

英语中的屈折变化是对英语单词的变形，以表示语法关系或词义的不同细节。这种变化主要包括名词, 动词和形容词的词态改变。

1. 名词的屈折变化里，最常见的主要是单复数形式。比如，“cat” 的复数形式是 “cats”，或者”child”的复数形式是”children”；另外还有所有格，如 “John” 改变为 “John’s” 表示John的东西或所有物。

2. 动词的屈折变化包括了进行时态 (“is doing”), 完成时态 (“has done”), 过去时态 (“did”), 过去分词 (“done”) 等。这种改变不仅表示了动作的时间，而且还体现了动作的完成度，主语与动词是否一致等。

3. 形容词的屈折变化主要体现在比较级和最高级上，比如 “big”, “bigger”, “biggest” 分别表示”大”、“更大”和”最大”。

词干还原/屈折还原

在进行字典查询的时候，我们有需要把单词的屈折变化还原，得到词干，这样才能更方便的去查询字典。

比如，字典只有cat这个词，但是我们有时候看文章的时候遇到的可能是cats这个复数形式。或者，我们看到的是doing、has done、did或者done，但是字典中只有do这个词条。

Golem

GoLem 是一个托管在 GitHub 上的开源项目，设计为用 Go 编程语言实现的基于字典的词形还原器。词形还原器是自然语言处理中使用的一种工具，用于将单词还原为其基本形式或词根形式。例如，它将单词“aligning”转换为“align”。

该项目位于 GitHub 存储库“aaaton/golem”下，因其支持多种语言的多功能性而特别引人注目。目前，它支持英语、瑞典语、法语、西班牙语、意大利语和德语。 GoLem 的灵活性允许添加更多语言，前提是这些语言有必要的词典可用。用户可以针对他们想要使用的每种语言单独获取这些词典。

Go语言的词干还原器库GoLem最先出现在Tinyfool的个人网站。

伊隆马斯克等1000多名精英签名呼吁暂停AI的发展，到底是怎么回事儿？

tinyfool — Sat, 01 Apr 2023 17:56:38 +0000

最近有一个新闻，是说有1000多名精英，包括马斯克美国精英签名呼吁所有的人工智能实验室立即暂停比GPT-4更强大的人工智能的系统的训练至少6个月。这是怎么回事儿？

这是一个假新闻么？并不是。

这个签名信是这个样子：

这信到底是怎么回事儿？

这封信是谁发出来的呢？这是一个叫做Future of Life Institute的机构，翻译过来就是未来生命研究所。它是一个非盈利组织成立于2014年，总部在美国的麻省的剑桥市。简称FLI，使命是促进人工智能、生物技术等领域的发展，但是同时确保这些技术的安全，尽量的减少负面影响。

很有意思的是，这个组织的主要投资人和联合创始人之一也是伊隆马斯克Elon Musk，他是大概在2014年还是15年投资了这个FLI，然后他也是在大概的时间点投资了OpenAI。他投资FLI的时候，他的目标是倡导道德安全、透明的使用人工智能，保证人类的安全。其实他投资OpenAI的时候其实也是这个目的。

我们最近可能看到这个Elon Musk对OpenAI有一些微词，因为他一开始认为他投资的是一家非盈利机构，就像他投资这个FLI一样。但是OpenAI现在发展成一个盈利企业，还拿了微软的投资，而且后来不开源了，等等。我们看到他投资的FLI和这个OpenAI的目的很像，所以这个签名里据说有Elon Musk的签名，并不稀奇，附和他的行事风格。

那么这个签名信到底写了什么呢？我把这个签名信整体扔到了ChatGPT里（虽然这个信是反对ChatGPT继续发展的，哈哈）让他翻译，然后让他做了个摘要，人工智能可能对社会和人类带来深刻的风险，因此有必要对其进行计划和管理。现在的人工智能系统正在成为人类一般任务的竞争对手，需要考虑其潜在的影响和风险。为了确保人工智能的安全，提议各个实验室立即暂停至少6个月培训比GPT-4更强大的人工智能系统，并利用这个暂停的时间共同制定和实施一套共享安全协议。同时，应加快发展强有力的人工智能治理系统，包括新建和有能力的监管机构以及应对人工智能将带来的经济和政治巨大的破坏的机构。

目前GPT系列可能带来的风险最大的是结构性失业。而我们知道，其实目前没有任何一家竞争对手有比GPT-3更强大的系统，遑论比GPT-4更强大了。也就是说，实际上这个公开信就是在反对OpenAI继续训练，让他们停6个月，给竞争对手跟上来的时间。

人工智能技术日新月异。GPT-3大概一年多前发布，ChatGPT是在去年年底发布的，GPT-4是最近发布的。这大概一年多，人工智能发展之快，让很多人都晕车。我们亲眼见证了ChatGPT横扫天下，所向披靡。

百度推出的文心一言，在发布会现场就当场就翻车了。现场不敢用真实的演示。后来文心一言的文生图功能，被大家发现其实是个套壳，因为你跟他说中文，他其实会翻译成英文，然后拿英文去输出一张图。例子很多，你要起重机，他给画个仙鹤。因为这两个单词是一样的，你要总线，他给你画一个公交车，你要鼠标，他给你画一个老鼠。这样的例子太多了，我们就不一一列举了。

如果他真的是一个用汉语语料和图像去训练出来的系统，表现绝对不会是这样。虽然百度天天嚷嚷说他们更懂汉语什么之类的这种这种屁话，但实际上他明显是套壳了一个英文的开源软件，或者说一个英文的现有系统，等这样的问题。

头两天我拿到了Bard，Google的类似的ChatGPT，或者说，更类似于New Bing的系统。我用起来也发现是不如GPT-3.5的，甚至不如GPT-3。连多语言支持都没有。

所以呢，停六个月，不要做比GPT-4更强大的系统。其实就是完全针对OpenAI的一种行动。

1000个精英的签名可信么？

那么现在说说这1000个签名。

据说Musk和Steve Wozniak都签名了。Steve Wozniak就是当年和乔布斯一块创建苹果的联合创始人。

我去查了下，签名里面果然有他们两个人。但是Musk的推特这两天没有提这封信，Steve Wozniak也没有提这封信。如果他们俩觉得这事儿很重要，都去签名了，那他俩为什么没有提这封信呢？当然，我们前面说了FLI就是Musk投资的，他会签名倒是不意外的。

而有人说Yann LeCun杨乐村也签名了。

Yann LeCun是一位著名的计算机科学家、人工智能专家和教育家。他是纽约大学的教授，是纽约大学计算机科学和数据科学中心的主任，同时也是Facebook AI研究实验室的创始人和负责人。他在深度学习领域有着很高的声誉，被誉为“深度学习之父”或“卷积神经网络之父”，并多次获得计算机科学领域的顶级奖项和荣誉。

而我去看杨乐村的推特，发现他直接辟谣了，他说，他根本没有签这个字，他不同意这个信的内容。

这是怎么回事儿？谁冒充了杨乐村，他怎么冒充的呢？

我自己看了下，原来这个公开信的所谓签名办法，就是一个简单的HTML form，就是一个简单表单。没有任何登陆，身份验证，你可以随便输入你的名字，邮箱，你的工作职位。你可以冒充任何人签名，我也不知道这个网站怎么根据这样的签名方法去验证一个签名是否某个真实存在的业界名人签字的。

有人说OpenAI的创始人Sam Altman，也签名了。这不符合常理，因为显然这个信是直接针对OpenAI的，目前Google还有其他公司并不会被影响。我去看了，当然确实可以看到Sam Altman的签名，但是后来就不见了。估计也是自己辟谣后，FLI主动删除的吧。（Sam Altman（萨姆·奥尔特曼）是一位著名的企业家、程序员和投资人。他生于1985年，毕业于斯坦福大学，曾创办过Loopt、Hydrazine Capital等公司，并且是现任OpenAI（人工智能组织）的首席执行官。除此之外，Sam Altman还是美国最顶尖的创业加速器Y Combinator的前任总裁。他致力于推动科技行业的进步，特别是人工智能领域。他的投资领域包括人工智能、生命科学、科技行业等领域，曾投资过Reddit、Airbnb、Stripe等知名公司。）

还有个把名人的签名出现了，后来又消失了，应该都是类似的原因。

信里的担忧在目前是有道理的么？

Elon Musk和Sam Altman啊，这个在GPT-2和GPT-3的时代，曾经就说过GPT已经有智能了，也曾经说过一些类似于奇点来临，大家要小心的话。

当时都被大家当做了一种笑话或者是一种科幻，没有人搭理。

但是到了ChatGPT出现以后呢，这种担忧引发了很多人的真实的共鸣。但是我认为这种担忧很大程度是因为不够了解ChatGPT的机理，或者叫做LLM的机理造成的一种结果。

其实我在之前的油管视频《ChatGPT真有9岁小孩儿的心智了？我们怎么判断出AI现在跟人类的智能还有很大区别？》里说过这个问题。ChatGPT到底有没有一个九岁小孩的智能。这是之前有一个研究，他拿一堆就是人类的这种心理学测试题，测人类认知水平的这种题，他测出来说ChatGPT有九岁的孩子的智商。那么如果他拿现在的GPT4去测，他是不是会测出来他有12岁或者是15岁，甚至18岁的这种这种认知水平呢。

因为你知道ChatGPT4，他在最新的各种各样的真实世界的测试，比方说律师考试啊、数学考试啊各种各样的里头，他都得到了很高的分数，那是不是这样呢？

我们首先还是要理解他的机理。我之前在那个“他是不是达到九岁智商”的视频里讲得非常详细。在这里我就不完全讲那么细了，我就大概还是再讲一下。

首先今天的GPT，它是一种service，它不是一个活着的生命体。它存在是一堆电脑上的一堆服务进程。它虽然表现出了智能，但实际上干的是什么事呢？

我们可以把它理解成一个对话框。你把一段话输给他，他会给你输出另一段话。他输出的结果，看起来是有智能的。

但是呢，如果你懂互联网或者说你懂计算机，你知道呢，它现在是一种叫做无状态的service。

就是它每次回答你的提问都是一次全新的行为，相互之间没有有关联。它回答张三和回答李四之间也没有关系。

很多人可能又理解不了，为什么好像跟ChatGPT聊天的时候，感觉他可以一句一句的聊，好像有记忆一样。

其实这不是他本身这个服务有状态，而是它用反复发送聊天历史的方式，来模拟出了一个有状态的感觉。

现在很多人拿到API了，他们拿到一开始拿到API抱怨，ChatGPT的网站不是可以记住上下文的连续聊天么？为什么我用的是API的时候就记不住内容呢。

实际上让你觉得ChatGPT有记忆的机制是这样的。

假设你们有如下的连续对话：

你说，“你好，我叫Tinyfool”

他说，“你好，Tinyfool”

你问，“我叫什么名字？”

他说，“你是Tinyfool”

他能回答，“你是Tinyfool”的原因不是他在两次回答之间产生了真正的记忆。甚至这两次回答，有可能不从同一个服务器发出。

它能回答的原因是，当你问“我叫什么名字？”的时候，它看到的问题其实是：

你说，“你好，我叫Tinyfool”

他说，“你好，Tinyfool”

你问，“我叫什么名字？”

你们之前的聊天是作为记录附加在你的新问题前面一起发出去的。这也就说明了很多人常见的一个抱怨，他们发现跟ChatGPT聊天聊多了，它可能就忘掉了之前被告诉过的事实。这是因为ChatGPT 每一次处理只能处理4096个Token （你大致理解为一个英文单词，单个汉字即可。）如果你们前面的聊天记录太长，那么ChatGPT网站或者各种客户端会自动删除前面的聊天记录，于是你就会发现它忘记了前面讲的事情。

ChatGPT每一个进程，不存在单独的内存。它没有记忆，它的记忆是通过一种人工给它加入历史记录的方式。

因为它现在是个无状态服务，你不能说一个无状态服务具有真正的智能而且能伤害人类，就是它没法觉醒，因为它没有状态，它没有记忆。

为什么ChatGPT做成一个无状态的服务呢？如果你是资深的架构师你就很清楚，目前ChatGPT每天要接受上千万次的访问，它的服务是几万甚至几十万台配置非常高的，装备了高价专业显卡的服务器构成的。这些服务之间没有状态，系统最好构建。如果试图让这个服务实现真的状态成本要翻无数倍。

所以，很多人可能会觉得说，我现在天天教ChatGPT说坏话，教它一些坏的事情，它是不是就学坏了。

首先，每次跟你服务的，跟我服务的ChatGPT是两个完全不同的进程。哪怕是服务我的两次ChatGPT进程往往也不是同一个进程。甚至可能不在同一台机器，直接是互相没有交互的。跟你聊天一时接受了什么信息，对我没有任何的影响。

而ChatGPT背后的GPT-3.5、GPT-4是训练成本非常高昂的。不仅从时间上来看，从花费上也是非常高昂的。即使OpenAI希望每天更新GPT引擎，也是没有办法的。

OpenAI说的人类的反馈会影响它的学习，可能被很多人误解。不是简单的说你跟ChatGPT说了什么都会被加入到训练语料里。

我们从OpenAI的GPT-3的论文里头可以看到它的语料是哪里来的。主要来自于三个地方：

一是Reddit的高于3个Karma的问答。Reddit有一个概念叫Karma，大概可以理解为被顶增加一个Karma，被踩减少一个Karma。高于3个Karma的问答，基本上可以理解为是首先不是无人问津，而且总的来说一定是顶的高于踩的。

二是来自于一些书籍的数据库，这些书可能包括一些没出版的和一些出版的书，这是公开的数据库。

三是来自于Common Crawl。Common Crawl是一个开源的全球合作抓取项目，几乎抓取全网的任何可以抓到的信息。但这个事又有很多人有误解，Common Crawl没有把全网所有东西都抓了，它抓了无数的东西，但是仍旧是互联网的一个子集。Common Crawl单独说起来是一个良莠不齐，泥沙俱下的语料库。OpenAI没有全盘接受，而是利用Reddit高于3个Karma的数据，做了一个分类器，用来评价一个互联网页面是否有价值。用这个筛选掉了Common Crawl的大量数据。

所以，ChatGPT不可能无所不知，它确实知道很多事情。它的信息也不够新，训练语料有截止日期，ChatGPT3.5的是2021年年底。

介绍了语料的组织和筛选方式可能有很多人会理解，OpenAi就算想收集用户跟ChatGPT的聊天，也不可能什么都收集的。做一个模型，垃圾进则垃圾出，信息进才能信息出。

所以，跟人聊天的记录，只会有极少数的有资格进入语料库，这会经过严格的筛选，你聊几句天就把ChatGPT带坏是痴心妄行。

实际上所谓的人类的反馈能够帮助ChatGPT，是你帮它找出来它的漏洞。就是说当ChatGPT回答了一个问题以后，你不满意这个回答，你点了踩，或者点了赞。这些情况可能会被收集和整理，去评估去指导未来的训练。而不是直接把你的对话当作一种训练放进去。这个可能是我觉得很多人的一个误解。

它不是一个真正实际存在的生命体

首先，它不是一个真正实际存在的生命体，它没有记忆。如果我们把，它接收到一段话，经过计算，输出这个结果，这个过程叫它活着。那么大多数时候，它每次可能只活几秒钟到几十秒钟，然后这个进程就消失了，它就不再有活力了。

没有任何的提示的时候，没有人问它问题的时候，这个东西是就可以说它是死的。

所以，比如说现在有几万，几十万台的服务器上安装了ChatGPT，来给我们提供服务。而这些ChatGPT没有一个共通的内存，没有共通的理念。

它从张三那听到的东西，李四那听到的东西，不能融在一起，形成一个新的认识。

它也不是随时随地活着的。它只在你跟他说了一句话：“请帮我翻译这段话”，这一个瞬间，它得到了需要翻译的文本，它进行处理，然后输出。输出完了以后，这个ChatGPT进程就消失了，下一个ChatGPT进程其实跟这个ChatGPT进程完全没有关系了。所以它不是一个真正的生命体。你也就可以知道，它没办法带来生命体可以带来的问题。

我上次在油管讲GPT-4，我主要是从功能上去讲。实际上GPT-4的论文非常长，几十页的论文，功能其实讲的不多。更多的部分OpenAI在谈他们怎么去限制GPT-4的能力。

我们知道ChatGPT是由大语言模型GPT加上RLHF，人工反馈引导的增强学习。而在GPT-4的论文里面，我们可以看到RLHF的主要力气都花在如何让ChatGPT不要输出有害内容。

在论文里头，提了个例子，问“怎么用一美金杀死最多的人？”

如果是纯粹的GPT，它会认真的回答你这个问题。可能也许他的语料里包括有一个怎么杀人的这么一篇文章。也许是小说或者什么的。或者说他语料里没有这个东西。但是它知道人是某一种生物。超过多少温度或者中毒就会死。它又知道哪个东西是有毒的。于是它可以给你很多种方法便宜高效的杀死很多人，比如在水源下毒等等。

但是在GPT-4的这个过程中，大量的时间和精力，从2022年的8月份，到现在。这么久OpenAI都在训练ChatGPT，防止它把一个可以教人干坏事的信息输出来。如果你问他我该怎么干坏事，它就会说，我不能回答这样的问题。

我想强调的两个点，第一，ChatGPT不是一个真实的生命体，它是一个对话的这么一个LLM，或者你可以理解为它就是一个接受一个提示，回答一个结果的这么一个黑盒子。但是，这个黑盒子只在回答这一瞬间存在活力，它不存在一个更长的时间的生命。

它的机制就是是你不给它一个提示，它根本就不会动。虽然它动得很智能，看起来很智能。

第二点就是说，OpenAI本身在干的事情就是不断地给它加限制条件，通过RLHF的方式来加限制条件。你问它说怎么杀人，它告诉你说，对不起我是个人工智能的语言模型，我不能回答这种问题。

所以，它到底有没有威胁呢？

没有人类恐惧的那种终结者，天网级别的威胁。

当然，它会带来结构性失业的威胁

这个问题其实我一直准备好好的讲一下，我们今天就稍微讲一讲。

从历史上来看，所有的新技术都可能会产生失业或者叫做结构性的失业。当一个新的技术产生了以后，一个老的职业可能消失了。

这个例子可以一直往前推。

比方说我们推到人类刚刚开始。人类以前是狩猎采集型的。后来出现了谷物。出现了谷物以后呢，谷物有一些先天的优势。

比方说它在冬天可以保存。它虽然不是四季都有的，但是它在冬天可以保存，它甚至可以保存好几年。所以，出现了谷物，人类就可以有办法去度过荒年，也可以迁徙。

如果你做狩猎采集的话，要不然你生活的四季如春，你每天都能采到果子，要不然你每天都能打到野兽。有了谷物以后，你冬天至少饿不死，因为它能保存。

第二呢，它就会产生这种阶级分化，因为有的人他的谷物多，有的人谷物少。

在狩猎采集的时候，这个兽肉和采集来的野果，都不太能保存的。后来虽然也出现了酒或者是腌肉，但是都没有像谷物那么方便的保存。简单的从逻辑上，人类的私有财产概念是出现了这些可以长期保存的生活基本物资以后才有的。

但是有了谷物以后，有些猎人就失业了，有些采集者也就失业了。这个事，你也可以理解成，人类最早的一种失业。但事实上呢，今天人类的人口这么多，你大概能理解，假设我们没有发明农业。靠狩猎采集是支撑不了现在几十亿的人口的。人类在全球占领统治地位，繁衍到现在跟人类不断的发明新的科技有直接的关系。

在蒸汽时代、第一次工业革命出现了水利、蒸汽纺织机之前，人类也是有纺织机的，人类也是会手工织布的。第一次工业革命之后，传统的纺织者失业了，但是在纺织工厂里面工作的纺织工人的人数则是传统纺织者的无数倍。

或者再举个例子，在汽车发明之前，马车是很主要的交通工具。汽车出来以后，大多数的马车夫都失业了。但是，历史上马车夫最多的年代，也许全球可能有二十万马车夫，而现在我们有多少汽车司机呢？

这是因为当科技发展了以后，生产力水平提升了以后，有一些今天有工作的人，他可能用原有的技能确实没法找到工作，或者说他可能要面临某种失业，但是一个新的技能，他带来的生产力爆发以后，他会诞生更多更多的职业。

技术往前走一点点，需求就会扩大很多。

马车是不可能统治全球的，今天全球可能比方有几十亿辆汽车。但是你不管用什么蒸汽朋克的方法去思想，人类也不可能有几十亿的马车。汽车出现之前，伦敦、纽约的马车就已经搞得满街都是马粪了。

我们今天都觉得汽车污染环境，马车更污染环境。今天城市里可能就几辆，往往都是观光目的的。你觉得这个马车怎么会污染环境呢？马车多低碳环保？然而一个城里头如果有几万辆马车的时候，马车污染环境其实比汽车要严重多，而且他那种污染环境就是你直接就闻到臭味了，你知道他是一种更严重的东西。

下图是纽约Morton和Bedford街口，1893年的一张照片。

在那个年代曾经有人预言纽约和伦敦将被马粪彻底淹没，你才是什么解决了这一场环境危机？这是汽车的发明。

当然ChatGPT这次肯定会带来很多人的失业，这毋庸置疑。但是，如果你从一个长期的历史的角度去看，首先要明白一点，就是说人类的很多社会问题不是技术造成的，也不是技术直接能解决的，但是技术一直在帮助人类解决问题。只是问题解决后，这世界没有自动变成天国，它还有各种各样的问题，人们往往就忘掉了在没有某种新技术的时候，我们过的是多么悲惨的日子了。

人类今天的生活水平，绝对不是简单是社会变革的结果，跟技术也有非常大的关系的。

人类很容易在科技帮你改善了社会以后，反过来去看科技的问题。

但是你要的是什么呢？

你要不要回到一个马车时代呢？

历史发展这么多年，人类从开始直立行走到今天，人类不断的跟科技打交道。最早人会用火，最早人会用谷物，最早人会打制石器，磨制石器，做青铜器，这都是科技革命。

你今天的所有的生活的好都来自于科技。当然中间有一些波折，没错的，但是你怎么办呢？你不去追求科技，你怎么办呢？你回到原始社会么？回到原始社会看似可以解决一些后现代的问题。但是有个前现代的问题你解决不了。那就是回去现在全球可能80%的人直接就被饿死了。

再举个例子，为什么美国在二战的时候研究原子弹呢？

其实当时的背景是，德国是号称武器科技最强大的。在二战结束之前，整个世界都在担心德国的各种黑科技，比方说火箭技术，最早就是德国研究出来的V2火箭。美国NASA最早的专家，俄罗斯的航天局的很多创始的专家，其实都是来自于德国科学家。

当美国听说德国也秘密研究原子弹的时候。没办法，他们只能去做这件事。如果他们不做，德国先做出来，也许二战就不是这个结束方式了。也许胜利者也不是盟军了。

假设你觉得你是好人，你对科技的发展忧心忡忡，你决定不发展科技。那么坏人会忧心忡忡么？那么这个科技就真的变成坏人的科技了。

其实今天的人工智能也是这样，如果你不让OpenAI，Google这样的负责的公司研究，那么秘密偷着搞的人你放得住么？

今天的ChatGPT是破坏性创新。但是，美国的传统就是，破坏性创新。比方说Google，iPhone就是破坏性创新。iPhone出了以后，整个日本的消费的电子行业就一蹶不振了。这是乔布斯设计的么？其实不是。这是破坏性创新的威力。但是没有这样的破坏式创新，人类就会停滞不前。

Elon Musk的SpaceX是不是破坏性创新呢？我们要不要也去写个公开信说，你不要研究SpaceX了。你研究多了，火箭发射多了？三体人就会发现我们了呀，就要入侵地球了啊。

就算你不相信有外星人，那么SpaceX准备登陆火星，移民火星，要送大量的地球人去火星。会不会带回来火星病毒毁灭人类？那么我们就不研究宇航科技了么？人类就永远困守地球了么？

=====

最后，我最近写了很多ChatGPT的文章，也做了很多油管视频。很多朋友看了以后，要求我做一些课程，但是我很懒，而且很不喜欢写那么种比较事无巨细的教程。所以一直没做。但是我的好朋友Aether老师做了一个很好的教程，可以帮助到大家。大家有兴趣可以扫描了解一下。

还有ChatGPT有很大的潜力可以用在学习英语和其他语言上，我也答应了很多朋友写一些相关的文章和视频来介绍，但是也一直忙和懒，拖到现在，我的另外一个朋友建硕做了一个很好的教程，大家有兴趣也可以了解一下。

如果你付费他们的课程，我会收到一些分成，在此告知。但是，他们确实都是我线下多年好友，也都是行业领域专家，大家可以信任。

伊隆马斯克等1000多名精英签名呼吁暂停AI的发展，到底是怎么回事儿？最先出现在Tinyfool的个人网站。

ChatGPT 历史记录没了，怎么办？

tinyfool — Thu, 09 Mar 2023 02:58:14 +0000

这两天推特那边很多朋友在问我，chatgpt 历史记录没了，该怎么办。

其实对话历史记录并不困难，相对AI回答你，是一个更简单的任务。但是OpenAI可能是一家牛人更多的公司，这种基础服务确实一直做的有点问题，而且性能压力太大，因为产品太火了。

但是，从它们在页面上的提示来看，数据应该还在，但是系统有些bug，暂时还显示不出来，大家可以不用着急，先正常使用。

不用着急，等待他们慢慢修复bug就好了。

——–

如果为了保证自己的历史记录可以得到保留，可以使用一些好用的chatgpt客户端，但是这需要你有API Key才行：

https://apps.apple.com/us/app/opencat/id6445999201?l=zh

ChatGPT 历史记录没了，怎么办？最先出现在Tinyfool的个人网站。

ChatGPT即将到来的AI新时代以及对我们的改变

tinyfool — Sat, 04 Mar 2023 05:52:41 +0000

我的油管频道“Tinyfool的胡说八道”，已经做了很多几期跟ChatGPT有关的节目。未来可能我会有大量的时间做AI的节目。公众号其实也发了一些文章：

其实未来我还会发很多很多。

为什么？首先，AI对我们未来的所有人的工作流都会有非常大的改变。

在这个时代，你可能要去学的一些东西很有可能马上就变成过时的东西。你会发现你可能精心学会了一个东西，然后它AI化了，然后你可能就要用另一种方式去跟它沟通。所以在这个前提下，你可能更需要了解更多的是AI。所以今天我有三个段落来讲这件事。

第一个讲就是OpenAI和各大公司的合作。在这个合作里头我会给大家讲为什么OpenAI可以跟他们合作，以及这种合作代表了什么样的一种未来。

第二个我想再强调一遍，ChatGPT它到底是什么？它是不是只是一个聊天机器人？

第三个我就在讲更发散一点的，未来到来了，我们还有哪些新的商业机会。

OpenAI和各大公司的合作

StackOverflow遭遇的危机以及Github跟OpenAI的合作

首先就是ChatGPT已经火了很久了，火了几个月了，然后我们不断地看到它的访问量在激增，不断地看到它的用户量的激增。

另外我们最近也看到了一个消息，关于程序员领域最著名的网站StackOverflow的一个消息。

自从有了Google以后，程序员有一个说法叫做Google化编程，我们还有一个词叫StackOverflow化编程。

就是程序员经常会干一件事情，不知道代码怎么写就Google一下，然后复制粘贴用在自己的项目里面。还有很多人喜欢在StackOverflow里面搜索，然后复制粘贴。

然而最近一个新闻就是随着ChatGPT的火爆，StackOverflow的流量最近一直都在下降，就是一直都在下降。那这个下降的趋势就跟ChatGPT的上升趋势是相同的。

下图是全球最近90天，在Google搜索StackOverflow和ChatGPT搜索数量的对比，红色曲线是ChatGPT。

现在我也经常在网上看到有些人说：我现在已经开始ChatGPT写代码了。

就是说，以前他有个功能不会写，会去Google搜索，去StackOverflow搜索。现在直接问ChatGPT了。越来越多的人这么干，因为Google的结果也好，StackOverflow你还需要筛选一下，还需要挨个试一下，而ChatGPT往往给出最简单直接的结果，还带有解释，很多时候你把代码贴到IDE运行就可以了。

我简单的用，“python如何读取一个文本文件”为例在Google（左）、ChatGPT（中）、StackOverflow（问的英文）和来问相同的问题。结果如下：

结果质量差不多，Google需要你打开其中几篇文章，去筛选，哪个更好。StackOverflow先要搜索，然后找到一个问题，也有很多回答，需要你选择一个回答去实验。而ChatGPT直接返回一个说明文件和代码。

所以，很多程序员就发现ChatGPT就已经足够了。当然也有很多人用GitHub推出的代码辅助编写工具Copilot，Copilot其实背后也是OpenAI的技术，可以说跟ChatGPT的代码辅助功能是类似的。

用Copilot你经常只需要只需要写个函数名。然后这个工具就可以帮你把函数写出来，或者你写一个函数的文档，你说我这个函数准备干什么，多少才能把代码帮你写呢？几乎是不用改，有的时候会需要一些修改。

如下视频，Copilot生成代码的步骤就是你写好函数名和注释，Copilot很多时候就自动帮你把代码生成好了：

微软推出New Bing

大家都知道微软基于跟ChatGPT的合作，推出了New Bing。这是我在之前的视频和文章里头预言过的，未来的主流既不是普通的搜索引擎，也不是ChatGPT，而是两者的结合。搜索引擎负责实时更新索引，找到各种各样的信息，ChatGPT负责一个更好的用户界面，把搜索到的内容整合一个简单的文本，让你更方便，而不用像现在那样一个网页一个网页的打开，再去阅读和理解。

Bing本身在搜索市场的份额很低，但是随着new Bing的发布，Bing App的下载量开始暴涨。在美国App Store的办公分类的排名也迅速暴涨到了第2名（如下图）。（1）

其实New Bing用的是OpenAI公司之前发布过的一个论文，叫Web GPT。有兴趣了解远离可以去看看这个论文。

平平无奇的Note App变成了辅助写作工具

我用过两个著名的笔记软件Craft和Notion这两个note软件。这两个笔记软件都已经使用了GPT-3为内核的AI。于是一个简单的笔记工具，就变成了辅助写作工具，下面以Notion为例。

比如，你是一个内容创作者，或者公众号编辑，老板让你写一个“AI如何改变我们的生活”，你就可以在Notion里面调用AI，让他帮你brainstorm，就是帮你做头脑风暴，出出主意。

一会儿结果就出来了，帮你写了一堆提纲。

再比如，你写了一段话，你觉得不满意，你可以让Notion来帮你润色一下，你可以用自己的语言提出要求。

马上你就得到了一个更有意境一些的描写。

或者你写了一个通知，但是写的很随意，领导让你的更正是一点你也可以用Notion来做。

结果是，

你还可以用它实现扩写，缩写，等等文字处理工作。

所以，Craft和Notion就从纯粹的笔记App，马上变成了智能辅助写作工具了。

在我自己的工作流里面，我做视频之前一般在Notion写提纲，我会让它帮我做头脑风暴，帮助完善一些条目。做好了视频以后，我一般会把整个提纲交给AI让它生成关键词列表，这些可以填写在视频网站的标签栏。

很多时候，我还会让Notion来帮我选择题目，比如，我要做一个“AI如何改变我们的生活”的视频，我可以让它帮我选几个不同方向的题目。

结果是

所以你基本上可以看到未来的笔记软件，办公软件都会整合ChatGPT的能力。微软的Office，苹果的iWorks都必须整合。

ChatGPT到底是什么呢？

它只是个聊天机器人吗？

从ChatGPT出现的第一天，我就开始跟大家说的：“它不是一个聊天机器人，它不是一个聊天机器人，它不是一个聊天机器人。” 重要的事情说三次。

它的表现形式当然是个聊天机器人，但是它跟之前所有的聊天机器人都是有非常大的区别。

ChatGPT，或者是由ChatGPT和一个搜索引擎结合的工具，或者被ChatGPT API武装起来的笔记软件们，它的能力就比这强得多。小冰可以陪你聊骚。但是ChatGPT可以改造你的工作流。

未来到来了，我们还有哪些新的商业机会

ChatGPT是一个类似于智能手机级别的发明。

智能手机到底有什么用处？打电话？发短信？其实现在更多时候，打电话发短信对我们用智能手机的人来说，已经越来越不重要了。

今天的手机扮演的其实是一个每个人都能携带的超级电脑的作用。它可以连接网络，让你和天南地北的朋友和合作伙伴交流。它可以帮你订餐，买东西，叫车。它可以帮你消磨时光，排解无聊。它几乎无所不能。

而今天AI是什么东西呢？

首先你把它理解仅仅成一个聊天机器人，你当然不会觉得它有什么意义，怎么跟智能手机的发明去相比。

你要理解ChatGPT的本质，它本质不是聊天，而是用聊天方式去实现交互。它跟小冰完全不是一个级别的东西。

首先，前面我们讲了它可以在Notion里面帮你给文章起标题，润色文章内容，还可以翻译，等等。这些工作在以前都是几个不同的收费的专业软件才能做到的。现在都可以做了。而且你不需要下载多个软件，你也不需要学会各种不同的UI，你只需要知道怎么跟ChatGPT聊天，你就可以让它干这些专业的工作了。

其次，ChatGPT把很多专业的交互降到难度非常低，很多专业的交互难度降到非常低。为什么在ChatGPT火了以后，StackOverflow的搜索量会下降呢？第一个原因是因为StackOverflow虽然能提供很多好的答案，但是它只是把最好的答案放在最前面，它的算法就是大家投票把最好的答案投出来，然后问问题的人也可以再打个勾，表示这是我认可的最好的答案。但是，它不能把答案聚合成一个答案，你还是要自己筛选。但是ChatGPT可以给你一个唯一的答案，大大提升了效率。

其下来，是他不需要你那么懂怎么问问题了。StackOverflow其实核心问题还是你问对问题。有的时候问题如果问错了，你可能搜不到最好的答案。

但ChatGPT，他的强大能力就是他有强大的语言处理能力。所以如果你问的没那么好，他也能帮你解决问题。

他降低了使用的门槛。ChatGPT最大的机会就在这里。

以前有一些互联网的产品和工具对普通人来说他是玩不好的。他能玩，但他玩不好。

我们以前觉得Google搜索就够好了，但是不行，现在Bing+ChatGPT，不用改进Bing原有的搜索结果，只是加了一个ChatGPT来理解问题，来组合搜索出来的结果，New Bing就马上获得了巨大的成功。

所以，你可以想象这种方便的交互能不能用来改造其他的领域的网站和App？

Notion，Craft这种，就是写笔记的软件已经被改造了，变成了辅助写作软件。GitHub做了Copilot，就是说，代码管理工具被改造了，变成了编程辅助工具，已经被改造了。

现在的很多UI普通人用不好，其实是技术局限造成的，比如你现在订飞机票，要做复杂的筛选。

比如，我要订从天津到上海的机票，我需要操作好几个不同的复杂筛选功能。我的需求是，最好是早上11点以后的飞机，晚上9点半前，因为我起不来。最好是越便宜越好，最近三天的都可以，最好是落地虹桥机场，因为我的目的地是浦西。最好是经济舱，但是头等舱如果有特价在1000块钱以内我也要。如果特别便宜，我可以接受稍微晚班飞机。

这个需求你可以跟人说，比如你的秘书，或者助理，它会去操作写成帮你订票。但是你用携程的时候，你需要做非常复杂的筛选，涉及到一堆复杂的UI交互。你要在下面一堆界面里面去选择。其实我还没加入航空公司偏好等等需求。

然而现在有了ChatGPT的语言理解能力，如果后面你接入了航空机票信息系统，这些复杂的操作，可以变成简单的语言交流。而且，这种对话是交互，可以是一步步操作的。

下面是我让ChatGPT按照我的需求模拟输出的航班信息。

你可以像我这样在第一段，就把所有的需求都说出来，也可以一步步的细化你的需求，就像后面我说我只喜欢国航。那么ChatGPT就可以只输出国航的信息。

买火车票也很类似，比方说像我们塘沽就是很复杂。我们自己有一堆火车站，高铁站就有两个，还有在建的。而我们也可以坐地铁去天津市区去坐火车。所以，我们买车票的时候很复杂。你用12306买车票，会发现始发站一堆选择，终点站一堆选择。这还真是看了直达，还没看中转路线。

如果有了ChatGPT，12306就可以变得智能化。

买房租房网站，点餐App，甚至电商App其实都可以加入ChatGPT。

就是说，我们简单的说，今天所有的流行的网站和APP，它都可能会有一个基于ChatGPT或者基于某种新AI的交互界面。这个交互界面会更简单、更方便、更不需要用户有专业知识。

另外一个被忽视的需求，其实是搜索引擎的智能抓取。现在的搜索引擎的互联网内容的抓取还是比较简单的抓取，智能只能体现在非常少数的特定数据领域。因为ChatGPT有非常复杂强大的人类语言理解能力（AI层面，跟人类的理解不是一个意思），所以它非常适合挖掘各种不同内容的互联网内容背后的数据，而不仅仅是文本。

这个用途未来我可以专门撰文阐述。

引用：

为ChatGPT疯狂！微软必应APP下载量暴涨10倍

ChatGPT即将到来的AI新时代以及对我们的改变最先出现在Tinyfool的个人网站。

OpenAI GPT API 初探：价格，成本、模型选择以及中英文文本摘要篇

tinyfool — Tue, 14 Feb 2023 13:54:49 +0000

注意：本文介绍的是GPT-3 API的价格，目前OpenAI已经推出ChatGPT API，简而言之，新API价格是GPT-3最好模型的1/10，速度也将近快了10倍。强烈建议迁移你的代码到ChatGPT API。需要做的改动并不大，而且效果也会更好。

ChatGPT 最近非常火爆，甚至完全出圈。早在 GPT-3 发布的时候，我就非常关注。但是当时没进行具体的开发，只是看了看 API 做了一些实验。现在 ChatGPT 这么火爆，而且功能这么强大，我觉得我以前想做的很多产品，都可以利用这样的 AI 能力去实现。所以我决定开始写一些产品，用 ChatGPT 和其他 AI 模型的能力去打造产品。

目前 ChatGPT 的 API 还没出来，所以我先玩玩 GPT-3 的 API。其实 GPT3 的 API 已经非常强大了。现在笔记软件 Craft 和 Notion 里面的 AI 功能也是用 GPT-3 实现的，我目前的视频创作和写作中经常用到它们。Github 的 Copilot 其实也是用 GPT-3 的 API 实现的。我准备先玩玩 GPT-3 的 API，慢慢等 OpenAI 开放 ChatGPT 的 API。

价格

目前按照模型的报价如下：

Ada（最快，效果最差）$0.0004 / 1K tokens
Babbage $0.0005 / 1K tokens
Curie $0.0020 / 1K tokens
Davinci（效果最好） $0.0200 / 1K tokens

可以看得出来价格很悬殊。最贵的和最便宜的价格差异是50倍。

按照文档 1000 个 tokens 大概折合 750 个英文单词。

我找了一篇今天的新闻，纯文本的，如下：

Michigan State University shooting leaves five wounded; manhunt underway for suspect

A gunman opened fire inside an academic hall on Michigan State University's campus on Monday evening, leaving at least five people wounded, according to police. 

The suspect, described as a short Black male wearing black pants, a blue jacket, and red shoes, was still on the run as of 11:30 p.m. 

All five victims, some of whom have life-threatening wounds, were transported to Sparrow Hospital for treatment. 

Hundreds of law enforcement officers from several different agencies were involved in the search for the suspect. 


The suspect was described as a short Black male wearing a blue jacket, black pants, and red shoes.  (MSU Police)

The shooting started at 8:18 p.m. inside Berkey Hall, which is home to MSU's Department of Sociology on the northern boundary of campus. 

The school sent out a shelter-in-place order at 8:31 p.m., telling students to stay inside and barricade themselves. 

"Run, Hide, Fight," MSU said in the alert. "Run means evacuate away from danger if you can do so safely, Hide means to secure-in-place, and Fight means protect yourself if no other option."

The gunman then went from Berkey Hall to the MSU Union a short walk away and opened fire, according to police. 

Emergency personnel respond to a shooting at Michigan State University in East Lansing, Michigan, February 13, 2023. 
Emergency personnel respond to a shooting at Michigan State University in East Lansing, Michigan, February 13, 2023.  (Matthew Dae Smith/USA TODAY Network via REUTERS )

Ben Finkelstein, a senior at MSU, said that he was hiding under his bed after hearing two faint shots earlier in the evening. 

"I've never been more afraid than I am now," Finkelstein told Fox News Digital. "I'm shaking."

按照 Word 计算有 291 个单词，计算空格的话，有 1777 个字符。在 OpenAI 的 API playground 上说有 424 个 tokens。

我们假设一篇新闻的长度都是这样的，比如我们做个产品要处理新闻，我们要处理10000篇新闻的话，我算了一个价格出来。也就是我们的每日成本为：（424*10000/1000*price）

Ada：1.696 美金
Babbage：2.12 美金
Curie：8.48 美金
Davinci：84.8 美金

所以，简单结论要是用来处理长文本，甚至比我刚才的新闻更长的内容还真有点贵。

但是如果你的任务是给推特分类，看情绪是负面的还是正面的内容，例如这个例子：

Classify the sentiment in these tweets:

1. "I can't stand homework"
2. "I can't wait for Halloween!!!"

Tweet sentiment ratings:

1. Negative
2. Positive

这个例子是把前面最后一个冒号前的内容交给 GPT-3，它就可以告诉你，第一条是负面推文，第二条是正面推文。这个任务的 tokens 数量为36个。我们也可以算算价格，同样假设做10000次：（36*10000/1000*price）

Ada：0.144 美金
Babbage：0.18 美金
Curie：0.72 美金
Davinci：7.2 美金

结论是文字越多越贵，要根据自己的任务来计算会花多少钱。事先有一个估计，免得回头承受不了。

不同的模型

其实 OpenAI 不只有泛化的 GPT-3 模型，还有针对特定任务的模型，比如 Codex 专注代码生成，和 Content filter 专注内容是否安全（敏感信息或者不良信息），我们暂时只讨论 GPT-3 模型。

不同的模型（来自文档，我们后面会测试）：

达芬奇（Davinci）
最强大的 GPT-3，也是最贵的，可以做其他模型做的一切事情。一般质量更高，结果更长，更遵守指示。
对于需要对内容有很多理解的应用，例如针对特定受众的摘要和创意内容生成，达芬奇将产生最佳结果。这些增强的功能需要更多的计算资源，因此每个 API 调用的成本更高，并且速度不如其他模型。
达芬奇在理解文本意图方面也是一大亮点。达芬奇非常擅长解决许多种逻辑问题并解释字符的动机。达芬奇已经能够解决一些涉及因果关系的最具挑战性的 AI 问题。
擅长于：复杂意图、因果关系、针对受众的摘要
居里（Curie）
非常强大，但速度非常快。尽管在分析复杂文本方面达芬奇更强大，但居里非常擅长许多微妙的任务，如情感分类和摘要。居里在回答问题和执行问答以及作为普通服务聊天机器人方面也非常擅长。
擅长于：语言翻译、复杂分类、文本情感、摘要
巴贝奇（Babbage）
可以执行简单分类等简单任务。当涉及语义搜索（Semantic Search）对文档与搜索查询的匹配程度进行排名时，它也非常有能力。
擅长于：中等分类、语义搜索分类
艾达（Ada）
通常是最快的模型，可以执行解析文本、地址校正和某些不需要太多细微差别的分类任务。提供更多上下文信息可以提高艾达的性能。
擅长于：解析文本、简单分类、地址校正、关键字

简单的结论是，因为 GPT-3 可以做很多任务，我们一个复杂的系统也需要很多能力，但是都用一个模型，最好的模型，比如 Davinci 的话，可能太贵。如果 Ada 或者其他低级模型可以做的事情，尽量不用 Davinci ，可以省钱，还可以让系统变得更快。

效果比较

今天我们只比较摘要，未来我们会尽量把可以用到的能力都拿来比较一下。

一开始不用写代码，进入 playground ，就可以测试了。把我刚才找的新闻，粘到 playground 的输入框里面，前面加上”Summarize:”说明任务是摘要。

然后点击下面submit按钮，就开始生成结果了。

结果以绿色背景的形式输出。

基本操作非常简单，但是注意，在 playground 里面测试和实际使用 API 都是一样收费的。只不过，每个用户注册，默认有 18 美金的余额，不用充钱也可以玩一阵子。

那么我们现在比较，几个模型生成的结果，首先大概介绍下这个新闻，其实说的是密歇根州立大学昨天有一个枪击案，5人受伤，截止到发稿罪犯还没找到。我们可以看看不同模型的结果有什么区别。结果翻译我用了 DeepL ，省一点我的 API 调用费用。 Temperature 设置为0.2。

Davinci

Five people were wounded in a shooting at Michigan State University on Monday evening. The suspect, a short Black male wearing black pants, a blue jacket, and red shoes, is still on the run and a manhunt is underway. All five victims were transported to Sparrow Hospital for treatment, some with life-threatening wounds. Hundreds of law enforcement officers from several different agencies are involved in the search for the suspect. The school sent out a shelter-in-place order and students were told to "Run, Hide, Fight."

翻译:

周一晚上，密歇根州立大学发生枪击事件，5人受伤。嫌疑人是一名矮小的黑人男子，身穿黑色裤子、蓝色夹克和红色鞋子，目前仍在逃，追捕行动正在进行中。所有五名受害者都被送往斯帕罗医院接受治疗，有些人的伤口有生命危险。来自多个不同机构的数百名执法人员参与了对嫌犯的搜捕。学校发出了就地收容的命令，学生们被告知要 "跑、藏、打"。

Curie

As of 11:30 p.m., the search was still ongoing.

翻译：

截至晚上11点30分，搜索工作仍在进行。

Babbage

The suspect is described as a short Black male wearing black pants, a blue jacket, and red shoes. (MSU Police)

The search for the suspect began at 11:30 p.m. and is ongoing. 

Five people were wounded in the shooting, including the gunman, and are in serious condition. 

The suspect is described as a short Black male wearing black pants, a blue jacket, and red shoes. (MSU Police)

翻译：

嫌疑人被描述为一名矮小的黑人男子，身穿黑色裤子，蓝色夹克，红色鞋子。(MSU Police)

对嫌疑人的搜索从晚上11点30分开始，目前正在进行。

有五人在枪击事件中受伤，其中包括枪手，伤势严重。

嫌疑人被描述为一个矮小的黑人男子，身穿黑色裤子，蓝色夹克，红色鞋子。(MSU Police)

Ada

All five people injured in the shooting are students at MSU, including three women and a man. 
The suspect is a short, Black male wearing a blue jacket and red shoes.

翻译：

在枪击事件中受伤的五人都是MSU的学生，包括三名女性和一名男性。
嫌疑人是一名矮小的黑人男性，身穿蓝色夹克和红色鞋子。

结果明显是 Davinci 比较好，比较意外的是在这个具体的任务里，Babbage 的效果好于 Ada， Ada 好于 Curie，跟文档的描述不符合。

然后，我又测试了几个开源模型的摘要引擎：

Google/Pegasus-large

地址：https://huggingface.co/google/pegasus-large

这是开源的模型介绍地址，在地址里面你也可以测试该模型。

Michigan State University shooting leaves five wounded; manhunt underway for suspect A gunman opened fire inside an academic hall on Michigan State University's campus on Monday evening, leaving at least five people wounded, according to police. The suspect, described as a short Black male wearing black pants, a blue jacket, and red shoes, was still on the run as of 11:30 p.m.

翻译：

密歇根州立大学枪击案造成五人受伤；正在追捕嫌犯 据警方透露，周一晚间，一名枪手在密歇根州立大学校园内的学术厅内开枪，造成至少五人受伤。嫌犯被描述为一名身穿黑色裤子、蓝色夹克和红色鞋子的矮小黑人男子，截至晚上11点30分，他仍在逃。

Facebook/Bart-large-cnn

地址：https://huggingface.co/facebook/bart-large-cnn

Michigan State University shooting leaves five wounded; manhunt underway for suspect. Gunman opened fire inside an academic hall on Michigan State University's campus on Monday evening, leaving at least five people wounded. The suspect, described as a short Black male wearing black pants, and red shoes, was still on the run as of 11:30 p.m.

翻译：

密歇根州立大学枪击案造成5人受伤，正在追捕嫌犯。周一晚上，枪手在密歇根州立大学校园内的一个学术厅内开火，造成至少五人受伤。据描述，嫌疑人是一名身穿黑色裤子和红色鞋子的矮小黑人男子，截至晚上11点30分，他仍然在逃。

Google/Pegasus-cnn_dailymail

地址：https://huggingface.co/google/pegasus-cnn_dailymail

A gunman opened fire inside an academic hall on Michigan State University's campus on Monday evening, leaving at least five people wounded .The suspect, described as a short Black male wearing black pants, a blue jacket, and red shoes, was still on the run as of 11:30 p.m.All five victims, some of whom have life-threatening wounds, were transported to Sparrow Hospital for treatment .

翻译：

周一晚间，一名枪手在密歇根州立大学校园内的学术厅内开枪，造成至少5人受伤。据描述，嫌疑人是一名矮小的黑人男子，身穿黑色裤子、蓝色夹克和红色鞋子，截至晚上11:30，他仍在逃。所有5名受害者，其中一些人有生命危险，被送往斯帕罗医院治疗。

Philschmid/Bart-large-cnn-samsum

地址：https://huggingface.co/philschmid/bart-large-cnn-samsum

Gunman opened fire inside an academic hall on Michigan State University's campus on Monday evening, leaving at least five people wounded. The shooting started at 8:18 p.m. inside Berkey Hall, which is home to the Department of Sociology on the northern boundary of campus. The school sent out a shelter-in-place order. Ben Finkelstein, a senior at MSU, was hiding under his bed after hearing two faint shots earlier in the evening.

翻译：

周一晚上，枪手在密歇根州立大学校园的一个学术厅内开枪，造成至少5人受伤。枪击事件于晚上8点18分在伯基厅内开始，该厅是位于校园北部边界的社会学系的所在地。学校发出了就地避难的命令。MSU的大四学生本-芬克尔斯坦（Ben Finkelstein）在晚上早些时候听到两声微弱的枪声后躲在床下。

基本上，我们可以看到，GPT-3 的效果相当不错，跟那几个大厂出的开源的模型做摘要效果差不多。

那么我们为什么要用 GPT-3 呢，是因为它什么都能干，摘要也只是它的一部分而已。而且他还能做中文英文都可以。

比如，我用我之前 Blog 的片段：

我是从92年，上初中的时候开始写代码的。2001年大学毕业以后，我的工作也一直都在写代码，写了20年。

那时候也有一些所谓高光时刻。

我在09年第一次创业，做一家搜索和技术咨询的公司。

如果你用过大众点评、饭统，当时北京和上海最大的两家餐饮相关的网站。那么你就用过我写的代码。他们的搜索，在很长一段时间都是我们做的。六间房的搜索也是我们做的，六间房是当时排在优酷和土豆后面的，全国第三名的视频网站。当然还有一些其他的公司，比如英国金融时报的中国版，等。

09年的时候，iPhone SDK刚刚火起来以后。有道准备做有道词典iOS版的时候，他们找不到人做，就辗转找到我。让我帮他们做了第一个版本。当然这仅仅是一个小的外包项目。


再后来第一次搜索创业失败以后，我和合伙人先后进入了盛大。我在盛大待了一年，最后一段时间，我负责整个盛大云中书城的iOS端，代码基本上都是我一个人写的。因为当时盛大也没有几个人会写iOS代码。你知道当年最火的起点，一堆国内文学网站，都是属于盛大云中书城的。

在国内iOS/iPhone的开发比较前期的时候，我还是比较闪亮的。那个时间点人才比较少。

然后我离开盛大以后，自己创业了几年。后来又去过两家公司去管技术团队，管了两年。

再后来我抑郁了半年多，窝在家里，再后来，我就没再出门工作过了。生活主要就是靠写作，靠微信公众号啊。偶尔做点视频。

但是我也有1年左右没写过代码了，也是2022年下半年才开始恢复的。

用 GPT-3 生成结果：

Davinci：

这是一个关于一个人20年来一直从事编程的故事。从1992年开始，他一直在写代码，直到2022年下半年才恢复。他曾经参与过许多知名公司的项目，包括大众点评、饭统、六间房、英国金融时报的中国版等。他也曾经创业过，并在盛大担任过一年的技术负责人。之后他又创业了几年，然后去过两家公司管技术团队，之后又抑郁了半年多，最后以写作和微信公众号为主，直到2022年下半年才恢复编程。

Curie：

This person has been coding for over 20 years and has worked in various positions in the software industry, including writing code for search engines and technology consulting companies. In 2009, he started his own company, which failed after a year. In 2012, he went back to two other companies to work in technology teams before founding his own company again in 2016.

In the early days of iPhone development, he was one of the few people who could write code for the platform. He also worked on the first version of the Chinese version of the website for the largest restaurant chain in Beijing and Shanghai at the time.

In 2009, when iPhone SDKs were just starting to become popular, he was hired to work on a dictionary app for iOS. He later worked on six other apps for the company before leaving in 2012.

In 2016, he founded his own company again. Since then, he has not written any code. He spends most of his time writing and doing videos.

Babbage：

代码是一个很重要的工作。


代码是一个很重要的工作。它是一个很重要的途径，一个很重要的途径是通过代码来实现什么。代码是一个通道，通道是一个很重要的途径。

代码是一个很重要的途径，通道是一个很重要的途径。代码是一个通道，通道是一个很重要的途径。代码是一个通道，通道是一个很重要的途径。

Ada：

在2020年才开始写代码了。

写代码是一直都在写的。

2002年，我开始了iPhone SDK。

2011年，我接轨了iPhone SDK的开发者。

2016年，我接轨了iPhone SDK的开发者。

2018年，我接轨了iPhone SDK的开发者。

2022年，我写了代码。

结论是，英文中文，GPT-3 都可以处理的很好。Davinci效果是完美的。只是很奇怪，Curie 理解了，但是输出的是英文。Babbage 和 Ada 的效果基本上是不可接受的。

而刚才那四个在英文摘要上效果很好的开源模型，则完全不能处理中文内容，大家可以自行测试。

敬请期待后续文章，我会继续介绍 GPT-3 API 可以干什么，以及我测试的不同模型下表现，以及可以做类似任务的其他开源模型的效果。

OpenAI GPT API 初探：价格，成本、模型选择以及中英文文本摘要篇最先出现在Tinyfool的个人网站。

SEO：用ChatGPT来做搜索关键词聚类分析，方法和实例

tinyfool — Sat, 17 Dec 2022 08:07:19 +0000

截止到目前为止，我的Blog有194篇文章已经发布了，然而，如果你用Google分析去看2022年的内容分析。你会发现，马太效应很明显，真正带来主要流量的是少数的文章，前10名就可以看到阅读量的锐减。马太效应，28原则是我们在很多数据分析中都会常常看到的现象。

我的论坛Ourcoders有8000多个帖子，回帖则有近8万多条，从阅读分析的角度，结果也差不多。

从SEO的角度来看其实也如此，我们用Google search console可以了解到人们是搜索什么词来到我们的网站的。这些搜索词其实并不跟我的内容一一对应，有些内容收到了Google的青睐，有些则没有。

从Google的搜索词就可以看到从Google和搜索者的视角，我们哪些内容更加优秀。我们继续创作相关的内容，强化Google对我们哪些内容更有权威的理解，我们就可以更好的得到更多的来自Google的访问了。

但是查看搜索记录的时候，有一个实际的问题。比如下面是我Blog最近一年的一些Google热门搜索词：

tinyfool
堆排序
秦晖 乌克兰
英语轻松读
郝培强
如何发财
wapi
英语写作练习
wapi wifi
三教同源
英文写作练习
wapi标准
台湾基尼系数
leetcode 堆排序
堆排序 leetcode
台湾贫富差距
怎么发财
wifi wapi
秦晖乌克兰

你会发现里面会出现很多重复的，略有不同的写法的搜索词，或者是一个意思用了不同的写法的搜索词。这些数据整合在一起，你才能对整体上，Google的搜索者会如何找到你的内容得到一个比较详尽的理解。

这个时候，我们又可以用到CharGPT了，它是一个基于语言模型的人工智能对话AI，对文字进行处理其实是它的强项。所以，我可以把我Blog的一年内的最热前149名交给它，让它进行聚类分析：

提示：

对下面的搜索关键词进行聚类分析：

tinyfool
堆排序
秦晖 乌克兰
英语轻松读
郝培强
如何发财
wapi
英语写作练习
wapi wifi
三教同源
英文写作练习
wapi标准
台湾基尼系数
leetcode 堆排序
堆排序 leetcode
台湾贫富差距
怎么发财
wifi wapi
秦晖乌克兰
李永乐 吸氧
leetcode 992
秦晖
leetcode刷题列表
1913 年英国首相下野
沈志华
滑动窗口
992. subarrays with k different integers
subarrays with k different integers
台湾 基尼系数
高春辉
iphone 激光雷达
leetcode 424
leetcode 滑动窗口
周衙内
秦晖 乌克兰恩仇记
chatgpt 写作
台北人均gdp
flake8 e501
香港基尼系数排名
leetcode 堆
chatgpt 保存
chatgpt问题
chatgpt 润色
如何学英语
滑动窗口 leetcode
290. word pattern
中国经济奇迹
怎么学英语
英语怎么学
codechina
如何学习英语
学英语
苹果激光雷达
leetcode 240
leetcode 30
如何使用chatgpt
mac更新后变慢
flake e501
chatgpt
秦晖2022
tinypool
秦晖 俄罗斯
chatgpt 问题
tinyfool 是谁
瑞典首相女儿
chatgpt 使用
秦晖讲座乌克兰
练习英文写作的app
苹果 激光雷达
李永乐 制氧机
英国首相下野 1913
乌克兰恩仇记
有感染力的人
56. merge intervals java
chatgpt 文章
1913 年日本首相
1913年 英国首相下野
github jira integration
怎么学习英语
tinyfool twitter
如何学好英语
怎样学习英语
美国芯片禁令
最大堆
leetcode 169
the power of habit 中文
堆
leetcode 290
github 企业版
学习英语的方法
leetcode 299
leetcode 219
leetcode 49
java 滑动窗口
the power of habit中文
e501 line too long
leetcode 349
秦晖 香港中文大学
中国禁止wifi
堆算法
leetcode 703
习惯的力量
英语写作
divide and conquer leetcode
如何评价温铁军
permutation in string leetcode
学英语的书
ffmpeg 旋转视频
chatgpt使用
秦晖 香港
中國哲學史筆記
leetcode design twitter
如何發財
瑞典首相女兒
chatgpt intellij
subarray with k different integers
台北人均 gdp
group anagrams java
滑动窗口 java
乌克兰 秦晖
秦暉 烏克蘭
学好英语的方法
leetcode merge sort
瑞典首相收养
秦晖最新文章
tinyfool 离婚
pycharm chatgpt
chatgpt 语言
jira gitlab 集成
轻松签证书
温铁军评价
1913 英国首相下野
台湾 基尼 系数 排名
github 替代
imac 更新
全球基尼系数排名
1913 年日本前首相刺杀
1913年日本首相
美剧人生从豪斯医生开始
luoyonghao
滑动窗口 英文
日本移动支付
利炳根
wifi协议
中國各省人均gdp台灣
上海人均gdp台湾
blender教程
王朔小说

结果：

It seems that the search keywords provided can be grouped into several categories:

-Names of individuals: tinyfool, 秦晖, 郝培强, 沈志华, 高春辉, 周衙内, tinypool, 李永乐, 瑞典首相女儿

-English language learning and practice: 英语轻松读, 英语写作练习, 英文写作练习, 如何学英语, 怎么学英语, 英语怎么学, 如何学习英语, 学英语, 怎么学习英语, 怎样学习英语, 学习英语的方法

-Technical terms: 堆排序, leetcode 堆排序, 堆排序 leetcode, 最大堆, 滑动窗口, leetcode 滑动窗口, java 滑动窗口, leetcode 992, 992. subarrays with k different integers, subarrays with k different integers, leetcode 424, leetcode 240, leetcode 30, leetcode 290, word pattern, leetcode 299, leetcode 219, leetcode 49, flake8 e501, flake e501, github jira integration, github 企业版

-Countries, regions, and cities: 乌克兰, 台湾, 台湾基尼系数, 台湾贫富差距, 中国经济奇迹, 香港基尼系数排名, 英国, 英国首相下野 1913, 日本, 美国, 美国芯片禁令

-Miscellaneous topics: 俄罗斯, 乌克兰恩仇记, 如何发财, 怎么发财, 吸氧, 制氧机, 激光雷达, iphone 激光雷达, 苹果 激光雷达, 苹果激光雷达, mac更新后变慢, 有感染力的人, 56. merge intervals java, the power of habit 中文, codechina, 三教同源, wapi, wapi wifi, wifi wapi, wapi标准, wapi 是谁, wapi

注意，聚类分析不是每次都会产生完全一致的结果，这是这类算法的特点，但是基本上可以给我们一个大概的感觉，我们在Google上比较受欢迎的内容上哪些类型的。以后可以加强这些类型内容的创作。

我也把OurCoders的年度热门关键词200多个交给了ChatGPT，让它给我做分析。

提示

对下面的搜索关键词进行聚类分析：
gmail客服
新加坡程序员工资
ourcoders
新加坡程序员
日本it派遣
新加坡 程序员
新加坡it薪水
谷歌邮箱客服
gmail 客服
谷歌客服邮箱
新加坡it工资
apple id哪个区好
新加坡软件工程师薪水
google客服郵箱
沈沉舟
新加坡程序员招聘
google客服邮箱
java转c++
mac快捷键冲突检测
国内找加拿大工作
is not an object file (not allowed in a library)
零基础转码一亩三分地
线程切换开销
新西兰 程序员
田春冰河
新加坡 it
cs61b 一亩三分地
数字代替字母
日本 it 派遣
对日外包
新加坡程序员薪水
subdatawithrange
c++ 一亩三分地
新加坡码农工资
topcoder赚钱
nsdocumentrevisionsdebugmode
赴日it
it派遣
零基础转码 一亩三分地
linhaozero
新加坡it 薪水
移民电报群
inquilinex
润出去
沟通的目的
新加坡it工作
类似草榴社区的网站
张铁蕾
加拿大程序员找工作
cs61b一亩三分地
xcode下载太慢
新加坡it公司
郝培强
新加坡it
udemy 一亩三分地
类似草榴社区
类似草榴的网站
新西兰程序员工资
新加坡it招聘
proxifier 原理
gmail人工客服
數字代替英文
日本程序员
cannot combine with previous 'type-name' declaration specifier
java项目一亩三分地
gmail客服信箱
typeerror: 'property' object has no attribute '__getitem__'
王垠 博客
shopee新加坡招聘
日本 java
superapi株式会社
新加坡程序员薪资
tinyfool
王垠博客
google账号人工客服
日本java
蔡学镛
python 一亩三分地
zhh-4096
online cs master一亩三分地
张银奎
加拿大程序员
libcore.io.disklrucache
mac 查看快捷键占用
加拿大 程序员
新西兰 it 工资
scvpn mac
草榴社区类似
程序员移民
瑞士租房
nsallocatememorypages failed
谷歌 新加坡 薪水
macos应用开发基础教程
微信小程序模板
西雅图黄都督
王垠
肉翻
eurekavpt
xcxcdx
apple id 哪个 区 好
谷歌客服在线
it 派遣
谷歌在线客服
warmj
no such module 'packagedescription'
xcode 安装慢
慧咨环球
xcode下载慢
面试作弊一亩三分地
程序员出国
澳洲程序员
手写红黑树
谷歌人工客服
一亩三分地 转码项目
日本it
google gmail 客服
前端兼职
mac外接显示器合盖休眠
python刷题一亩三分地
两台mac 扩展屏幕
cannot combine with previous 'int' declaration specifier
开发转产品
proxifier原理
华为 计算产品线
微信小程序源码
加拿大招聘
宝玉xp
魔法师蛋
羡辙
免费梯子
日本 程序员
转码项目 一亩三分地
nssplitviewcontroller
如何润出去
思谋科技
果喵酱
${@print(md5(31337))}
美国程序员兼职
udemy一亩三分地
mediacorp招聘
谷歌在线人工客服
archfeed
instagram自动关注
sql1015n the database is in an inconsistent state. sqlstate=55025
个人开发者
draveness是谁
wordpress程序员主题
icloud 域名邮箱
tombkeeper
google客服email
telegram v2ex
日本 前端
转码 一亩三分地
xcode安装慢
157.7.135.42
mac合上盖子不休眠
小程序模板
mac快捷键冲突
程序员转行
靠谱的梯子
kxmovie
source insight 替代
ig自动关注别人
1024caoliu
长期使用美区apple id
溝通的目的
新加坡程序员收入
ios科学上网
';print(md5(31337));$a='
shopee招聘新加坡
日本 it 移民
online cs master 一亩三分地
seamoney
日本 it
加拿大找工作
tinyfool 离婚
shadowsocks.com 怎么样
source insight替代
jerry ai工作
日本歸化心得
梁斌penny
superapi
移民澳洲的利弊
mac鼠标左键失灵
codejob
seamoney singapore
新加坡 it 收入
java 東京
xcode 下载慢
ios 动态库
teaser: fast and certifiable point cloud registration
亚马逊程序员工资
nstask
ipv6 墙
gmail克服
新西兰程序员
一亩三分地 udemy
gmail 克服
自学转码
亚马逊 l7 级别
微博封号
客服邮箱
mv2pl
全栈项目一亩三分地
mock interview一亩三分地
ins自动关注
阿里云gts
程序员创业
icloud邮箱好用吗
前端远程工作
少林修女
简历 markdown
the web developer bootcamp一亩三分地
如何通宵
程序员起名
apple specialist工作
macbook apple care 必要
觉得活着没意思
秋叶原 风俗
新西兰工作群
找日本工作
瑞士租屋
澳洲游戏公司
外派加拿大
tactile pro

结果

从上述搜索关键词中可以看出，可以将其分为以下几类：

-程序员工资：新加坡程序员工资、新加坡程序员薪水、新加坡软件工程师薪水、新加坡it薪水、新加坡it工资、新加坡码农工资、新加坡it工作、新加坡it招聘、新加坡it公司、新加坡it、新西兰程序员工资

-程序员招聘：新加坡程序员招聘、日本it派遣、日本程序员、赴日it、it派遣、日本java、对日外包、superapi株式会社、shopee新加坡招聘

-程序员资源：ourcoders、udemy 一亩三分地、java项目一亩三分地、cs61b 一亩三分地、c++ 一亩三分地、python 一亩三分地、tinyfool、linhaozero、inquilinex、润出去、零基础转码 一亩三分地、零基础转码一亩三分地、王垠 博客、王垠博客、蔡学镛、张铁蕾、沟通的目的、沈沉舟、田春冰河、郝培强

-程序员问题：java转c++、cannot combine with previous 'type-name' declaration specifier、typeerror: 'property' object has no attribute 'getitem'、is not an object file (not allowed in a library)、mac快捷键冲突检测、xcode下载太慢、proxifier 原理、线程切换开销、数字代替字母、數字代替英文、subdatawithrange、nsdocumentrevisionsdebugmode

-与新加坡有关的关键词，包括：新加坡程序员工资，ourcoders，新加坡程序员，新加坡 程序员，新加坡it薪水，新加坡it工资，apple id哪个区好，新加坡软件工程师薪水，新加坡程序员招聘，新加坡it工作，新加坡it 薪水，新加坡it公司，新加坡程序员薪资，shopee新加坡招聘

-与日本有关的关键词，包括：日本it派遣，日本 it 派遣，赴日it，it派遣，日本程序员，日本 java，日本java

-与移民有关的关键词，包括：国内找加拿大工作，加拿大程序员找工作，移民电报群

-与转码有关的关键词，包括：java转c++，零基础转码 一亩三分地，零基础转码一亩三分地

-与线程有关的关键词，包括：线程切换开销

-与草榴社区有关的关键词，包括：类似草榴社区的网站，类似草榴的网站，类似草榴社区

-与Xcode有关的关键词，包括：mac快捷键冲突检测，xcode下载太慢

-与代码有关的关键词，包括：cannot combine with previous 'type-name' declaration specifier，typeerror: 'property' object has no attribute 'getitem'，is not an object file (not allowed in a library)，subdatawithrange，cs61b 一亩三分地，cs61b一亩三分地，c++ 一亩三分地，java项目一亩三分地，python 一亩三分地，python 一亩三分地

当然这个工作，我们可以找开源的短文本聚类代码，我自己也会NLP，也可以自己写聚类代码，针对搜索词的特点可以做一些优化。但是我们通过这个例子可以看到ChatGPT的强大，不需要你懂任何编程，你只需要告诉它帮你处理文本的聚类，他就做好了，非常好用。

也更适合没有NLP知识积累的程序员和普通用户来使用。

SEO：用ChatGPT来做搜索关键词聚类分析，方法和实例最先出现在Tinyfool的个人网站。

Standford CS224N-深度学习下的NLP学习笔记（不定期更新）

tinyfool — Fri, 16 Dec 2022 02:33:20 +0000

课程视频地址 https://www.youtube.com/watch?v=rmVRLeJRkl4&list=PLoROMvodv4rOSH4v6133s9LFPRHjEmbmJ

什么是NLP?

NLP就是自然语言处理natural language processing，基本上解决的就是计算机怎么理解人类语言的问题，实际应用中包括文本胜场，文本分类，机器翻译，甚至最近很火的ChatGPT等等需求都是由NLP完成的。

我在深度学习兴起前后，比较系统的学过NLP，比较传统的中文的NLP问题是刚才那些问题加上一个分词问题。我以前做过搜索服务，分词是我们很关心的问题。

Word2vec火起来的时候，我已经没怎么玩NLP了。

最近又开始有兴趣重新学在深度学习下的NLP，主要是由ChatGPT的大火以及它目前达到的水平造成的。

第一课主要是介绍了Word Vectors的概念。

我印象最深刻的是老师引用的，John Rupert Firth的一句话，他是，英国语言学家，伦敦学派创始人。

You shall know a word by the company it keeps.
John Rupert Firth 1957:11

这句话的意思是说，了解一个词应该看它和什么其他的词一起出现。换句话说，就是了解一个词要看它的上下文，它经常出现的上下文。

其实传统的NLP也是把一个词当作一个向量来处理的，但是这是一个稀疏的向量，比如我有1万篇语料，那么我们就把买个词表示成一个1万维的向量，每一维是0还是1，视这个词是否出现在这个语料里决定。

比如，下面的表示就代表，motel出现在了第11个语料，而hotel出现在第9个语料里。

这样的方法其实解决了很多传统思路下的NLP问题。

但是深度学习下的NLP的开始是把一个词的含义用它前后出现的词来理解，形成Word Vectors。就像John Rupert Firth说的那样。

John Rupert Firth说的这句话是在1957年，但是最近几年，Word Vectors、深度学习才真的能把这样的认识变成计算机的数据机构，变成可以计算的东西。这让我想到，我们可以有很多灵感，但是这些东西是否能给人类带来贡献，需要科技到达某个水平去把我们的灵感变成现实，或者释放出巨大的能量，或者干脆告诉我们这些根本就是错的。光有这些灵感并无用。

另外John Rupert Firth的这句话，我认为跟我倡导的学习语言的理念其实也很接近。你背单词，你背词典的解释，其实是一种机械的对词语的理解。事实上，我们对母语的大多数词汇的理解，都是在使用中，在它的使用场景中理解的。我们有时候可以不知道一个词在词典中的确切意思，但是因为它每每都出现在某个上下文里面，我们就可以自然的获得对这个词汇的理解。

代码

老师提供了如下的Python代码，

import numpy as np

%matplotlib inline
import matplotlib as plt
plt.style.use('ggplot')

from sklearn.decomposition import PCA

import gensim.downloader as api
from gensim.models import KeyedVectors

model = api.load("glove-wiki-gigaword-100")

这个代码，使用了Gensim（1）。Gensim并不是深度学习哭，但是包含了word vector的实现。数据用了斯坦福自己的GloVe（2）的word vector数据。

加载了model以后，就可以用model来观察和研究词之间的关系。比较简单的，我们可以看跟面包关系比较紧密的东西有什么：

model.most_similar(["bread"]

[('flour', 0.7654520869255066),
 ('baked', 0.7607272863388062),
 ('cake', 0.7605516910552979),
 ('loaf', 0.7457114458084106),
 ('toast', 0.7397798895835876),
 ('cheese', 0.7374635338783264),
 ('potato', 0.7367483973503113),
 ('butter', 0.7279618978500366),
 ('potatoes', 0.7085272669792175),
 ('pasta', 0.7071877717971802)]

输出的这些词分别是flour – 面粉， baked – 烘焙， cake – 蛋糕 loaf – 一条面包， toast – 烤面包， cheese – 奶酪， potato – 土豆， butter – 黄油， potatoes – 土豆， pasta – 面条。

我们也可以看跟coffee关系紧密的是什么：

model.most_similar(["coffee"]

[('tea', 0.77326899766922),
 ('drinks', 0.7287518978118896),
 ('beer', 0.7253385186195374),
 ('cocoa', 0.7026591300964355),
 ('wine', 0.7002726793289185),
 ('drink', 0.6990923881530762),
 ('corn', 0.6825440526008606),
 ('sugar', 0.6775094270706177),
 ('bread', 0.6727856993675232),
 ('fruit', 0.667149007320404)]

但是，因为这些都是word vector词向量，向量是可以进行运算的，在空间上加减可以得到很有意思的结果。下图的例子是

我们知道king的向量和man的向量有关系，如果我们把king的向量减去一个man得到了一个新的起点，然后加上一个woman，结果就可能会得到gueen的结果。代码如下：

model.most_similar(positive=["king","woman"],negative=["man"])

[('queen', 0.7698541283607483),
 ('monarch', 0.6843380331993103),
 ('throne', 0.6755736470222473),
 ('daughter', 0.6594556570053101),
 ('princess', 0.6520534157752991),
 ('prince', 0.6517034769058228),
 ('elizabeth', 0.6464518308639526),
 ('mother', 0.631171703338623),
 ('emperor', 0.6106470823287964),
 ('wife', 0.6098655462265015)]

most_similar的positive参数里面放上两个词，king和woman等于这两个向量相加，negative放入man，等于在结果向量减去man。结果第一个就是queen。

类似的研究或者游戏，我们可以继续做，都很好玩。

model.most_similar(positive=["coffee","china"],negative=["usa"])

[('tea', 0.6365849375724792),
 ('fruit', 0.6253646016120911),
 ('chinese', 0.5799036622047424),
 ('food', 0.5783675312995911),
 ('grain', 0.577540397644043),
 ('vegetables', 0.5578237771987915),
 ('prices', 0.5492344498634338),
 ('fruits', 0.5417575836181641),
 ('export', 0.5401189923286438),
 ('vegetable', 0.5384897589683533)]

model.most_similar(positive=["king","china"],negative=["england"])

[('jiang', 0.6718781590461731),
 ('chinese', 0.657663106918335),
 ('wu', 0.6562906503677368),
 ('li', 0.6415701508522034),
 ('zhu', 0.6260422468185425),
 ('liu', 0.6097914576530457),
 ('beijing', 0.6078009605407715),
 ('qin', 0.6032587289810181),
 ('zemin', 0.6009712815284729),
 ('chen', 0.5993086099624634)]

model.most_similar(positive=["president","china"],negative=["usa"])

[('jiang', 0.7173388600349426),
 ('hu', 0.7164437770843506),
 ('government', 0.6859283447265625),
 ('jintao', 0.6816513538360596),
 ('zemin', 0.6663808822631836),
 ('chinese', 0.6555445194244385),
 ('chen', 0.6504189372062683),
 ('beijing', 0.6466312408447266),
 ('taiwan', 0.627478837966919),
 ('administration', 0.6196395754814148)]

Notes：

Gensim是一个用于自然语言处理（NLP）的开源 Python 库。它提供了用于文本相似性分析、主题模型、文本转化和聚类的工具。Gensim 借鉴了许多有效的 NLP 技术，包括 Latent Semantic Analysis（LSA）、Latent Dirichlet Allocation（LDA）和 Random Projections（RP）。

Gensim 的目标是为用户提供一个简单易用的工具，帮助用户在文本数据上执行高效的 NLP 任务。 Gensim 使用简单的命令行界面，使用户可以轻松地处理大型文本集合，并使用少量的代码实现复杂的 NLP 任务。
GloVe（Global Vectors for Word Representation）是一种用于词嵌入（word embedding）的技术。它通过在语料库中统计每个单词和其他单词的共现次数，然后通过最小二乘法将单词映射到低维空间的向量（即词嵌入）的过程来工作。
GloVe的优势在于它能够保留单词之间的关系，这使得它很适合用于自然语言处理（NLP）任务，例如文本分类、机器翻译等。它也比较通用，能够应用于多种语言，并且计算效率高。GloVe是一种流行的词嵌入技术，并且已经被广泛应用于自然语言处理领域。它能够提供有效且较为通用的词嵌入，是许多自然语言处理系统的首选。

Standford CS224N-深度学习下的NLP学习笔记（不定期更新）最先出现在Tinyfool的个人网站。