主页 - 小昇的博客

聊天模型 ChatGPT 一经推出就引起了巨大轰动，凭借强大的语言生成能力，它几乎对任何问题都能给出高质量的回复。许多人也借助 ChatGPT 提高了工作效率，因此学习它的使用方法很有必要。本文将演示如何通过调用 OpenAI API 的方式来使用 OpenAI 提供的一系列模型。本文只专注于文字类工作，音频、图像等多模态任务请参见官网文档。 ChatGPT ChatGPT 基于生成模型 GPT 构建，能够生成符合语法的流畅文本，还能遵循人类指令完成任务。相比其他工具，ChatGPT 具有两个优点：一个模型完成多种任务。大部分 NLP 工具只能完成单个任务，而 ChatGPT 以“文本补全”的方式工作，并且能够理解人类指令，因此能完成几乎所有类型的文字类工...

原文发表于 NPR，端传媒与 NGOCN 翻译转载发布。作者：翟淑珍（Susan Jakes），ChinaFile 主编，亚洲协会中国分析中心资深研究员，2000 年至 2007 年期间，她在香港和北京为《时代》周刊做报道。 2013 年 2 月 18 日，说出 SARS 真相的中国军医蒋彦永在北京举行的非典十周年座谈会上讲话。 “在中国，为了生存，公民必须学会适应真相与官方真相之间的鸿沟。官方上，中国是一个把工人放在第一位的‘人民共和国’。官方上，中国尊重人权。官方上，中国的媒体能够自由报道新闻。那些指出官方真相与不幸现实之间的巨大鸿沟的人被贴上混淆视听、不爱国或邪恶的标签，因为官方上不存在这样的鸿沟。” 2003 年《时代》杂志表彰中国军医蒋彦永为 “亚洲年度新...

2 月 9 日，美籍华裔科幻作家 Ted Chiang 在《纽约客》上发表文章，表达了他对时下大热的人工智能 ChatGPT 独特见解。Ted Chiang 在科幻小说领域成绩斐然，曾获得星云奖、雨果奖等科幻小说大奖。他的短篇小说《你一生的故事》在 2016 年被改编成电影《降临》。原文《ChatGPT Is a Blurry JPEG of the Web》，翻译：澎湃新闻记者程千千 2013 年，德国一家建筑公司的工人注意到他们的施乐复印机有一些奇怪的地方：当他们复印一张房子平面图时，副本与原件之间存在微妙而显著的差异。在最初的平面图中，每栋房子的三个房间都有一个矩形来说明其面积：房间分别为 14.13 平方米，21.11 平方米和 17.42 平方米。然而，在复印件中，所...

在使用预训练模型时，我们有时需要使用一些自定义 token 来增强输入，例如使用 [ENT_START] 和 [ENT_END] 在文本中标记出实体。由于自定义 token 并不在预训练模型原来的词表中，因此直接运用分词器 (Tokenizer) 处理输入就会出现问题。例如直接使用 BERT 分词器处理下面的句子： from transformers import AutoTokenizer tokenizer = AutoTokenizer.from_pretrained("bert-base-cased") sentence = 'Two [ENT_START] cars [ENT_END] collided in a [ENT_START] tunnel [ENT_EN...

本系列教程已整理至 Github，在线阅读地址：transformers.run 本文我们将运用 Transformers 库来完成情感分析任务，并且使用当前流行的 Prompting 方法。Prompting 方法的核心思想就是借助模板将问题转换为与预训练任务类似的形式来处理。例如要判断标题“American Duo Wins Opening Beach Volleyball Match”的新闻类别，就可以应用模板“This is a $\texttt{[MASK]}$ News: ${x}$”将其转换为“This is a $\texttt{[MASK]}$ News: American Duo Wins Opening Beach Volleyball Match”，然后送...

近年来，随着 BERT、GPT 等大规模预训练语言模型 PLM (Pre-trained Language Models) 的出现，越来越多的 NLP 方法都通过在 PLM 上添加任务相关的结构（任务头）来完成任务。NLP 方法逐渐从“设计模型，从零训练模型”转变为“加载预训练模型，在数据上微调参数”。由于采用无监督/半监督的方式建模语言，PLM 能够在海量数据上进行预训练，从而包含更丰富的语言学知识。研究表明，PLM 不仅能够学习到文本的语义表示，还包含了语法 (Vig, 2019; Clark et al., 2019)、句法 (Hewitt & Manning, 2019)、常识 (Davison et al., 2019)，甚至世界知识 (Petroni et...

自从 2017 年 Google 发布《Attention is All You Need》之后，各种基于 Transformer 的模型和方法层出不穷。2018 年，OpenAI 发布的 Generative Pretrained Transformer (GPT) 和 Google 发布的 Bidirectional Encoder Representations from Transformers (BERT) 模型在几乎所有 NLP 任务上都取得了远超先前 SOTA 基准的性能，将 Transformer 模型的热度推上了新的高峰。目前大部分的研究者都直接使用封装好的深度学习包来进行实验（例如适用于 PyTorch 框架的 Transformers，以及适用于 Kera...

Google 在论文《Transformer Quality in Linear Time》中提出了一种新的高效 Transformer 模型 FLASH-Quad，它虽然依旧具有二次复杂度，但是速度更快、显存占用更低、效果更好。知名博主苏剑林对该设计进行了深度解读，并且在此基础上又进行了一些拓展思考。本文将简单梳理这几篇博文的核心内容，帮助大家快速了解该模型。从 GLU 到 GAU 标准 Transformer 其实是 Attention 层和 FFN 层交替构建的，而 FLASH 模型的核心就是提出了一个融合了两者的门控注意力单元 GAU (Gated Attention Unit)，它是新模型更快、更省、更好的关键。我们都知道，标准的 FFN 是两层 MLP 模型：...

主页

ChatGPT 教程 (Python 调用 OpenAI API)

回忆蒋彦永医生：勇敢揭露 SARS 真相，公开呼吁平反“六四”

Ted Chiang：ChatGPT是网上所有文本的模糊图像

如何向 Transformers 模型词表中添加新 token

Hugging Face 的 Transformers 库快速入门（十）：Prompting 情感分析

Prompt 方法简介

使用 Pytorch 一步一步实现 Transformer Encoder

高效 Transformer：从 GLU 到 GAU