Axi's Blog
Paper Reading: LLM 1Blur image
评分准则
平平无奇的论文
正常的论文
广受认可或者让我眼前一亮的论文
奠基性的论文或者我非常喜欢的论文
毋庸置疑的最棒的论文

BOW#

BOW,也就是 Bag of Words,是一种十分简单的模型,简答来说就是将一句话使用词的形式进行分割,然后用键值对的形式进行储存。这样做的一个显然的结果就是,词袋模型并不能很好的建模语言的顺序,但是作为一种最为初级的 tokenizer 来说也已经很不错了。

所以很显然,词袋模型的第一个通病,就是处在无法对于语序进行建模这个问题上,而且同时,可以理解为这个模型是使用一种表格来进行表示的,这种表格是 one-hot 且离散的,本质上也没有很好的建模语言。

词袋模型的一个 trick 在于处理过大的词表,可以使用 hash 的方法,更好的利用空间。

参考资料:

TF-IDF#

TF-IDF 可以理解为是一种对于知识库中的文档中的词汇的重要性的建模方法。这个思想十分简单,也是由两个因素组成,TF 和 IDF,前者用来形容一个词汇在文档中出现的次数,后者则是使用了这个词汇的文档的次数。但事实上其中使用了 log 与乘法等内容进行数学形式的计算,不过这里只讨论 insight。

这种方法很好地体现了一个真正的关键词汇,在文档中所需要包含的特征。首先,这个词汇一定会被反复提起,因此这个词汇与文档的关联性才高;同时,这个词汇不会被太多的文档所提及,假如被被提及太多,意味着这个词汇丧失了独特性,诸如人称代词等一系列内容,均符合 TF 的描述,因此需要 IDF 来进行 filter。

参考资料:

Word 2 Vec#

Word 2 Vec 是一种用于生成词向量的技术,它通过将词语映射到一个高维向量空间中,使得语义相似的词在向量空间中距离较近。其中比较常见的是 skip-gram 和 CBOW 两种模型,前者是使用词预测上下文,后者是使用上下文预测词。简单理解一下方法的话,CBOW 是输入一个词(one-hot 向量),然后经过编码,再解码为一个向量,最大化上下文的概率;CBOW 则是输入上下文,最大化词的概率。这两种方法显然都可以很好的训练编码器,也就使得词汇被编码到了一个连续的高维空间中。

Word 2 Vec 的一个 insight 是,它将词映射到了一个高维空间中,而高维空间中,距离较近的词,语义上更相似。因此,这种思想可以拓展到其他领域,例如图像,声音等等,将不同模态的信息映射到同一个高维空间中,然后进行相似度的计算。

Transformer#

Arxiv ID 1706.03762
幻觉翻译 1706.03762

推荐指数:

GPT 1.0#

推荐指数:

BERT#

Arxiv ID 1810.04805
幻觉翻译 1810.04805

推荐指数:

GPT 2.0#

Megatron-LM#

Arxiv ID 1909.08053
幻觉翻译 1909.08053

推荐指数:

T5#

Arxiv ID 1910.10683
幻觉翻译 1910.10683

推荐指数:

ZeRO#

Arxiv ID 1910.02054
幻觉翻译 1910.02054

推荐指数:

Scaling Law#

Arxiv ID 2001.08361
幻觉翻译 2001.08361

推荐指数:

GPT 3.0#

Arxiv ID 2005.14165
幻觉翻译 2005.14165

推荐指数:

Switch Transformers#

Arxiv ID 2101.03961
幻觉翻译 2101.03961

推荐指数:

Codex#

Arxiv ID 2107.03374
幻觉翻译 2107.03374

推荐指数:

COT#

Arxiv ID 2201.11903
幻觉翻译 2201.11903

推荐指数:

InstructGPT#

Arxiv ID 2203.02155
幻觉翻译 2203.02155

推荐指数:

PaLM#

Arxiv ID 2204.02311
幻觉翻译 2204.02311

推荐指数:

LLaMA#

Arxiv ID 2302.13971
幻觉翻译 2302.13971

推荐指数:

GPT 4#

Arxiv ID 2303.08774
幻觉翻译 2303.08774

推荐指数:

DPO#

Arxiv ID 2305.18290
幻觉翻译 2305.18290

推荐指数:

ToT#

Arxiv ID 2305.10601
幻觉翻译 2305.10601

推荐指数:

LLaMA2#

Arxiv ID 2307.09288
幻觉翻译 2307.09288

推荐指数:

Mistral 7B#

Arxiv ID 2310.06825
幻觉翻译 2310.06825

推荐指数:

Mamba#

Arxiv ID 2312.00752
幻觉翻译 2312.00752

推荐指数:

Mamba2#

Arxiv ID 2405.21060
幻觉翻译 2405.21060

推荐指数:
Paper Reading: LLM 1
https://axi-blog.pages.dev/blog/paper-reading-llm1
Author 阿汐
Published at September 9, 2024
Comment seems to stuck. Try to refresh?✨