大连坐做网站公司,注册一个公司大概要多少钱,青岛一品网站建设,手机模板素材图片人工智能和机器学习之线性代数(二)
本文Linear Algebra 101 for AI/ML – Part 2将通过介绍向量的点积(dot Product)、Embedding及其在相似性搜索中的应用来建立这些基础知识。 将学习Embedding#xff0c;Embedding是表示概念、对象和想法的特殊类型的向量。Embedding在整个…人工智能和机器学习之线性代数(二)
本文Linear Algebra 101 for AI/ML – Part 2将通过介绍向量的点积(dot Product)、Embedding及其在相似性搜索中的应用来建立这些基础知识。 将学习EmbeddingEmbedding是表示概念、对象和想法的特殊类型的向量。Embedding在整个现代 人工智能AI 中使用并在大型语言模型、图像生成模型和推荐系统中得到应用。 人工智能和机器学习之线性代数 人工智能和机器学习之线性代数(二)向量点积Dot Product算法角度视觉角度向量的模Norm两种计算方式的示意图几种向量点积计算结果 Embeddings VectorOpenAI 的 CLIP 模型的Embeddings总结 向量点积Dot Product
本文将从两个角度来处理点积算法角度和视觉角度。
算法角度
计算两个向量点积的算法就是简单地将两个向量按对应元素相乘然后相加。 a torch.tensor([1.0, 2.0, 4.0, 8.0])b torch.tensor([1.0, 0.5, 0.25, 0.125]) torch.dot(a, b)
tensor(4.)
视觉角度
使用点积的余弦公式计算两个向量的点积。 向量的模Norm 两种计算方式的示意图 坐标形式0.00x3.003.00x3.009.00 余弦公式3.00x4.25x0.70779.02根号计算取近似值有一定出入理论上等于9.00
几种向量点积计算结果
通过计算向量的点积可以简单的判断两个对象(用向量表示)是否相似同向表示相似反向或垂直表示不相似。 两个向量通常是对齐的并指向相同的大致方向。从形式上讲两个矢量之间的角度小于 90°。因此正点积。 两个向量通常未对齐并且指向大致相反的方向。从形式上讲两个矢量之间的角度大于 90° 且小于 270°。因此负点积。 两个向量是垂直的。它们既没有对齐也没有错位。因此点积为零。
Embeddings Vector
Embeddings是经过适当训练的神经网络模型将任何东西转换为向量。
向量的点积如何应用于机器学习事实证明关于向量和点积的知识可以应用于ChatGPT 等大型语言模型、DALLE 等图像生成以及 Netflix 等电影推荐系统。
正如我们将在以后的学习中了解到的那样基于神经网络的 AI应用程序不会直接处理图像、文本、视频和音频。相反这些输入首先被转换为向量和矩阵然后这些向量和矩阵被传递到神经网络中神经网络可以在生成输出例如聊天机器人响应、合成生成的图像或推荐的电影之前对它们执行各种数学运算。尽管在人眼中这些向量和矩阵可能看起来像是随机但有组织的数字列表但对于神经网络来说它们包含某种概念。表示这些概念的向量称为Embeddings向量。因为向量中看似随机的数字能够表示从鸟bird到电动汽车electric cars再到全球化的任何东西所以我们说这些Embeddings捕获了语义含义。
为了说明这一点让我们来看看三部流行的电影。假设 《复仇者联盟终局之战》(The AvengersEndgame) 的向量表示33《蜘蛛侠》(Spiderman) 的向量表示31 《爱乐之城》(La La Land) 的向量表示-3-2。 由于《复仇者联盟终局之战》(The AvengersEndgame)和《蜘蛛侠》(Spiderman)是漫威超级英雄电影因此它们的向量将大致对齐因此它们的点积将为正。然而电影《爱乐之城》(La La Land)的动作较少色彩更严肃。因此它与其他两部电影的点积将为负数。
我们将在后面介绍如何为这些电影生成这些坐标但现在假设这些是代表电影的点/向量。如果我们只随机选择向量的值这些向量对我们来说毫无意义但如果选择它们的方式是《复仇者联盟终局之战》和《蜘蛛侠》的向量指向的坐标比《爱乐之城》的坐标更接近那么这些向量可能会很有用。什么操作会告诉我们两个点靠在一起的程度或两个向量对齐的程度点积。
这在机器学习中是一个有用的概念因为如果我们有一个经过适当训练的神经网络模型我们几乎可以将任何东西转换为Embedding。这种使用点积来衡量概念、想法和对象之间相似性的概念(Embedding)将成为我们将构建的相似性搜索引擎的基础。
OpenAI 的 CLIP 模型的Embeddings
CLIP Contrastive Language-Image Pretraining在给定图像的情况下预测最相关的文本片段。
Embeddings是通过将单词传递到 OpenAI 的名为 CLIP 的神经网络中来生成的。但从本质上讲此模型能够接受文本或图像作为输入并生成Embeddings作为输出。可以确定视觉上靠得很近的单词是属于同一类别。 让我们使用经过适当训练的神经网络从五个不同类别的单词生成Embedding向量。将 5 个不同类别的单词 flowers、 elements of the periodic table、 music genres、⚽️ sports、 European cities传递给 CLIP当我们输入一些单词时正如预期的那样Embedding 向量中出现了 5 个不同的聚类。请注意音乐流派(music genres)聚集在中间花朵(flowers)的类型一起在左边体育运动(sports)在右上角欧洲城市(European cities)在右下角元素周期表(elements of the periodic table)的元素在左下角。一个例外是 pop 这个词。虽然流行音乐是一种音乐流派但它也是一个具有多重含义的超载术语这可能就是它没有明确与其他音乐流派归为一类的原因。
总结
本文学习了计算点积的算法然后获得了围绕此操作的视觉几何意义。然后我们了解了一种称为 embeddings 的特殊类型的向量并探索了由 CLIP 神经网络生成的 embeddings。