独家 | 线性代数:每个数据科学家的必知概念(上)

共 5318字,需浏览 11分钟

 ·

2024-07-25 17:00












作者:Benedict Neo


翻译:陈之炎


校对:ZRX












本文约2500字,建议阅读8分钟


本文将探讨上述线性代数概念、视觉解释和代码示例。











你对线性代数有足够的了解吗?






线性代数是所有数据科学和机器学习任务的基石, 它是将理论模型转化为实际解决方案的语言, 它体现了能够利用算法从数据中学习的准则。


xkcd


线性代数可用于:



1. 数据表示:用一种结构化的方式来组织和操作数据,将复杂数据集表示为矩阵


2. 降维:利用PCA线性代数技术减少变量数量,以提高模型效率而不失重要信息


3. 优化:梯度下降,作为机器学习的核心引擎,使用线性代数找到函数的最小值。


4. 特征工程:利用线性变换和矩阵操作从现有数据中创建新特征


5. 相似性度量:将数据嵌入并存储为向量,在当前推荐系统和AI聊天机器人中使用。

6. 其他!


本文将探讨上述线性代数概念、视觉解释和代码示例。 让我们立即开始!


代码→ Deepnote 笔记本


本文(上篇)目录



向量




  • 单位向量



向量操作




  • 向量相加



  • 标量相乘



  • 点积



向量空间




  • 零空间(核)



  • 张成空间







  • 线性独立










本文(下篇)目录






矩阵




  • 矩阵作为函数



  • 线性变换



  • 逆矩阵



  • 奇异矩阵



  • 单位矩阵



  • 对角矩阵 



  • 正交矩阵



  • 矩阵乘法







  • 决定值 







  • 特征向量和特征值






向量





图片由作者提供


这是线性代数的基本构建块。通常有三种方式来考量向量。


第一种是物理学视角:向量是指向空间中的箭头, 由长度和方向定义。平面上的向量是二维的,生活空间中的向量是三维的。


第二种是计算机科学视角:向量是有序的数字列表,列表的长度决定了维度。


第三种是数学家的视角:向量可以是任何东西,只要两个向量可以相加并且可以被数字乘(即标量乘法)。




Deepnote 截图


单位向量


单位向量是幅度为1的向量,通常用它来表示一个向量的方向,而无需考虑其大小。


向量操作


向量相加






两个向量的加法构成一个新的向量,逐分量相加。





标量相乘


标量相乘是一个向量乘以一个标量(一个数字), 结果是一个方向与原向量相同(如果标量是负数则相反)的向量, 其大小由标量的绝对值进行缩放。







点积


它是两个向量的欧几里得大小的乘积和它们之间夹角的余弦, 反映了向量的长度和它们的方向关系。



点积公式


直观地说,可以将点积公式想象成将一个向量的定向增长应用到另一个向量上, 或者“一个向量给另一个向量提供了多少动量/能量?”。结果是使得原向量变得更强(正向,负向或0)





如果两个向量的点积为0,则说明这两个向量是正交的。









可以用一个有趣的类比做进一步解释:


假设红色向量是速度,蓝色向量是助推垫的方向,点积是获得的助推量,助推力数值越大,意味着能获得更强的动力。


使用方程式来表示,|a| 是来速,|b| 是最大助推,获得的助推百分比是 cos(θ), 总体助推为 |a| |b| cos(θ)。



进一步解释









向量空间


向量(或线性)空间是任何可以相互做加法和乘法(称为标量)的向量集合。


满足一系列公理的向量V 称为向量空间。





零空间(核)


零空间是一组向量的集合,当它们与矩阵相乘时,结果为零向量。


将它表示为方程 Ax = 0 的解,其中 A 是给定的矩阵。


假设一个二维空间中有两个向量,可以将矩阵的零空间可视化为一个子空间, 当与矩阵相乘时,向量将折叠到原点(零向量)。





张成空间


给定一对向量v 和 w 的线性组合av + bw构成的所有可能向量的集合,其中 a 和 b 是实数。大多数向量对经过线性组合之后,可以到达二维向量平面上的任意点。



3blue1brown 关于张成空间的视频


当两个向量恰好排成一行时,它被限制在通过原点的单条线上。






张成空间的概念是基的概念的基础。



基是一组线性独立的向量,它们组成整个向量空间,向量空间中的每个向量都可以表示为基向量的线性组合。 将它们想象为空间中所有其他向量的构建块。 将单个向量想象为箭头,对于一组向量集,将其想象为点,基向量对可以张成整个二维平面。


线性独立


如果集合中的向量不能用其他向量的线性组合表示(例如,x 和 y 的线性组合将是任何形式的 ax + by,其中 a 和 b 是常数),则一组向量是线性独立的。





资源



Hackers 通道 




  • 程序员必学计算线性代数



  • 应用机器学习的线性代数入门



可视化




  • 图形线性代数-一种新的LA方法



  • 线性代数的本质3BluelBrown-惊人的动画,可视化的概念



  • 矢量化



  • 洞察数学



论文/课程/教科书




  • 深度学习所需的矩阵演算



  • 数据分析、信号处理和机器中的矩阵方法  |麻省理工学院开放式课程



  • 线性代数全答对



  • 4页线性代数.Pdf






保持联络!


务必关注 bitgrit 数据科学出版物以保持更新!想和其他数据科学家讨论数据科学和人工智能的最新发展吗?加入我们的discord服务器!关注 Bitgrit 以获取有关研讨会和即将到来的比赛的更新!


作者简介:


本博由 Benedict Neo 撰写 ,bitgrit 数据科学出版物的编辑,40K 关注, Python ∩ 数据科学 ∩ AI 







原文标题:


Linear Algebra Concepts Every Data Scientist Should Know


原文链接:


https://medium.com/bitgrit-data-science-publication/linear-algebra-concepts-every-data-scientist-should-know-18b00bd453dd





编辑:黄继彦






















译者简介




































陈之炎,北京交通大学通信与控制工程专业毕业,获得工学硕士学位,历任长城计算机软件与系统公司工程师,大唐微电子公司工程师,现任北京吾译超群科技有限公司技术支持。目前从事智能化翻译教学系统的运营和维护,在人工智能深度学习和自然语言处理(NLP)方面积累有一定的经验。业余时间喜爱翻译创作,翻译作品主要有:IEC-ISO 7816、伊拉克石油工程项目、新财税主义宣言等等,其中中译英作品“新财税主义宣言”在GLOBAL TIMES正式发表。能够利用业余时间加入到THU 数据派平台的翻译志愿者小组,希望能和大家一起交流分享,共同进步














翻译组招募信息






工作内容:需要一颗细致的心,将选取好的外文文章翻译成流畅的中文。如果你是数据科学/统计学/计算机类的留学生,或在海外从事相关工作,或对自己外语水平有信心的朋友欢迎加入翻译小组。


你能得到:定期的翻译培训提高志愿者的翻译水平,提高对于数据科学前沿的认知,海外的朋友可以和国内技术应用发展保持联系,THU数据派产学研的背景为志愿者带来好的发展机遇。


其他福利:来自于名企的数据科学工作者,北大清华以及海外等名校学生他们都将成为你在翻译小组的伙伴。




点击文末“阅读原文”加入数据派团队~





















转载须知


如需转载,请在开篇显著位置注明作者和出处(转自:数据派ID:DatapiTHU),并在文章结尾放置数据派醒目二维码。有原创标识文章,请发送【文章名称-待授权公众号名称及ID】至联系邮箱,申请白名单授权并按要求编辑。


发布后请将链接反馈至联系邮箱(见下方)。未经许可的转载以及改编者,我们将依法追究其法律责任。




















点击“阅读原文”拥抱组织























浏览 176
2点赞
评论
收藏
分享

手机扫一扫分享

分享
举报
评论
图片
表情
推荐
2点赞
评论
收藏
分享

手机扫一扫分享

分享
举报