网站设计三把火科技,谁会写网站代码,一般电商都是在哪些网站上做,无锡专业做网站的公司哪家好有着过硬的技术却无处可用是不是很苦恼呢#xff0c;大家在面试时是不是也积累了一些经验呢#xff0c;本文详细总结了大佬在大模型面试时的一些经验及感悟#xff0c;希望对大家面试找工作有所帮助。
2023年#xff0c;大模型突然国内火了起来#xff0c;笔者就面了一些…有着过硬的技术却无处可用是不是很苦恼呢大家在面试时是不是也积累了一些经验呢本文详细总结了大佬在大模型面试时的一些经验及感悟希望对大家面试找工作有所帮助。
2023年大模型突然国内火了起来笔者就面了一些公司有大厂有初创。最近挺多朋友聊大模型相关的内容对面试也感兴趣想这里综合写一下也希望能和各位同行交流下。
后边会大体总结下面试的经验感悟以及我认为要注重的内容一家之言仅供参考。
技术交流
技术要学会分享、交流不建议闭门造车。一个人可以走的很快、一堆人可以走的更远。
面试相关资料及代码都已上传均可加交流群获取群友已超过2000人添加时最好的备注方式为来源兴趣方向方便找到志同道合的朋友。 方式①、添加微信号dkl88194备注来自CSDN 加群 方式②、微信搜索公众号Python学习与数据挖掘后台回复加群 1. 智元机器人Agibot拒
稚晖君那个。当时面的很早他们好像还在一边组建团队一边搞东西一面就是稚晖君本人问了一些简历的经历然后问了transformer相关的比较常见的问题比如MHA复杂度BERT/GPT这种。然后后边就没有收到回复应该是挂了。这家是我开始面试的第一家所以印象还比较深刻。和大佬交流感觉也挺顺畅很看好他家的以及具身智能这个方向。给稚晖君大佬点赞
2. 面壁科技/面壁智能offer
记得一共两面技术上问了大模型训练transformer相关的内容和过往经历第二面好像就聊offer了如果没有记错。团队很年轻大部分清华背景。当时感觉是不是有点太年轻了虽然清华背景这样子。印象里他们有说funding还是很足的。PS包是挺大的。
3. 光年之外 (简历拒)
三月份猎头帮忙推荐的简历拒。
4. 北京智源人工智能研究院 (消失
一共3-4面面试官是不同team的人有evaluation训练等团队。面试时总体感觉他们想招偏evaluation这边的人。面到后面记得有一次面试官鸽了约好的面试然后后面说从新安排时间但是猎头或者HR就没有再给后续消息了应该是默拒了。
5. 360简历拒
当时猎头说要高PP8
6. Minimax (口头offer):
这家面试轮次挺多具体记不清但是起码4轮。
前几轮都是考leetcode为主问了很少很浅的大模型的内容记得是其中一面是让手写MHA。最后一轮和主管聊完之后被分配到了框架组的offer和猎头问了一下算法组是不是考虑回答是不就没再继续接触。
PS他家的包还是挺大的总包说肯定到得了X在几家初创里都算大的但是面试时公司的前景业务技术方向感觉面试官没有沟通很多。主管面也是20分钟就匆匆结束了没有交流很多信息。
7. 昆仑万维 offer
面试好像问了之前训练大模型的内容比如模型参数大小训练一些细节之类的印象里没有leetcode。面试官记得很乐呵的一个人。当时拿到的包裹相对低一些比其他公司。不过后边接触到猎头都说他家给的还是很可以的所以不确定是不是自己记错了或者交流有误。
8. 云从科技 (拒)
两轮面试被拒掉了印象很深的是第二轮面试超级长设定1个小时面试聊了2个多小时。面试官问了很多之前的经验大模型训练的细节之类的模型端框架端之前做的研究都聊到了。感觉聊的是挺开心的不过后边就被拒了。
9. 阿里夸克offer
4论面试2轮带leetcode然后浅浅问了相关经验第三轮主要问了大模型的内容比较标准的问题transformer训练分布式如何处理训练一些问题比如loss spike啥的。第四轮是cross面推荐组的一个大佬感觉是象征性面试因为之前做过搜广推问了相关问题问了probability和脑筋急转弯最后问一些OS的问题我不会。
几天后收到offer和HR接触时感觉不太礼貌交流有些摩擦。
10. 衔远(offer)
3面左右问的也比较中规中矩。最后一面是和周伯文老师聊。他家最后给了框架的岗位但是我相对想做模型相关。包裹挺大的。
11. 潞晨科技Colossal-AI拒
他家是做框架为主的一面问了很多框架内容各种模型切分方式问的比较深好像也问了flash-attention的内容感觉答得还凑合。
后来我表达了想做算法端他们算法那边确实也在招人不过hc不多二面是算法组的人面的问的应用端比较多感觉可能不做基座然后面挂了。他家在圈子里感觉框架端名声挺大的记得公司内部之前有人发他家新闻来着。
12. 蚂蚁offer
徐鹏老师团队。一面记不清了二面是徐鹏老师本人。聊了之前很多经历大模型搜广推本科实习时的前后端。印象深一点是徐鹏老师表达了团队人希望模型研究和工程都要做research和engineering不分很细这个和我的观点很像。接下来一轮HR面就发offer了第一年算上签字 ** 这样子。
13. 腾讯简历拒
猎头说要phd。
14. 小红书简历拒
猎头说要phd。
15. 商汤没消息了被拒
一共两面一面记得是leetcode写MHA感觉面得不错。二面好像答得不太好具体问的啥忘掉了。。。后来没消息了被拒。
16. 百川智能拒
猎头推的安排了面试第一面过了之后后面二面我记错了时间晚了很久在外边开车。然后被HR拒掉了不过理由说的是要3年以上经验的不知道是不是给我点面子。
17. 百度文心offer
这边面了好多轮。一面是数据组的人问了很多关于大模型数据处理的内容感觉答得一般表达了想去模型组然后面试官应该是和HR交流了第二组开始就是模型组的人来面试。有没有leetcode不记得了面试内容也比较中规中矩transformer大模型训练这种内容。后边和leader还有HR聊得也比较通畅。和初创不一样他家组分得挺细的模型框架数据啥的都是分开的。包裹底薪* 万多几个月忘了
18. 科大讯飞拒
HR先聊的觉得我不可能来合肥就拒了。
19. IDEA研究院拒
这家确实啥也不记得了记得的就是一面就被拒了很尴尬。
20. 好未来offer
他家感觉团队整体背景在众多公司中相对一般一面问了一个简单的leetcode没答上来很尴尬模型轮可能比较好最后还是给offer了。问题也比较中规中矩包裹没聊。做的项目是数学相关的GPT模型个人也不是很了解这个方向。
21. 零一万物拒
一面是之前阿里的推荐系统那边的大佬问了leetcode和一些推荐系统的问题感觉答得还可以。二面也是个大佬有搜广推NLP相关很多经验考了个需要动点脑子的leetcode,没答上来挂了。没有走到很靠后好奇他家后边面试会不会有大模型的大佬来面。
22. 月之暗面moonshot拒
这家感觉面试问的广度和深度是国内厂面的里边最相关也最专业的。一面是个大佬之前Kaiming大神一些高引论文的共同作者。一开始问了包括一些基础的大模型训练的内容transformer架构。然后开始问一些框架端的内容分布式训练的切割和device之间交流后面follow-up的问题问了不同device之间communication怎么做底层communication算法有啥我答案里有ring-reduce然后再深入问了reduce底层如何实现我就不会了。问了会不会用cuda写东西我说了解很浅。最后给了比较难的leetcode题目不记得了没写出来挂。看了下他家主页感觉创始人和员工都很牛。这家虽然只有一面感觉在国内应该是背景很top的一家了。很可惜没有机会多聊一些。
23. 阿里达摩院新达摩offer
一面考了leetcode浅问了大模型技术。第二面是团队大老板海归之前在北美连续创业成功汇报行癫。聊了很多高层的对于大模型技术上的愿景和理解大模型未来市场方向之类的我其实听不特别懂不过学到了很多。他家是纯研究方向算力听意思挺nb的。主要做大语言模型和多模态大模型这两方面的。最后说我一面leetcode不太行补了一面coding然后收到了offer。
24. 边塞科技 (拒
这家专门做RLHF微调的。清华背景创始人有openai的经验。聊了两面感觉在RLHF上积累特别多学到了很多东西。楼主RL是个票友级别就无了。
总结
这段时间面试了很多家也学到了超级多东西。楼主这边背景是做基座预训练算法端为主的对框架端和RL的内容有一定了解面试能凑合对于后端的知识比如ML compilerkernelcuda相关的了解就比较浅了问到觉大概率挂。硬件几乎不太懂。感觉一圈聊下来几点感悟: 大模型这方向真的卷面试时好多新模型新paper疯狂出东西出的比我读的快。 Research岗位对工程也有要求工程端也需要了解模型。 感觉比较硬核的岗位尤其初创公司都是对好几个点都有要求的应用模型框架底层后端硬件。 楼主目前是模型 框架 底层 其他。下一步想不放下模型的前提下发展底层这边的能力kernel等 目前市场还看不太清楼主对市场之前不太关注也不感兴趣技术宅。 RLHF很有前景的方向强化学习如果经历够的话也要深挖一下。 大模型包总体给的相对高一些同P)。 目前大多数公司还是集中在语言模型偏研究的方向会有多模态的预训练这意思。
考点
一些比较高频的东西针对基座算法/框架岗位为主大体按重要性排序 多头注意力频率太高了。coding轮概念轮都考。复习的点包括时间/空间复杂度优化kv-cacheMQAGQA手写多头代码。各种Norm这个频率也不低不过比较标准的内容没有啥特意要说的有的考手写有的考概念和理解为什么管用。 框架相关内容各种并行方式优缺点。DeepSpeedMegatron可以看看源代码Flash-Attention等内容。这个点也经常考代码题。 BERTGPT等比较主流大模型一些细节比如位置编码训练loss激活架构些许不同这种。自回归重点。 大模型训练这个可能主要是工作经验相关经常问比如训练loss炸掉了如何解决一些技巧之类的。面试时有些面试官会问一些很细节的东西感觉是在确认确实上手跑过基座训练不是吹水。 数据预处理BPEtokenizationmask相关概念和对模型/训练影响数据配比有paper。 evaluation如何评估大模型安全性有效性公开数据个别考过手写eval框架多选生成。 根据投的岗位多模态和RLHF内容可以适当看看。这俩感觉paper挺重要的也大多研究岗位。楼主也少面了一些自动驾驶RL啥的不过结果不咋地。
PS有些非基座相关的或者实在没啥印象的就没写。
还有几家背景和面试感觉特别好的公司不过猎头特别说了要保密不方便发如果有朋友想了解的话可私信。
底层牛的小伙伴求留言给一些学习资料编译器cuda之类的想有时间学起来。