一、前言
在得物技术部,「稳定」「效率」「体验」「成长」「创新」是我们的关键词。这些关键词就像是战略航行的导航系统:在短期诱惑前构筑认知屏障,筛选干扰项;在组织进化中沉淀文化基因,保持创新。其中的「成长」就意味着专业深耕中永不自满的自我迭代、跨边界协作中主动打破能力天花板的勇气,以及在成就业务目标的同时构建个人价值护城河的清醒认知。
作为得物技术保障部的容器技术团队成员,孟同学在入职两年内迅速成长为团队标杆人物,其主导的【一站式大模型训练与推理平台项目】 不仅极大降低了大模型接入成本,在社区、客服、公司内部应用等场景成功落地,增强了业务价值与用户体验。在公司内外多次积极分享技术成果,提升了公司技术影响力,更以极致细节与自驱力在内部形成示范效应。
正值Q2成长宣传季,技术运营牵头做人物采访,本季度将会采访两位在得物成长比较快的同学,看看他们究竟做了什么?又是如何将「成长」「自驱」融入工作中?今天我们来看看第一位同学「孟同学」,看看他背后的故事。
二、初心与选择:得物的创新很吸引我
孟同学之前在多家互联网公司工作,包括腾讯、Paypal、唯品会、蚂蚁,2019年后阿里达摩院从事算法工程开发;2022年10月加入得物,在得物容器技术从事算法工程相关工作,主要负责得物大模型平台的相关业务。
当时,得物发布了一个云原生AI的职位,要求既有云原生技术背景,又能涉猎AI领域。这两个方向在都是业界的热门趋势,一时间挺难招到比较合适的人,这时候孟同学出现了。他正好在阿里达摩院从事类似的工作,且具备一定的云原生与AI的经验。他说:业界大多数岗位通常会专注于云原生或AI某一方向,但得物把这两者结合起来招聘,给了他一个新的视角和机会。于是他就抱着试试的心态来了得物。
他说:“这样的职位可以让我在专业技术上做一些新的探索,尝试将云原生与AI融合,可能带来更多创新的空间。带着“试试看”的心态,我投递了得物的这个职位,最终决定加入得物,去应对这个充满挑战和机遇的新环境。”
加入得物后,得物的文化和他也超级契合,他说,“在文化价值观中,最吸引我的是得物对 “效率”和“创新” 的高度重视,在当前快速发展的科技环境中,得物不仅倡导快速迭代,还鼓励在保证高效执行的基础上,持续创新并不断突破常规。我现在所在的容器团队就深刻体现了这一点。我们的工作模式通常是先通过小范围验证,快速实验新技术或方案的可行性,确认其技术路径可行且能够带来预期收益后,再进入大规模的开发与应用。这样整个容器团队紧跟技术发展,高效上线了很多新的好的技术优化方案。”
他也是得物技术飞速成长的员工之一,当技术运营问到他如何理解「成长」这一关键词,他表示, “成长”是一个持续自我突破和不断提升的过程。在快速变化的环境中,技术人员不仅要不断提升专业能力,还需要敢于走出舒适区,迎接新的技术挑战。成长不仅体现在技术上,更是一种心态,保持持续学习和反思的能力,追求更高标准。
他在主导“一站式大模型推理平台项目”时,面临的最大挑战是如何降低大模型接入的高成本。2023年初,刚开始接入大模型时,由于推理引擎性能较低,需要大量GPU卡,很多业务难以落地。如果按常规思路,这个项目很难推进。既然常规思路走不通,那么他就换了个思路,通过主动关注社区的最新论文和开源代码**,去尝试社区中提到的优化技巧和加速方案。通过把社区的创新思路与得物内部场景结合,快速验证并落地到得物内部的大模型推理平台中,将优化方案应用到实际场景中,降低了成本并提升了平台性能。
Sean曾在π问π答说过:成长 = 当你遇到复杂问题的时候,能解决复杂问题。 就是说,在这个过程中,克服困难,牵头思考解决方案、寻找解决方案,这样的成长是最快的。回顾孟同学的成长过程,亦是如此。
三、专业与细节:细节直接影响整体效果
在从0到1 建设一站式大模型训练推理平台时,孟同学也遇到了很多问题。包括做这件事的 ROI 是什么?为什么要做这个项目?怎么落地?需要谁来协同?
ROI是什么?
从大模型在业内的落地情况来看,大模型相比传统小模型在效果上有显著提升,尤其在处理复杂任务,的确很有价值。但是从一个开源的大模型到能落地到我们的实际业务场景,需要投入较大的人力资源、研发周期、机器成本等。当时孟同学也是实打实去做了很多调研,包括从初期的人力投入、开发周期,到后续的计算成本,这些都是需要深入权衡ROI的因素。
当我问到,如何平衡收益和建设时,孟同学说一般从以下角度进行权衡:
一是聚焦核心应用场景:我们在选择大模型应用场景时,会优先聚焦那些能够带来最大业务增值的领域。例如,在客户服务和社区管理等场景中,大模型可以有效提高自动化水平,改善用户体验,从而大大提升效率,预期收益也比较显著。通过与算法团队的紧密合作,将大模型的应用精准落地到这些高价值场景中,我们能够在资源有限的情况下,最大化模型的价值和投入产出比。
二是持续优化大模型性能,降低大模型部署成本:大模型的部署成本高是不可忽视的现实,但我们注重的是在实施过程中持续优化大模型的性能,并结合社区最新的大模型推理优化技术进行调整。例如,我们引入了最新的Radix Attention,并行推理,大模型量化,DeepSeek MTP推理加速等技术,结合得物的具体业务场景,进行多方面的性能优化。这些优化不仅提升了大模型在实际应用中的效果,也有效降低了大模型部署的成本,从而实现更好的ROI。
三是通过资源池合并,多部门共用GPU资源的方式降低大模型训练与推理成本:在这方面,我们通过构建多个部门共用的大模型训练资源池,来降低大模型训练成本。在推理阶段,我们通过复用空闲的GPU资源,提供大模型的公共服务,等多种方式,使得多个部门可以共享这些资源,从而降低了大模型的推理成本。这种资源池的合并和共享方式,使得我们能够更加高效地利用公司现有的计算资源,降低整体的开销。
四是持续优化大模型训练与推理平台的效率,缩短上线时间:在训练与推理平台的效率优化上,我们做了大量的工作,通过构建更加高效的训练和推理流水线,减少了大模型上线的时间。同时,我们通过一键微调、一键部署等功能,使得业务方同学能够快速根据业务需求调整和部署大模型。这个自动化的流程不仅提高了工作效率,也大大缩短了从模型开发到实际应用的周期,进一步提升了项目的ROI。
通过上述方法,他们在建设大模型平台时能够尽量控制成本,优化投入产出比,确保大模型的业务落地在合理的时间周期内能带来可观的收益。
为什么做这个项目?
ROI 和团队说清楚了之后,还要跟团队说清楚,我们为什么要做「大模型训练推理平台」,以及怎么去做?
在这个项目中,孟同学担任了一个二合一的角色,既负责产品设计,也负责功能开发。时间回溯到2022年底至2023年初,伴随着ChatGPT的发布,大模型概念的爆发式增长**。与此同时,公司内部也有很多同学开始关注如何部署大模型、如何利用大模型为他们的业务带来实际的收益。当时面临的问题,业务需求不断增加,大模型不断发展,没有统一大模型专用平台,更别说利用大模型来为业务做有效支撑和带来实际收益了。
孟同学就意识到,必须尽快构建一个大模型的专用的平台,让大家能够在这个平台上以低门槛的方式使用并接入大模型。在这个背景下,孟同学他们就开始构建一站式大模型训练与推理平台。
怎么做?
在落地这个项目过程中,还需要考虑到几个实际问题。
首先这个平台支持大模型的快速部署。伴随大模型概念的火爆,通过Lora**微调大模型的方式,因其成本低,效果好,很快流行出来了。于是他们把大模型微调功能也加到平台上了。这样很多业务方便可以使用少量数据,以较低的成本快速微调他们自己的专用大模型。这个便是一站式大模型训练与推理平台最初的架构。但那个时候很多云厂商都还没有相关的平台,落地全靠一步步摸索。
从收益角度来看,首先,通过集中训练与统一部署大模型,我们可以进行统一的优化与资源配置,显著降低了大模型训练与部署的成本。其次,这个平台打破了技术壁垒,使得公司内部非算法同学也能够通过平台自助式操作,基于自己的数据进行模型微调与快速部署。
最终「一站式大模型训练推理平台」也是在得物内部顺利落地,不仅极大降低了大模型接入成本,在社区、客服、公司内部应用等场景成功落地,增强了业务价值与用户体验。
项目成功上线后,有项目小伙伴吐槽到,孟同学对「用户动线设计/代码注释规范」简直是有“强迫症”。
孟同学表示,强迫症肯定没有,就是有点爱抠细节。
在每个项目开始之前,他都会与业务方进行详细的需求梳理,并通过多轮评审确保需求的准确性和可执行性。这种做法在开发大模型平台时,帮助他们避免了许多潜在的风险。
他还说:“在工作中,细节直接影响整体效果,尤其是在用户动线设计和代码注释规范上。用户动线设计关系到用户体验的流畅性,而代码注释则是团队协作的关键,能帮助成员快速理解和优化代码。任何细节上的不足,都可能导致后续问题的产生。
例如,平台操作步骤过于复杂或逻辑不清晰,会直接影响用户体验和平台的使用频率。在大模型平台的设计过程中,通过反复优化用户操作流程,简化步骤,减少不必要的点击,确保用户体验顺畅。”
四、自驱与成长:补齐短板,让长板更长
从项目牵头设计到最终落地,孟同学的成长无疑是非常快的,在沟通过程中,还发现孟同学是一个「自驱」的小伙伴,入职后,主动牵头了向量数据库Milvus平台构建这个项目。这对他来说完全是一个全新的领域,但是他竟然可以在短时间学习相关知识,快速补齐短板。
他说,“我有幸牵头了Milvus向量数据库平台的建设项目。虽然我之前有一定的数据库和分布式系统的经验,但向量数据库的应用和优化对我来说是一个全新的领域。这个挑战让我希望能够学习并掌握更多技术,拓宽自己的视野,提升专业能力。”
为了尽快弥补不足,他采取了两个方法。
一是,通过多种途径学习Milvus相关的理论和实践,深入理解其原理和应用,特别是如何处理大规模向量数据、优化索引和提升检索效率等。这样,不仅积累了经验,还能帮助他在项目中做出更加合适的技术决策。
二是,加入了Milvus开源社区,积极与社区的开发者和专家进行交流,主动去向社区专家请教问题,了解他们的经验和解决方案。这种互动不仅让他学到了很多实用的知识,还获得了很多帮助,也让他能更好地理解Milvus的最新动态和功能。
在项目的早期,Milvus的某些版本在高并发和大规模数据量下存在稳定性问题。为了解决这些问题,他们进行了多次性能压测,分析系统瓶颈并向社区反馈,最终在社区的帮助下逐步优化了性能,确保了平台的稳定和高效运行。这个过程中,他积累了Milvus的系统调优经验,也加深了对Milvus架构的理解。
除了工作上的成长外,孟同学还经常受到来自外部行业大会的邀请去分享相关的实战经验。孟同学说,“我认为行业分享是自我成长的途径。” 在准备分享时,他会回顾自己的工作,思考技术的有效性,帮助他识别和改进可能忽视的细节。
他认为,“每次分享不仅是与他人交流,也是提升自己知识体系的机会,促使自己可以不断学习和拓展知识。分享还可以结识行业内外的优秀实践和新朋友,吸收新见解,拓宽视野,促进与其他专家和企业的合作,这对个人成长和公司影响力都很有益。”
对他来说,分享虽然需要消耗时间和精力,但他认为这是长期投资,提升个人影响力,推动团队进步,为公司带来更多价值,这是一件值得长期去做的事情,不断地去通过持续学习、分享,自己也会不断的向前探索。
五、工作与平衡:“计划驱动”和“灵活调整”
有时候他们也会面临紧急项目,当项目和生活中重要事情冲突时,孟同学表示,“我始终保持 “计划驱动”和“灵活调整” 相结合的方法,以确保项目按时交付并达成预期的业务结果。我的经验是先从小规模验证开始,再逐步扩大应用,确保每一步都有清晰的反馈和调整。”
以大模型平台项目为例,在项目初期,他们构建了最小可行产品(MVP),并邀请相关同学进行试用。虽然前期看似投入了较多时间,但通过小范围的验证,能够在功能扩展前发现潜在问题,确保后续的推广和扩展更具保障。这种方式避免了大规模投入后发现问题的风险,并让他们能在优化过程中积累实际经验。
类似地,在进行推理服务性能优化的CPU与GPU分离项目时,也是先进行了小范围验证,并在验证效果良好后,才将其正式上线并在更多业务中推广。尽管前期验证看起来会浪费一些时间,但通过实际数据的反馈,他们就及时优化了方案,最终大规模部署时效果显著,节省了成本并提升了性能。
他表示,“这种逐步推进、快速反馈与调整的方法,帮助我们在高压环境下保持灵活性,确保项目能在预定时间内顺利完成,并且保证了最终的业务收益。”
六、展望与建议:保持成长型思维,勇于突破自我边界
孟同学说“未来三年,他也会持续专注于大模型的部署性能优化和应用场景落地。”
当前,大模型的推理性能和高昂成本是制约其广泛应用的主要因素,特别是在计算资源和效率方面。与此同时,像Rag,Agent这样的应用场景在各行业的落地也面临一些技术挑战,仍需要更深入的研究。
他也有自己一些学习方向分享给大家。
一是通过多种方式为自己积累相关的知识和经验。比如参与一些项目,关于如何优化大模型的计算效率,并降低推理成本。
二是积极参与开源社区的讨论,跟踪相关领域的技术进展。通过阅读最新的论文和开源代码,去了解了当前大模型优化的前沿技术,并从一些专家那里获得了宝贵的指导,帮助他更好地理解这一领域中的技术挑战。
他也会持续关注新的场景融合,比如,探讨如何将大模型与云计算结合,特别是在云原生环境下如何提高资源调度效率,进一步提升大模型的训练和推理性能。
我们也相信在未来三年,孟同学在大模型的优化和应用落地方面会有更多的积累,并能为行业提供更加实用的技术解决方案。一说到孟同学都纷纷说,对,就是那个大佬!
当问到他对新入职的小伙伴有什么建议时,他说: “保持成长型思维,勇于突破自我边界。”
在职场初期,很多人会遇到不熟悉的工作和挑战,可能感到不安或迷茫,但这些正是成长的机会。孟同学在入职初期也经历了不少挑战,特别是在跨部门协作方面。刚开始时,他会对如何协调各部门的需求和资源感到不确定。
当时他参与的一个大模型平台项目,项目初期需要与多个部门沟通确认需求,每个部门的系统和流程都不相同,信息的对接和沟通也很复杂。为了快速推荐和落地,他主动向经验丰富的同学请教,逐步了解各团队的工作流程,并通过与各部门的同学逐一沟通,确保每个环节都能顺利衔接。
他说,“不必害怕犯错或显得不成熟,向有经验的同学请教能让我快速融入团队,学到更高效的工作方法。同时,我也学会了通过反思总结,不断找出自己的优点和不足,每完成一个任务后回顾自己在其中的表现,这让我在之后的工作中更加从容、不断提升。职场中的很多机会常常来源于那些需要学习新技能、走出舒适区的挑战。虽然这些任务看似困难,但正是通过解决这些困难,才能带来更大的成长空间。因此,保持开放的学习心态和积极迎接挑战,是职场新人最重要的品质,它不仅能帮助你在工作中不断进步,也为未来的职业发展打下坚实的基础。”
通过和孟同学的对话,我们看到的不仅是一个将“反复打磨”刻入日常的细节控,更是一个在时代快变中锚定自我进化节奏的长期主义者——他用行动验证:真正的成长从非宏大口号,而是把每个需求拆解为精进机会,将每次压力转化为认知升级的燃料,在“自驱”而非“他驱”的节奏中拓宽能力象限。
当组织与个体形成双向奔赴的成长型契约,那些被认真对待的代码、反复推敲的方案、深夜迭代的模型,终将沉淀为个人不可替代的价值坐标。你就只管往山顶走,走过的路自然都会变成我们的台阶。 你要坚信,时间从不辜负认真打磨自己的人。共勉!
往期回顾
1. 最近爆火的MCP究竟有多大魅力?MCP开发初体验|得物技术
2. 得物可观测平台架构升级:基于GreptimeDB的全新监控体系实践
文 / 得物技术
关注得物技术,每周更新技术干货
要是觉得文章对你有帮助的话,欢迎评论转发点赞~
未经得物技术许可严禁转载,否则依法追究法律责任。
**粗体** _斜体_ [链接](http://example.com) `代码` - 列表 > 引用
。你还可以使用@
来通知其他用户。