创新 - 以细节诠释专业，用成长定义价值——对话@孟同学｜得物技术 - 个人文章

一、前言

在得物技术部，「稳定」「效率」「体验」「成长」「创新」是我们的关键词。这些关键词就像是战略航行的导航系统：在短期诱惑前构筑认知屏障，筛选干扰项；在组织进化中沉淀文化基因，保持创新。其中的「成长」就意味着专业深耕中永不自满的自我迭代、跨边界协作中主动打破能力天花板的勇气，以及在成就业务目标的同时构建个人价值护城河的清醒认知。

作为得物技术保障部的容器技术团队成员，孟同学在入职两年内迅速成长为团队标杆人物，其主导的【一站式大模型训练与推理平台项目】 不仅极大降低了大模型接入成本，在社区、客服、公司内部应用等场景成功落地，增强了业务价值与用户体验。在公司内外多次积极分享技术成果，提升了公司技术影响力，更以极致细节与自驱力在内部形成示范效应。

正值Q2成长宣传季，技术运营牵头做人物采访，本季度将会采访两位在得物成长比较快的同学，看看他们究竟做了什么？又是如何将「成长」「自驱」融入工作中？今天我们来看看第一位同学「孟同学」，看看他背后的故事。

二、初心与选择：得物的创新很吸引我

孟同学之前在多家互联网公司工作，包括腾讯、Paypal、唯品会、蚂蚁，2019年后阿里达摩院从事算法工程开发；2022年10月加入得物，在得物容器技术从事算法工程相关工作，主要负责得物大模型平台的相关业务。

当时，得物发布了一个云原生AI的职位，要求既有云原生技术背景，又能涉猎AI领域。这两个方向在都是业界的热门趋势，一时间挺难招到比较合适的人，这时候孟同学出现了。他正好在阿里达摩院从事类似的工作，且具备一定的云原生与AI的经验。他说：业界大多数岗位通常会专注于云原生或AI某一方向，但得物把这两者结合起来招聘，给了他一个新的视角和机会。于是他就抱着试试的心态来了得物。

他说：“这样的职位可以让我在专业技术上做一些新的探索，尝试将云原生与AI融合，可能带来更多创新的空间。带着“试试看”的心态，我投递了得物的这个职位，最终决定加入得物，去应对这个充满挑战和机遇的新环境。”

加入得物后，得物的文化和他也超级契合，他说，“在文化价值观中，最吸引我的是得物对 “效率”和“创新” 的高度重视，在当前快速发展的科技环境中，得物不仅倡导快速迭代，还鼓励在保证高效执行的基础上，持续创新并不断突破常规。我现在所在的容器团队就深刻体现了这一点。我们的工作模式通常是先通过小范围验证，快速实验新技术或方案的可行性，确认其技术路径可行且能够带来预期收益后，再进入大规模的开发与应用。这样整个容器团队紧跟技术发展，高效上线了很多新的好的技术优化方案。”

他也是得物技术飞速成长的员工之一，当技术运营问到他如何理解「成长」这一关键词，他表示， “成长”是一个持续自我突破和不断提升的过程。在快速变化的环境中，技术人员不仅要不断提升专业能力，还需要敢于走出舒适区，迎接新的技术挑战。成长不仅体现在技术上，更是一种心态，保持持续学习和反思的能力，追求更高标准。

他在主导“一站式大模型推理平台项目”时，面临的最大挑战是如何降低大模型接入的高成本。2023年初，刚开始接入大模型时，由于推理引擎性能较低，需要大量GPU卡，很多业务难以落地。如果按常规思路，这个项目很难推进。既然常规思路走不通，那么他就换了个思路，通过主动关注社区的最新论文和开源代码**，去尝试社区中提到的优化技巧和加速方案。通过把社区的创新思路与得物内部场景结合，快速验证并落地到得物内部的大模型推理平台中，将优化方案应用到实际场景中，降低了成本并提升了平台性能。

Sean曾在π问π答说过：成长 = 当你遇到复杂问题的时候，能解决复杂问题。 就是说，在这个过程中，克服困难，牵头思考解决方案、寻找解决方案，这样的成长是最快的。回顾孟同学的成长过程，亦是如此。

三、专业与细节：细节直接影响整体效果

在从0到1 建设一站式大模型训练推理平台时，孟同学也遇到了很多问题。包括做这件事的 ROI 是什么？为什么要做这个项目？怎么落地？需要谁来协同？

ROI是什么？

从大模型在业内的落地情况来看，大模型相比传统小模型在效果上有显著提升，尤其在处理复杂任务，的确很有价值。但是从一个开源的大模型到能落地到我们的实际业务场景，需要投入较大的人力资源、研发周期、机器成本等。当时孟同学也是实打实去做了很多调研，包括从初期的人力投入、开发周期，到后续的计算成本，这些都是需要深入权衡ROI的因素。

当我问到，如何平衡收益和建设时，孟同学说一般从以下角度进行权衡：

一是聚焦核心应用场景：我们在选择大模型应用场景时，会优先聚焦那些能够带来最大业务增值的领域。例如，在客户服务和社区管理等场景中，大模型可以有效提高自动化水平，改善用户体验，从而大大提升效率，预期收益也比较显著。通过与算法团队的紧密合作，将大模型的应用精准落地到这些高价值场景中，我们能够在资源有限的情况下，最大化模型的价值和投入产出比。

二是持续优化大模型性能，降低大模型部署成本：大模型的部署成本高是不可忽视的现实，但我们注重的是在实施过程中持续优化大模型的性能，并结合社区最新的大模型推理优化技术进行调整。例如，我们引入了最新的Radix Attention，并行推理，大模型量化，DeepSeek MTP推理加速等技术，结合得物的具体业务场景，进行多方面的性能优化。这些优化不仅提升了大模型在实际应用中的效果，也有效降低了大模型部署的成本，从而实现更好的ROI。

三是通过资源池合并，多部门共用GPU资源的方式降低大模型训练与推理成本：在这方面，我们通过构建多个部门共用的大模型训练资源池，来降低大模型训练成本。在推理阶段，我们通过复用空闲的GPU资源，提供大模型的公共服务，等多种方式，使得多个部门可以共享这些资源，从而降低了大模型的推理成本。这种资源池的合并和共享方式，使得我们能够更加高效地利用公司现有的计算资源，降低整体的开销。

四是持续优化大模型训练与推理平台的效率，缩短上线时间：在训练与推理平台的效率优化上，我们做了大量的工作，通过构建更加高效的训练和推理流水线，减少了大模型上线的时间。同时，我们通过一键微调、一键部署等功能，使得业务方同学能够快速根据业务需求调整和部署大模型。这个自动化的流程不仅提高了工作效率，也大大缩短了从模型开发到实际应用的周期，进一步提升了项目的ROI。

通过上述方法，他们在建设大模型平台时能够尽量控制成本，优化投入产出比，确保大模型的业务落地在合理的时间周期内能带来可观的收益。

为什么做这个项目？

ROI 和团队说清楚了之后，还要跟团队说清楚，我们为什么要做「大模型训练推理平台」，以及怎么去做？

在这个项目中，孟同学担任了一个二合一的角色，既负责产品设计，也负责功能开发。时间回溯到2022年底至2023年初，伴随着ChatGPT的发布，大模型概念的爆发式增长**。与此同时，公司内部也有很多同学开始关注如何部署大模型、如何利用大模型为他们的业务带来实际的收益。当时面临的问题，业务需求不断增加，大模型不断发展，没有统一大模型专用平台，更别说利用大模型来为业务做有效支撑和带来实际收益了。

孟同学就意识到，必须尽快构建一个大模型的专用的平台，让大家能够在这个平台上以低门槛的方式使用并接入大模型。在这个背景下，孟同学他们就开始构建一站式大模型训练与推理平台。

怎么做？

在落地这个项目过程中，还需要考虑到几个实际问题。

首先这个平台支持大模型的快速部署。伴随大模型概念的火爆，通过Lora**微调大模型的方式，因其成本低，效果好，很快流行出来了。于是他们把大模型微调功能也加到平台上了。这样很多业务方便可以使用少量数据，以较低的成本快速微调他们自己的专用大模型。这个便是一站式大模型训练与推理平台最初的架构。但那个时候很多云厂商都还没有相关的平台，落地全靠一步步摸索。

从收益角度来看，首先，通过集中训练与统一部署大模型，我们可以进行统一的优化与资源配置，显著降低了大模型训练与部署的成本。其次，这个平台打破了技术壁垒，使得公司内部非算法同学也能够通过平台自助式操作，基于自己的数据进行模型微调与快速部署。

最终「一站式大模型训练推理平台」也是在得物内部顺利落地，不仅极大降低了大模型接入成本，在社区、客服、公司内部应用等场景成功落地，增强了业务价值与用户体验。

项目成功上线后，有项目小伙伴吐槽到，孟同学对「用户动线设计/代码注释规范」简直是有“强迫症”。

孟同学表示，强迫症肯定没有，就是有点爱抠细节。

在每个项目开始之前，他都会与业务方进行详细的需求梳理，并通过多轮评审确保需求的准确性和可执行性。这种做法在开发大模型平台时，帮助他们避免了许多潜在的风险。

他还说：“在工作中，细节直接影响整体效果，尤其是在用户动线设计和代码注释规范上。用户动线设计关系到用户体验的流畅性，而代码注释则是团队协作的关键，能帮助成员快速理解和优化代码。任何细节上的不足，都可能导致后续问题的产生。

例如，平台操作步骤过于复杂或逻辑不清晰，会直接影响用户体验和平台的使用频率。在大模型平台的设计过程中，通过反复优化用户操作流程，简化步骤，减少不必要的点击，确保用户体验顺畅。”

四、自驱与成长：补齐短板，让长板更长

从项目牵头设计到最终落地，孟同学的成长无疑是非常快的，在沟通过程中，还发现孟同学是一个「自驱」的小伙伴，入职后，主动牵头了向量数据库Milvus平台构建这个项目。这对他来说完全是一个全新的领域，但是他竟然可以在短时间学习相关知识，快速补齐短板。

他说，“我有幸牵头了Milvus向量数据库平台的建设项目。虽然我之前有一定的数据库和分布式系统的经验，但向量数据库的应用和优化对我来说是一个全新的领域。这个挑战让我希望能够学习并掌握更多技术，拓宽自己的视野，提升专业能力。”

为了尽快弥补不足，他采取了两个方法。

一是，通过多种途径学习Milvus相关的理论和实践，深入理解其原理和应用，特别是如何处理大规模向量数据、优化索引和提升检索效率等。这样，不仅积累了经验，还能帮助他在项目中做出更加合适的技术决策。

二是，加入了Milvus开源社区，积极与社区的开发者和专家进行交流，主动去向社区专家请教问题，了解他们的经验和解决方案。这种互动不仅让他学到了很多实用的知识，还获得了很多帮助，也让他能更好地理解Milvus的最新动态和功能。

在项目的早期，Milvus的某些版本在高并发和大规模数据量下存在稳定性问题。为了解决这些问题，他们进行了多次性能压测，分析系统瓶颈并向社区反馈，最终在社区的帮助下逐步优化了性能，确保了平台的稳定和高效运行。这个过程中，他积累了Milvus的系统调优经验，也加深了对Milvus架构的理解。

除了工作上的成长外，孟同学还经常受到来自外部行业大会的邀请去分享相关的实战经验。孟同学说，“我认为行业分享是自我成长的途径。” 在准备分享时，他会回顾自己的工作，思考技术的有效性，帮助他识别和改进可能忽视的细节。

他认为，“每次分享不仅是与他人交流，也是提升自己知识体系的机会，促使自己可以不断学习和拓展知识。分享还可以结识行业内外的优秀实践和新朋友，吸收新见解，拓宽视野，促进与其他专家和企业的合作，这对个人成长和公司影响力都很有益。”

对他来说，分享虽然需要消耗时间和精力，但他认为这是长期投资，提升个人影响力，推动团队进步，为公司带来更多价值，这是一件值得长期去做的事情，不断地去通过持续学习、分享，自己也会不断的向前探索。

五、工作与平衡：“计划驱动”和“灵活调整”

有时候他们也会面临紧急项目，当项目和生活中重要事情冲突时，孟同学表示，“我始终保持 “计划驱动”和“灵活调整” 相结合的方法，以确保项目按时交付并达成预期的业务结果。我的经验是先从小规模验证开始，再逐步扩大应用，确保每一步都有清晰的反馈和调整。”

以大模型平台项目为例，在项目初期，他们构建了最小可行产品（MVP），并邀请相关同学进行试用。虽然前期看似投入了较多时间，但通过小范围的验证，能够在功能扩展前发现潜在问题，确保后续的推广和扩展更具保障。这种方式避免了大规模投入后发现问题的风险，并让他们能在优化过程中积累实际经验。

类似地，在进行推理服务性能优化的CPU与GPU分离项目时，也是先进行了小范围验证，并在验证效果良好后，才将其正式上线并在更多业务中推广。尽管前期验证看起来会浪费一些时间，但通过实际数据的反馈，他们就及时优化了方案，最终大规模部署时效果显著，节省了成本并提升了性能。

他表示，“这种逐步推进、快速反馈与调整的方法，帮助我们在高压环境下保持灵活性，确保项目能在预定时间内顺利完成，并且保证了最终的业务收益。”

六、展望与建议：保持成长型思维，勇于突破自我边界

孟同学说“未来三年，他也会持续专注于大模型的部署性能优化和应用场景落地。”

当前，大模型的推理性能和高昂成本是制约其广泛应用的主要因素，特别是在计算资源和效率方面。与此同时，像Rag，Agent这样的应用场景在各行业的落地也面临一些技术挑战，仍需要更深入的研究。

他也有自己一些学习方向分享给大家。

一是通过多种方式为自己积累相关的知识和经验。比如参与一些项目，关于如何优化大模型的计算效率，并降低推理成本。

二是积极参与开源社区的讨论，跟踪相关领域的技术进展。通过阅读最新的论文和开源代码，去了解了当前大模型优化的前沿技术，并从一些专家那里获得了宝贵的指导，帮助他更好地理解这一领域中的技术挑战。

他也会持续关注新的场景融合，比如，探讨如何将大模型与云计算结合，特别是在云原生环境下如何提高资源调度效率，进一步提升大模型的训练和推理性能。

我们也相信在未来三年，孟同学在大模型的优化和应用落地方面会有更多的积累，并能为行业提供更加实用的技术解决方案。一说到孟同学都纷纷说，对，就是那个大佬！

当问到他对新入职的小伙伴有什么建议时，他说： “保持成长型思维，勇于突破自我边界。”

在职场初期，很多人会遇到不熟悉的工作和挑战，可能感到不安或迷茫，但这些正是成长的机会。孟同学在入职初期也经历了不少挑战，特别是在跨部门协作方面。刚开始时，他会对如何协调各部门的需求和资源感到不确定。

当时他参与的一个大模型平台项目，项目初期需要与多个部门沟通确认需求，每个部门的系统和流程都不相同，信息的对接和沟通也很复杂。为了快速推荐和落地，他主动向经验丰富的同学请教，逐步了解各团队的工作流程，并通过与各部门的同学逐一沟通，确保每个环节都能顺利衔接。

他说，“不必害怕犯错或显得不成熟，向有经验的同学请教能让我快速融入团队，学到更高效的工作方法。同时，我也学会了通过反思总结，不断找出自己的优点和不足，每完成一个任务后回顾自己在其中的表现，这让我在之后的工作中更加从容、不断提升。职场中的很多机会常常来源于那些需要学习新技能、走出舒适区的挑战。虽然这些任务看似困难，但正是通过解决这些困难，才能带来更大的成长空间。因此，保持开放的学习心态和积极迎接挑战，是职场新人最重要的品质，它不仅能帮助你在工作中不断进步，也为未来的职业发展打下坚实的基础。”

通过和孟同学的对话，我们看到的不仅是一个将“反复打磨”刻入日常的细节控，更是一个在时代快变中锚定自我进化节奏的长期主义者——他用行动验证：真正的成长从非宏大口号，而是把每个需求拆解为精进机会，将每次压力转化为认知升级的燃料，在“自驱”而非“他驱”的节奏中拓宽能力象限。

当组织与个体形成双向奔赴的成长型契约，那些被认真对待的代码、反复推敲的方案、深夜迭代的模型，终将沉淀为个人不可替代的价值坐标。你就只管往山顶走，走过的路自然都会变成我们的台阶。你要坚信，时间从不辜负认真打磨自己的人。共勉！

往期回顾

1. 最近爆火的MCP究竟有多大魅力？MCP开发初体验｜得物技术

2. 得物可观测平台架构升级：基于GreptimeDB的全新监控体系实践

3. 得物业务参数配置中心架构综述

4. 得物增长兑换商城的构架演进

5. 得物自研DGraph4.0推荐核心引擎升级之路

文 / 得物技术

关注得物技术，每周更新技术干货

要是觉得文章对你有帮助的话，欢迎评论转发点赞～

未经得物技术许可严禁转载，否则依法追究法律责任。

以细节诠释专业，用成长定义价值——对话@孟同学｜得物技术

一、前言

二、初心与选择：得物的创新很吸引我

三、专业与细节：细节直接影响整体效果

ROI是什么？

为什么做这个项目？

怎么做？

四、自驱与成长：补齐短板，让长板更长

五、工作与平衡：“计划驱动”和“灵活调整”

六、展望与建议：保持成长型思维，勇于突破自我边界

得物技术

引用和评论

社区造数服务接入MCP｜得物技术

对话开源中国马越：DeepSeek不是国运级的创新，年轻人才是

镜舟科技荣膺“北京市用户满意企业”认证，以用户为中心驱动高质量发展

从 Greenplum 到 StarRocks：头部金融客户如何通过架构升级实现“实时分析自由”？

以细节诠释专业，用成长定义价值——对话@孟同学 ｜得物技术

一、前言

二、初心与选择：得物的创新很吸引我

三、专业与细节：细节直接影响整体效果

ROI是什么？

为什么做这个项目？

怎么做？

四、自驱与成长：补齐短板，让长板更长

五、工作与平衡：“计划驱动”和“灵活调整”

六、展望与建议：保持成长型思维，勇于突破自我边界

得物技术

引用和评论

社区造数服务接入MCP｜得物技术

对话开源中国马越：DeepSeek不是国运级的创新，年轻人才是

镜舟科技荣膺“北京市用户满意企业”认证，以用户为中心驱动高质量发展

从 Greenplum 到 StarRocks：头部金融客户如何通过架构升级实现“实时分析自由”？

以细节诠释专业，用成长定义价值——对话@孟同学｜得物技术