图片来源:网络
通用大模型性能的飞速提升叠加推理算力成本的快速缩减,让垂直领域大模型迎来了真正的爆发期。在诸多垂直领域的模型之中,代码大模型,尤其得到了市场和资本的高度关注。
Gartner在《2024年全球IT支出预测》中指出,全球软件开发人力成本的年均增幅约为7-9%,2024年全球软件相关支出(含开发、运维)将达1.2万亿美元,其中约50%用于人力成本,即6000亿美元。而中国互联网巨头们在软件开发方面的人力成本压力更为明显,部分公司薪酬及相关支出年增幅接近15%。
与高起的软件开发诉求相比,全球软件工程师缺口持却在续扩大,有数据显示,未来十年缺口可能达数千万,成为制约各行各业数字化转型的核心挑战。
在日益增长的软件开发诉求、同步增长的人力成本和巨大的人才缺口一齐作用下,代码大模型成了少数具备明确商业化条件和付费意愿的垂直行业大模型之一。
Cursor仅用21个月便达到了1亿美元ARR,成为历史上增长最快的SaaS产品,估值100亿美元。Gartner还预测,到2026年,AI将自动化全球30%的编码任务,这意味着代码大模型是一个可以“看得见”的千亿美元级蛋糕。
除了目前海外爆火的AI编程产品如:GitHub Copilot、Cursor、Codeium等外,国内的通用大模型厂商也纷纷杀入该领域,如阿里的通义灵码,腾讯的腾讯云AI代码助手,华为的Code Arts,字节跳动的豆包Mars Code,百度的文心快码等,包括京东、讯飞、昆仑万维、DeepSeek、智谱等多家通用大模型厂商均有布局。
而在众多玩家里,孵化于北大软件工程研究所的aiXcoder更以其深厚的积淀和卓越的模型性能独树一帜。
凭借北大软件工程研究所60余年的深厚积累,aiXcoder团队从多篇全球顶会的论文奠基,到全球首个十亿级和百亿级参数的国产代码大模型aiXcoder的发布,再到国内诸多大厂头部客户实践落地,实现了从实验室理论到产业价值的闭环突破。
其2024年4月发布并开源的aiXcoder-7B模型更是在多个评测集的评测结果中超越了同级别参数规模的众多开源模型。例如,与晚于其发布近半年的 Qwen2.5-Coder-7B,以及 DeepSeekCoder-7B、CodeLlama-7B 等模型相比,aiXcoder-7B 在代码生成与补全效果上均达到了SOTA评价(State Of The Art,即当前最佳)。
今年年初,aiXcoder(北京硅心科技有限公司)刚刚完成A++轮融资,由中关村发展集团旗下中关村资本和中关村协同创新基金共同参投。
公开资料显示,该公司目前共获得4轮融资,吸引了伽利略资本、高瓴创投、彬复资本、清流资本、三七互娱等多家顶级风险投资机构的持续注资。
近日,aiXcoder的商业合伙人兼总裁刘德欣接受了钛媒体创投家的独家访谈。在访谈中,他深入探讨了当前代码大模型行业面临的技术瓶颈和未来趋势,展现了在这一前沿领域的独到见解与实践路径。
以下为钛媒体创投家与刘德欣对话全文,略有删减:
钛媒体创投家:通用大模型为何取代不了代码大模型?
刘德欣:通用大模型的构建和训练方式基于自然语言,而非编程语言(代码)。
代码相比自然语言具有几个独特的特性:首先,代码对上下文的依赖性更强,许多代码成分的语义严重依赖于其所在的上下文;其次,代码具有更强的结构性。所有程序语言都可以映射为抽象或具体的语法树(AST)结构,而不像自然语言那样单一地采用线性表达方式。
如果模型按照理解自然语言的习惯来学习程序语言,就会将代码当作普通文本进行建模,从而丧失代码本身的结构化特性,忽略代码各部分之间的内在关联和严格约束。这不仅会降低代码补全和代码生成的准确性,还容易引发因语义理解错误而产生的“幻觉”。
另一个原因在于训练数据。通用大模型主要利用互联网上公开的数据进行训练,这就无法涵盖特殊行业或企业的私有数据。依靠公开数据训练的模型,支持通用领域的软件开发任务尚可,但是企业内的软件开发需求来自该企业所属的特定行业和领域,这些任务有其独有的内部命名方法和特定的业务逻辑,这就需要企业或行业提供私域数据进行专门的个性化训练。
例如,让大模型生成一些通用代码(如让大模型帮我们写一个基于HTML的4×4版的华容道游戏,或者贪吃蛇游戏)问题不大;但如果用它来开发一个银行的业务程序,则很可能出现诸多错误和遗漏。其根本原因在于,这些通用大模型没有接触过银行的私有数据和业务知识,而各家银行也不会将这些数据公开在互联网上。
这就是通用大模型无法满足企业和特定行业代码需求的根本原因。
钛媒体创投家:aiXcoder-7B有什么独特的技术优势?
刘德欣:我们团队近期在ICSE 2025(国际软件工程大会)最新论文《CodeGen-7B: A Pragmatic Approach to Industrial-Strength Code Generation》中提出了对行业的三大贡献,这正好能说明aiXcoder-7B的独特优势。
首先,我们采用结构化Span的形式构建模型,并创新性地提出了“结构化填充中间目标(SFIM)”的训练方法。
程序语言比自然语言更具结构性,我们将所有代码映射为抽象或具体的语法树(AST)结构,类似于多重小叶片叠加,我们称之为“结构化Span”。采用这种方式构建的模型能够更精准地理解程序语言,从而确保后续的训练更加准确、完整。
而传统的Fill-In-the-Middle(FIM)方法是随机选择代码片段,在片段中随机“挖空”进行补全训练。但这种方法存在的问题在于,随机选择的片段往往不完整,缺乏必要的上下文支持,与真实程序员的开发习惯不符,训练出的结果也很难保证准确性。
针对这一问题,我们创新性地结合代码语法树(AST)结构,设计出结构化填充中间目标(SFIM)的训练模式。通过解析代码语法树节点,选取完整的代码逻辑单元作为训练跨度,有效避免了随机选段造成的不完整情况,从而大幅提升了模型训练效果。
实验表明,SFIM显著提升了生成代码的简洁性(生成代码长度与人类代码的比值从DeepSeekCoder-7B的1.65降至0.87)以及结构合理性(在FIM-Eval评测中CodeBLEU得分提高了5.3%)。
其次,aiXcoder-7B提供了跨文件上下文理解的系统性优化方案。针对企业级代码库中跨文件依赖的复杂性,我们提出了多样化的数据采样算法,包含以下四种策略:
基于文件内容相似性采样(模拟相似代码补全场景)
基于文件路径相似性采样(模拟API调用场景)
基于文件依赖关系采样(模拟模块间调用链场景)
随机采样(覆盖长尾场景)
最后,aiXcoder-7B还创新性地发布了FIM-Eval评测集,基于16000多条来自真实开发场景的数据进行测评,显示aiXcoder 7B不仅在代码生成与补全方面效果最好,且生成的代码更加简洁。有效解决了真实开发场景的覆盖问题,该评测集现已成为软件工程领域验证代码生成模型实用性的关键工具。
钛媒体创投家:除了模型性能,企业在私域大模型落地过程中还关注哪些要素?
刘德欣:我们总结了企业领域大模型落地的四大原则,这也是我们给所有客户的建议。
第一,企业要掌握模型自治权。
我们知道有些企业在建设项目的时候,需要厂商提供源代码,但在大模型时代拥有大模型的源代码并不等同于拥有模型自治权,只有掌握了一整套企业内部业务数据梳理和再训练的框架,能够灵活地匹配适合企业业务属性的大模型并对其进行自治管理,才能称得上是拥有了模型自治权。以aiXcoder为例,在进行个性化训练时,我们不会触碰客户的代码。客户的私域敏感数据我们不接触,而是教会客户如何进行训练,待训练完成后,再对模型进行评测和校验。
第二,要实现模型层的高解耦。
我们自2022年开始就在给企业提供这一原则:不要绑定任何单一的大模型厂商,也不要依赖于某个特定的开源或闭源模型。随着2023年大模型爆发,我们会看到总有更好的模型出现。这一原则的关键在于保证接口标准化、底层算力与模型的适配性,以及大模型厂商是否能提供即插即用的适配方案,从而随时实现将业界最SOTA的大模型集成到企业内部的业务体系。
第三,要建立可复用的数据框架。
企业需要基于业务需求做好数据治理,我们所提出的大模型数据治理是一套企业内数据治理框架。该框架确保了我们的业务数据被经过系统的整理后,可以方便企业日后以高复用的方式,用于任何模型的微调和后训练。做到数据治理的体系化、标准化和高复用。提升企业落地大模型的敏捷效率和低成本。。
第四,要始终关注业务。
很多客户热衷于追逐大模型技术,企业自身的投入也越来越大。但业界不断有更新的、更强的模型出现,这很容易让之前的投入被颠覆。我们建议客户将财力和精力更多地投入到企业业务的集成上,通过高解耦的方式,持续整合最强大模型,以保障企业自身产品和技术的竞争优势。
钛媒体创投家:大厂在代码大模型领域的布局非常多,aiXcoder如何应对大厂竞争?
刘德欣:大厂的确具备明显优势,尤其在获客方面。然而,我们应对大厂竞争的策略主要体现在以下几点:
第一,垂直领域深耕。我们团队来自北大软工所,是国际上最早将深度学习技术用于程序代码生成和代码理解的团队,凭借在软件工程领域十余年的工具和方法积累,形成了一定的技术和产品壁垒。我们也会在软件工程和智能化这两个垂直领域做更深的技术融合,并保持技术层面持续领跑。
第二,与客户建立合作伙伴关系。与很多大厂交付的标准化产品不同,我们更注重深入了解客户的复杂及私域需求,提供定制化和个性化的解决方案。过去曾有客户在与大厂合作后,因交付产品和后续服务出现断层,而最终选择回归与我们合作。
第三,积极开展与大厂的合作。我们也在与大厂积极开展合作。当大厂在解决企业私域落地问题时,他们往往会寻求外部专业团队的服务,而这正是我们的优势所在。
钛媒体创投家:代码大模型的终极形态是什么?会完全取代人类程序员吗?
刘德欣:终极形态一定是实现完全的智能化、自动化的软件开发过程。
在这个终极形态下,AI 系统将能够从用户需求描述、业务场景以及相关的非结构化信息中,自动理解并生成完整、高质量的软件系统,涵盖代码编写、测试、部署到维护等整个生命周期的自动化管理。这样的终极形态将大幅提高软件开发效率和质量,降低开发成本与门槛,使软件开发更广泛地应用于各个领域。
同时我们认为,无论是短期还是长期,人类程序员都具有不可替代性。
短期来看,人类程序员拥有深厚的业务知识和丰富的实践经验,能够从整体上把握项目需求和方向,进行复杂的系统架构设计与业务流程优化;同时,他们具备创新思维和创造力,能够根据实际需求提出新颖的解决方案和技术架构;此外,在处理特殊情况和复杂问题时,人类程序员的应变能力和决策能力更为突出,这些都是当前AI 难以企及的。
长期来看,人类程序员可能不再需要手动编写大量代码,但他们仍需将更多精力投入到需求分析、算法和系统架构设计,以及对AI 生成结果的审核和业务创新上。这些高价值点更具创造性和战略性,也是 AI 无法替代的。
钛媒体创投家:aiXcoder近期有什么好消息公布吗?
刘德欣:aiXcoder目前已完成产品升级,创新推出内置MCP功能的软件开发Agent,我们正在内测中。对于企业和开发者来说,不论是操作体验还是开发价值都比之前更好,表现在:
私有化部署安全可靠:及时响应业务需求,支持企业私有化部署,并针对性适配企业已有的开源大模型,确保企业在安全可控的生产环境下,拥有自主可控的Agent能力。
大幅缩短研发周期:无论是从零构建全新应用,还是基于复杂代码库迭代功能,通过聊天对话就能推动Agent自动执行任务,极大提高研发效率,大幅缩短研发周期,助力企业数字化转型。
企业私有化工具无缝集成:MCP的开放式架构展现出强大的环境适配能力,支持企业在不影响现有代码架构的前提下,快速接入企业私有化工具链(如内部SVN系统、定制化CI/CD平台),同时兼容常用本地开发工具的无缝集成。由此,既保障了企业核心资产的安全性,又为开发者保留了灵活的工具选择空间。
成本精细化控制:相比Cursor每月20-40美元费用,aiXcoder Agent功能计划在插件端免费开放,使用Agent无门槛,推动AI Coding行业发展。
不仅是Copilot,更是资深Partner。aiXcoder Agent产品这也是继去年4月初开源的自研7B大模型后,又一次为软件开发者献上的一份厚礼。(本文首发于钛媒体App,作者|郭虹妘,编辑|陶天宇)