第327章悟道算力平台的负载调优

一秒记住【笔趣阁】
biquge365.net，更新快，无弹窗！

    作战室里的电子地图被关掉了，取而代之的是四块八十寸的显示墙，每块墙上都密密麻麻地铺满了曲线丶热力图和拓扑结构。中间的主屏上，悟道算力平台的全局架构图正在缓缓旋转——从底层的三万两千颗天权晶片，到中间层的分布式训练框架，到顶层的模型推理服务，每一层都被标注了颜色丶负载系数和故障率。
    许承站在主屏前，手里拿着雷射笔，但没有点。他在等所有人到齐。
    赵静是第一个进来的，手里抱着一台厚重的笔记本，屏幕上已经跑着小芯对悟道平台过去一周负载数据的初步分析结果。她身后跟着小芯团队的三个核心工程师，每个人脸上都带着那种连续熬了几天夜特有的疲惫和亢奋混杂的表情。
    章宸第二个到，他刚从地下二层的验证中心上来，天权4号的NPU调度器修改还在进行中，但他答应过赵静，悟道平台的负载调优会议他必须到场——因为调优的核心瓶颈不在软体，在天权晶片的内存带宽和片间互联延迟。
    林薇第三个到，她带了追光材料实验的最新数据，虽然和悟道平台没有直接关系，但她需要赵静的小芯帮忙跑一组热应力分布的模拟，顺便听听算力平台的进展。
    陈醒最后一个走进作战室，他没有坐主位，而是坐在了靠门的位置。今天这场会议他不需要做决策，只需要听。悟道算力平台是天机云的核心基础设施，也是未来科技AI能力的底座，它的负载调优不是一次性的技术攻关，而是一个持续演进的过程。他要听的是团队有没有找到正确的方向。
    许承等所有人坐定后，点了一下雷射笔，主屏上的全局架构图被替换成了过去四周的负载总览。
    「悟道算力平台目前部署了三万两千颗天权晶片，分布在华夏境内七个数据中心和南洋两个边缘节点。总算力达到每秒三点六亿亿次浮点运算，理论峰值算力在国内排名第一，全球排名第四。」
    「但理论峰值和实际利用率之间，有一道我们一直没填平的鸿沟。」
    许承调出一张曲线图，横轴是时间，纵轴是算力利用率。曲线在过去四周里剧烈波动，最高点达到百分之七十八，最低点跌到百分之四十一，平均利用率只有百分之六十二。
    「理论峰值算力全球第四，实际有效算力可能连全球前十都进不去。这不是硬体的问题，是负载调度的问题。」
    赵静接过话头，把笔记本上的分析结果投到第二块显示墙上。
    「小芯对过去四周的负载数据做了全量分析，发现了三个核心问题。」
    「第一，负载特徵极度不均匀。悟道平台同时支撑三类负载——大模型训练丶推理服务丶科学计算。这三类负载对算力丶内存丶通信的需求特徵完全不同。训练任务需要高带宽丶低延迟的片间互联，推理服务需要低延迟丶高并发的单卡响应，科学计算需要高精度丶大内存的单卡容量。目前的调度策略没有区分这些特徵，把三类负载混在一起跑，结果就是互相干扰。」
    第二块显示墙上出现了一张热力图，不同颜色的色块代表不同类型的负载在时间轴上的分布。训练任务通常是深蓝色的长条，持续几个小时甚至几天；推理服务是浅绿色的短脉冲，每秒几十个；科学计算是黄色的中等长度块，持续几十分钟到几小时。三种颜色在时间轴上交错在一起，像一幅混乱的抽象画。
    「第二，片间通信的拥塞控制太保守。天权晶片之间的互联带宽是理论上每链路每秒五十吉比特，但实际跑大模型训练时，有效带宽只有不到三十吉比特。原因是我们使用的拥塞控制算法过于保守，一旦检测到轻微拥塞就大幅降低发送速率，导致带宽利用率不足百分之六十。」
    章宸点头确认了这个问题的技术细节：「天权晶片的片间互联硬体本身没有问题，瓶颈在协议栈的拥塞控制参数。我们目前用的是通用数据中心的参数配置，但通用配置对大模型训练这种周期性丶大批量的通信模式不适用。需要针对训练任务的特徵重新调参，甚至重写部分拥塞控制逻辑。」
    「第三，」赵静继续说，「推理服务的负载预测准确率太低。悟道平台的推理服务接入了天枢生态的二十七个应用，流量特徵极其不稳定。有的应用在白天流量大，有的应用在晚上流量大，有的应用受社交媒体热点驱动，流量可以在十分钟内暴涨十倍。目前的负载预测模型用的是过去七天的历史数据，预测准确率只有百分之六十五，导致平台不得不预留大量的冗余算力应对突发流量，进一步拉低了平均利用率。」
    赵静把这三个问题的严重程度排了序：负载混跑造成的利用率损失最大，约百分之十五；片间拥塞造成的损失次之，约百分之十；预测不准造成的冗余预留损失约百分之八。如果把这三个问题全部解决，悟道平台的平均算力利用率可以从百分之六十二提升到百分之八十五以上。
    「百分之八十五是理论上限，」许承说，「但能做到百分之七十八到百分之八十，就已经是全球领先水平了。」
    陈醒靠在椅子上，没有说话。他在等赵静说出解决方案。
    赵静翻到下一页，三块显示墙同时更新。
    「解决方案分三个层面，对应三个问题。第一层：负载特徵感知调度。不再把三类负载混在一起跑，而是把平台分区——训练区丶推理区丶科学计算区，每个区根据负载特徵做针对性的调度策略优化。」
    「训练区需要高带宽丶低延迟的片间互联，所以我们把训练任务集中部署在同一机柜或相邻机柜的天权晶片上，减少跨机柜通信。推理区需要低延迟的单卡响应，所以我们在推理区部署了小芯的边缘调度器，可以根据请求的实时延迟需求动态分配算力，延迟敏感的请求优先处理，延迟不敏感的请求可以排队。科学计算区需要大内存的单卡容量，所以我们把内存最大的那批天权晶片专门划给科学计算区，同时优化了内存分配算法，减少了内存碎片。」
    「第二层：片间拥塞控制调优。章宸的团队正在修改互联协议栈的拥塞控制参数，把拥塞检测的窗口从微秒级调整到纳秒级，同时增加了『训练任务优先』的调度策略——当训练任务和推理任务共享同一片网际网路时，训练任务的数据包优先级更高。这个修改不会影响推理服务的延迟，因为推理服务的数据量小丶对带宽不敏感。」
    章宸补充了一句：「参数调优已经跑了两轮仿真，效果符合预期。预计两周内可以上线测试。」
    「第三层：负载预测模型升级。」赵静说到这里，语气变得慎重了一些。「小芯团队正在训练一个新的预测模型，不再只依赖历史流量数据，而是融合了外部信号——社交媒体热点丶新闻事件丶应用版本发布计划丶甚至天气和节假日。这个模型的参数量比现有模型大十倍，训练一次需要悟道平台百分之三十的算力跑三天。」
    「代价不小。」许承说。
    「代价不小，但值得。」赵静调出初步的实验结果，「在离线测试中，新模型的预测准确率达到了百分之八十三，比现有模型提高了十八个百分点。如果上线后能保持这个水平，我们可以把冗余算力的预留比例从百分之三十降低到百分之十五，相当于释放出百分之十五的算力用于更多任务。」
    陈醒听到这里，在笔记本上写了两个字：「值得。」
    赵静看到了他的动作，但没有停下来，继续往下讲。
    「除了这三个核心问题，小芯在分析负载数据时还发现了一个更深层的问题——悟道平台的算力浪费不只是调度策略的问题，还有模型本身的效率问题。很多训练任务使用的模型架构是五年前设计的，计算效率只有现在最优架构的百分之六十。他们浪费算力不是因为平台调度不好，而是因为他们自己的代码写得差。」
    「这个问题怎么解决？」许承问。
    赵静调出了一份统计：「在悟道平台上跑的训练任务中，有百分之三十七来自未来科技内部团队，百分之六十三来自外部合作夥伴和学术机构。内部团队我们可以要求他们优化代码，外部团队我们没有这个权力。」
    「但我们可以给他们工具。」赵静说，「小芯团队正在开发一个『算力效率分析器』，可以自动分析一个训练任务的代码，找出计算效率低下的环节，给出优化建议。这个工具可以开放给所有悟道平台的用户，不是强制，但每个任务跑完后会收到一份效率报告，告诉他们『你的任务比最优方案慢了百分之多少』。」
    林薇第一次开口：「这个工具如果做出来，不只是帮用户省算力，也是在帮我们积累模型优化的经验。每一个任务的效率分析结果，都可以反哺给小芯的训练数据，让小芯越来越擅长发现算力浪费的模式。」
    赵静点了点头。这正是小芯团队的长期目标——让悟道平台成为一个「越用越聪明」的算力系统。
    会议进行到第二部分，许承把讨论从「发现问题」转向「落地执行」。
    「负载分区的方案，我已经让天机云团队做了两周的仿真，今天上午刚跑完最后一轮。」许承调出仿真结果。「分区后的理论利用率可以提升到百分之七十九，但代价是某些极端情况下，训练区可能会因为任务太多而排队，推理区可能会因为流量突增而临时缺算力。」
    「排队和缺算力的问题怎么解决？」秦峥问。他虽然负责汽车业务，但天行者的自动驾驶模型训练重度依赖悟道平台，训练任务的排队时间直接影响模型叠代速度。
    许承调出另一张图：「分区不是物理隔离，而是逻辑隔离。每个区都有『弹性边界』——如果训练区的任务排队超过一定时间，调度器可以从推理区或科学计算区临时借用算力；如果推理区流量突增，调度器可以从训练区借用算力。借用是有优先级的，训练任务可以接受几分钟的延迟，推理任务不能接受，所以借用的方向是单向的——只能从训练区借给推理区，不能反过来。」
    秦峥接受了这个方案。
    章宸提出了一个更技术性的问题：「分区方案上线后，片间拥塞控制调优的工作量会变大。因为不同区的通信模式不同，拥塞控制的参数需要分区配置，不能一刀切。」
    许承表示已经考虑到了这一点：「训练区用训练优化的拥塞控制参数，推理区和科学计算区用默认参数。」
    章宸点了点头。
    赵静提出的负载预测模型升级，是三个方案里风险最高的一个。新模型需要在悟道平台的在线流量上做A/B测试，先在小范围上线，验证效果后再逐步扩大。
    「A/B测试的方案已经设计好了。」赵静说，「第一周，新模型只影响百分之五的推理请求，其他百分之九十五还是用旧模型。如果第一周的数据显示新模型没有引入明显的延迟增加或错误率上升，第二周扩大到百分之二十，第三周百分之五十，第四周全量。」
    「如果中间出问题呢？」周明问。
    「有回退机制。每一周的扩大都是可逆的，一旦发现异常指标，可以在五分钟内切回旧模型。」
    周明没有再问。
    陈醒在笔记本上写了第三个词：「节奏。」
    他知道，悟道算力平台的负载调优不是一场闪电战，而是一场持久战。分区方案丶拥塞控制丶预测模型，三个方向同时推进，每个方向都有自己的风险和不确定性。真正的挑战不是技术本身，而是如何在不影响现有业务的前提下，把这些改动一点一点地注入到一个已经运行了两年丶支撑着二十七个应用丶每天处理数亿次请求的生产系统里。
    会议进行到第三个小时，许承把讨论从「解决方案」转向「资源投入」。
    「分区方案需要改造调度器的核心代码，预计耗时三周，投入六名工程师。拥塞控制调优需要修改协议栈和驱动，预计耗时两周，投入四名工程师。预测模型升级需要训练新模型丶开发A/B测试框架丶改造推理服务的调度逻辑，预计耗时五周，投入八名工程师。三个方向并行，总投入十八名工程师，五周内完成全部开发和测试，六周内上线。」
    「十八名工程师，」苏黛说，「天机云团队现在有足够的人手吗？」
    「不够。」许承没有掩饰，「天机云团队目前在全力支撑天枢生态在南洋的扩张和海上数据计划的第三轮演练，能抽调出来投入负载调优的只有八个人。缺口十个人。」
    苏黛翻开笔记本，快速过了一遍集团的人力资源分布。
    「从晶片验证团队借三个人。天权4号的NPU调度器修改已经进入收尾阶段，下周可以释放出部分人力。从AI平台团队借四个人。小芯的负载分析工作告一段落，赵静可以调配人手。从天枢OS团队借三个人。方程那边的开发者扶持计划2.0已经进入执行阶段，不需要大规模开发人力。」
    赵海不在场，但苏黛已经提前和他沟通好了。
    许承把借调的人名记下来，当场发给了各团队的负责人。
    会议的最后一部分，赵静调出了小芯对悟道平台长期演进的三个判断。
    「第一，负载特徵感知调度只是第一步。未来十二个月，我们需要从『分区调度』进化到『个性化调度』——为每一个训练任务丶每一个推理请求动态生成最优的调度策略，而不是把任务粗暴地塞进几个固定的分区里。」
    「第二，算力效率分析器如果做成了，悟道平台的角色会发生变化。它不再只是一个『算力提供者』，还会成为一个『算力效率的衡量标准和优化工具』。这个工具的价值可能比平台本身更大——因为它可以让整个行业的AI训练成本下降百分之三十以上。」
    「第三，也是最重要的——悟道平台的负载调优经验，可以反向输出给天权晶片的下一代架构设计。我们在调度中遇到的每一个瓶颈，都是天权下一代晶片应该优化的方向。片间拥塞控制调不上去，说明下一代晶片需要更智能的互联协议；负载预测模型跑不动，说明下一代晶片需要更强的内存带宽；分区调度的弹性边界不好使，说明下一代晶片需要更灵活的算力切分粒度。」
    章宸听到这里，终于露出了今天第一个笑容。
    「赵静，你说的这第三条，才是今天这场会议最有价值的一句话。」
    陈醒把笔记本合上。
    「总结一下。」他说，声音不大，但每个字都很清楚。
    「第一，悟道算力平台的负载调优，优先级最高。许承负责整体推进，赵静负责预测模型和效率分析器，章宸负责拥塞控制和晶片侧配合。五周内完成开发和测试，六周内上线。」
    「第二，借调的人力，苏黛今天之内协调到位。许承明天早上拿到完整的人力清单和任务排期。」
    「第三，算力效率分析器做成后，不仅要给悟道平台的用户用，还要集成到天枢生态的开发者工具链里。每一个在天枢生态上跑AI应用的开发者，都应该知道自己的模型效率怎么样，应该怎么优化。」
    「第四，赵静提出的第三条长期方向——负载调优经验反哺晶片架构——章宸回去后和晶片架构团队对一对，把悟道平台过去半年遇到的所有瓶颈整理成一份『下一代晶片需求文档』，在天权5的架构设计冻结前输入进去。」
    陈醒说完，站起来。
    「今天的会就到这里。五周后，我要看到悟道平台的平均算力利用率从百分之六十二提升到百分之七十五以上。」
    他没有说「做不到会怎么样」，因为不需要说。在座的所有人都知道，对面全面制裁落地后，算力就是最稀缺的资源。悟道平台每提升一个百分点的利用率，就意味着未来科技在算力封锁下多撑一天的能力。
    所有人陆续离开作战室。
    赵静没有走，她站在显示墙前，看着那三张负载曲线图。许承走到她旁边。
    「新模型的A/B测试框架，我今晚让团队先把架子搭起来。」许承说。
    赵静点了点头，但她的注意力不在A/B测试框架上，而在显示墙角落里的一张图上——那是算力效率分析器在离线测试中跑出的一个结果，某个外部合作夥伴的训练任务，计算效率只有最优方案的百分之二十三。
    她点开那个任务的详细信息，一行一行地看。
    任务是一个医疗影像识别的模型训练，用的数据量不大，模型架构也不算复杂，但代码写得极其低效——数据加载没有预取，梯度更新没有融合，甚至连基本的混合精度训练都没开。这样的任务在悟道平台上跑一次，消耗的算力是最优方案的将近五倍。
    赵静把那个任务的ID记了下来。她打算让小芯自动生成一份详细的优化建议报告，然后通过悟道平台的消息系统发给那个合作夥伴。不是指责，是帮助。
    如果每一个低效的任务都能收到这样一份报告，悟道平台的整体算力利用率不需要调度器也能提升百分之五到百分之十。
    她把这件事加到了效率分析器的需求文档里，然后关掉显示墙，走出作战室。
    走廊里，章宸正在等电梯。他看到赵静出来，说了一句话。
    「天权5的架构设计里，我打算加一个专门的算力效率监控单元。不是用来跑任务的，是用来实时监测每个核心的指令执行效率丶缓存命中率丶内存带宽利用率，然后把数据反馈给调度器。调度器根据这些数据动态调整任务分配。」
    赵静愣了一下，然后说了一句让章宸笑了的话。
    「你这是要把悟道平台的负载调优经验，直接烧进晶片里。」
    「对。」章宸说，「软体能做的优化，调度器可以做。但有些优化必须在硬体层面完成。天权5如果能在晶片内部就完成算力效率的实时监测和动态调整，悟道平台的调度器就不用猜『这个任务效率高不高』，而是可以直接看到。」
    电梯门开了，章宸走进去，赵静跟在后面。
    「这个算力效率监控单元，什么时候能出第一版设计？」赵静问。
    「六周后。天权4号的NPU调度器改完，验证通过，我就带团队开始做。」
    电梯门关上，缓缓下降。
    赵静靠在电梯壁上，闭了一会儿眼。六周，正好是悟道平台负载调优上线的节点。到时候，软体层面的优化和硬体层面的监控单元可以同步推进，形成一个「软体发现问题丶硬体提供数据丶软体利用数据进一步优化」的正循环。
    她睁开眼睛，看了一眼电梯里的楼层显示。地下一层，高性能计算集群。
    电梯门开了，她走出去，穿过机房的走廊，回到小芯团队的办公区。二十几个工程师正在各自的工位上忙碌，屏幕上的代码丶日志丶曲线在昏暗的光线里闪烁。
    她坐回自己的工位，打开笔记本，把今天会议上确定的三个方向丶五个里程碑丶十八个人名丶六周时间轴全部整理成一份任务清单，发给了所有相关人员。
    邮件的最后一行，她写了一句赵海常说的话：「最好的优化，是在问题还没发生之前就把它解决掉。」
    然后她打开算力效率分析器的代码仓库，开始看今天新提交的代码。
    窗外，芯谷的灯光已经全部亮起来了。从研究院的窗户望出去，那片光海比作战室里看到的更远丶更散丶更像一片真正的海。
    而在这片光海的深处，悟道算力平台的三万两千颗天权晶片正在无声地运转，处理着来自天枢生态二十七个应用的数百万次请求，训练着下一个版本的小芯，支撑着未来科技在风暴前夜的每一条战线。
    明天，负载调优的第一行代码会被写下。
    六周后，悟道平台会变得更聪明丶更高效丶更能扛。
    而在那之后，当天权5的算力效率监控单元第一次在仿真环境中跑通的时候，赵静会想起今天电梯里章宸说的那句话。
    软体能做的优化，调度器可以做。
    但有些优化，必须烧进晶片里。
    就像有些承诺，必须写进规则里。

章节报错（免登陆）

下载APP，无广告、完整阅读

验证码：提交关闭

第327章 悟道算力平台的负载调优

第327章悟道算力平台的负载调优