您现在的位置是:娱乐 >>正文
Kimi开源底层推理框架,1小时GitHub揽星1.2k
娱乐8人已围观
简介什么?Kimi底层推理架构宣布:开!源!了!你没听错,就是那个承载了Kimi线上80%以上流量的架构。大约几小时前,月之暗面Kimi联合清华大学等机构,开源了大模型推理架构Mooncake。根据官方介 ...
什么?开源框架Kimi底层推理架构宣布:开!源!底层了!推理
你没听错,揽星就是开源框架那个承载了Kimi线上80%以上流量的架构。
大约几小时前,底层月之暗面Kimi联合清华大学等机构,推理开源了大模型推理架构Mooncake。

根据官方介绍,开源框架本次开源将采用分阶段的底层方式:
逐步开源高性能KVCache多级缓存Mooncake Store的实现,同时针对各类推理引擎和底层存储/传输资源进行兼容。推理
其中传输引擎Transfer Engine现在已经在GitHub全球开源。揽星
可以看到,开源框架Mooncake一经开源,底层已在GitHub狂揽1.2k star。推理

其最终开源目标是,为大模型时代打造一种新型高性能内存语义存储的标准接口,并提供参考实现方案。
月之暗面Kimi工程副总裁许欣然表示:
通过与清华大学MADSys实验室紧密合作,我们共同打造了分离式大模型推理架构Mooncake,实现推理资源的极致优化。
Mooncake不仅提升了Kimi的用户体验,降低了成本,还为处理长文本和高并发需求提供了有效的解决方案。
我们相信,通过与产学研机构开源合作,可以推动整个行业向更高效的推理平台方向发展。

实际上,这个项目早在今年6月就已启动,当时已受到业内广泛关注——

大模型推理架构Mooncake
今年6月,月之暗面和清华大学MADSys实验室联合发布了Kimi底层的Mooncake推理系统设计方案。
在这篇名为《Mooncake: A KVCache-centric Disaggregated Architecture for LLM Serving》的论文中,作者详细介绍了Mooncake这种系统架构。
该系统基于以KVCache为中心的PD分离和以存换算架构,大幅度提升了推理吞吐。

具体而言,Mooncake采用以KVCache为中心的解耦架构,将预填充集群与解码集群分离,并充分利用GPU集群中未充分利用的CPU、DRAM和SSD资源,实现KVCache的解耦缓存。
其核心在于以KVCache为中心的调度程序:
在最大化整体有效吞吐量和满足与延迟相关的服务级别目标 (SLO) 要求之间取得平衡
当面对流量高峰期时,Mooncake通过早期拒绝策略和预测未来负载的方法,来处理超载问题。
早期拒绝策略(Early Rejection Policy)
简单说,其核心思想是在请求实际开始处理之前,根据当前系统的负载情况预测是否有足够的资源来处理新的请求。
如果预测结果表明系统资源不足以保证请求的及时处理,系统就会在请求到达之前予以拒绝,从而避免了无效的资源占用和不必要的延迟。
预测未来负载(Predicting Future Load)
在Mooncake中,系统需要能够预测在未来一段时间内的负载情况,以便做出更准确的接受或拒绝请求的决策。
如何实现呢??
通常来说,这种预测会基于当前的请求模式、系统的资源使用情况以及历史数据等信息。
再通过对信息的进一步分析建模,Mooncake就能够估计接下来的请求处理需求,并据此调整其调度策略。
论文实验结果显示,与基线方法相比,Mooncake在某些模拟场景中可以实现高达525%的吞吐量提升,同时遵守SLO(与延迟相关的服务级别目标)。
在实际工作负载下,Mooncake使Kimi能够处理75%以上的请求。
而且据许欣然在其他场合透露:
目前这套系统承载了Kimi线上80%以上的流量。

而现在,为了进一步加速该技术框架的应用与推广,Kimi联合清华大学等机构共同发布开源项目Mooncake。
参与开源的首批阵容包括:
AISoft、阿里云、华为存储、面壁智能、趋境科技等。
可以说,云计算、存储、AI模型玩家等产学研力量都聚齐了。
据悉,Mooncake开源项目从论文延伸,以超大规模KVCache缓存池为中心,通过以存换算的创新理念大幅度减少算力开销,显著提升了推理吞吐量。
目前Mooncake技术框架已正式开源上线,官方还表示:
欢迎更多企业和研究机构加入Mooncake项目共建,共同探索更加高效和先进的模型推理系统架构创新,让基于大模型技术的AI助手等产品,持续惠及更广泛人群。

论文:
https://arxiv.org/pdf/2407.00079
开源地址:
https://github.com/kvcache-ai/Mooncake
参考链接:
https://mp.weixin.qq.com/s/-8ZRbRxBOWNfkk3xMdcWVQ
本文来源:量子位
Tags:
相关文章
都说手机超声波指纹很贵,怎么今年大家都开始用了?
娱乐最近,一个熟悉又陌生的名字 “ 超声波指纹 ” ,不断在各种新闻里频频露面。 什么小米 15 啦, vivo X200 Pro 啦,荣耀 magic7 啦,一大堆品牌旗舰机,都开始标配起了超声波指纹解 ...
【娱乐】
阅读更多2016最贵的电脑配置:奢华与性能的极致碰撞
娱乐在2016年,电脑硬件市场迎来了前所未有的繁荣,各种高端配置层出不穷。那么,2016最贵的电脑配置究竟有哪些亮点?本文将为您揭秘这一年度奢华电脑配置的神秘面纱。一、2016最贵的电脑配置:处理器201 ...
【娱乐】
阅读更多2017电脑主机配置图:高性能与稳定性的完美结合
娱乐随着科技的不断发展,电脑主机配置成为了许多消费者关注的焦点。2017年,电脑主机市场迎来了许多创新和变革,高性能硬件的普及让用户有了更多的选择。本文将为您详细介绍2017年电脑主机配置图,帮助您了解当 ...
【娱乐】
阅读更多
热门文章
最新文章
友情链接
- 锐意进取:中国电信自主研究AI的奋进之路
- 自动解决服务器弹性膨胀问题
- 十大行业顶级网络准入控制系统
- 2025年全球5G必要的专利标准“百强”
- 5个流行的互联网行为管理系统
- 酒店客控系统十大品牌排名前十
- 如何快速冻结手机丢失的微信?
- 科学合理地控制局域网管理计算机成为确保企业正常运行和数据安全
- 猫灵网络获得“人工智能领导者年度金榜”奖
- 找不到手机怎么办?哦,这真是令人头痛
- 《流放之路2》超实用解决方案,轻松地告别这些问题
- 高质量大模型基础设施研究报告(2024年)
- 全透波无源玻璃钢避雷针的详细介绍
- 王炸出手,联通要“嗨爆全场”,流量资费要“拼”
- 陈波:小米NAS首版打样已进行多轮测试
- 2025年五款强大的局域网管理软件APP,让您的网络管理从现
- 锐意进取:中国电信自主研究AI的奋进之路
- 十款易于使用的局域网监控软件