GitHub user AlexStocks edited a discussion: Pixiu 2026 work plan

随着 1.1.0 的发布(https://mp.weixin.qq.com/s/u42e_NKe8T6ayhFaxHR48Q),Pixiu 还面临如下问题:
* 1 AI 能力需要继续推进
一个是AI推理面演进还缺的能力以及kv-cache卸载到offload需要的指标项, 一个是关于成本统计这块,目下各模型的统计规格都不一致,可以参考如下文档:

Dubbo-Go-Pixiu AI 推理建设详细落地方案  
https://github.com/apache/dubbo-go-pixiu/discussions/859
LLM 推理 KV Cache 分布式缓存方案  
https://github.com/apache/dubbo-go-pixiu/discussions/860

去年开源之夏sentinel-go尝试做基于token预估的token限流的时候,有同学调研了一下token的计算方式。除了tiktoken-go之外,发现部分厂商其实也有提供api来支持计算token。之前测算过对于部分厂商tiktoken-go的计算结果和实际token结果会有一定差异,直接通过厂商api去计算token也可以作为一种更精确的实现考量哈。

下面是之前调研的一些厂商提供的api:
  - mistral:https://docs.mistral.ai/guides/tokenization/
  - gemini:https://ai.google.dev/gemini-api/docs/tokens?hl=zh-cn&lang=go
  - claude 
code:https://docs.anthropic.com/zh-TW/docs/build-with-claude/token-counting
  - 腾讯混元:https://cloud.tencent.com/document/product/1729/101835
  - 字节豆包:https://www.volcengine.com/docs/82379/1528728
  - 
智谱:https://docs.bigmodel.cn/api-reference/%E6%A8%A1%E5%9E%8B-api/%E6%96%87%E6%9C%AC%E5%88%86%E8%AF%8D%E5%99%A8

* 2 很多参数是硬写在代码里的,需要放到 pixiu-admin 里面;
* 3 pixiu dubbogo能力升级,如泛化调用要升级到 dubbo v3;
* 4 API 网关能力增强:供一个可插拔的请求校验 + 请求处理能力,让业务方无需再关心字段长度、必填、枚举等基础校验逻辑,统一由 OpenAPI 
规范驱动。具体见 issue https://github.com/apache/dubbo-go-pixiu/issues/857
* 5 LDS 增强:动态 LDS,通过 xDS/pixiu-admin 控制面动态下发 Listener 配置,而不需要重启进程或改静态配置文件。


GitHub link: https://github.com/apache/dubbo-go-pixiu/discussions/858

----
This is an automatically sent email for [email protected].
To unsubscribe, please send an email to: 
[email protected]


---------------------------------------------------------------------
To unsubscribe, e-mail: [email protected]
For additional commands, e-mail: [email protected]

Reply via email to