腾讯云混元模型turbos接入方案

腾讯云混元模型turbos接入方案

经过前期一系列的成本和技术评估,以及各种第三方平台大模型API的实际样本测试效果,最终我们选择了和预期效果最符合的腾讯云hunyuan-turbos-latest模型作为UGC内容安全审核的接入方案。通过接入混元模型可以有效提升UGC内容审核的准确度(87.5%以上),且价格也比较便宜(百万Token输入是0.8元,输出是2元),对于企业来说是一个很好的接入方案(相比较自己部署一套小模型如Qwen7B来说,不管是效果还是成本都好得多)。

本篇要解决的业务问题:已知腾讯云混元模型的并发数是20个(目前官网默认单账号并发5个,每提高1个并发需要800元/月,可以找商务协商免费调大),且API平均1条要处理5秒(非流式响应),我们每天产生的UGC数据超过20w条,如何高性能地接入腾讯云混元模型呢?

业务整体架构如下

  • 成本和技术评估可参考:内容安全审核接入大语言模型的成本和技术评估-CSDN博客
  • 其他模型API接入和样本测试效果可参考:通过大语言模型提高内容安全审核准确性_验证文本大模型输出结果的安全性是否正确-CSDN博客

  • UGC内容:用户发布的内容,如练笔、评论、个性签名、昵称等。
  • Hystrix: 元宝 混元 Hunyuan 教程通过分配独立线程池,限制服务调用的并发数(有效解决突发流量);通过熔断器和服务降级可以有效解决服务间调用的故障和资源隔离问题,防止级联故障导致系统崩溃。

因为请求优先选择Hystrix的核心线程,超过核心线程则进入等待队列,超过等待队列则进入动态扩展线程,这里配置核心线程数CoreSize即为腾讯云允许的并发数(这里是20),配置队列容量QueueSize为100允许上游流量较大时适当进行排队等待,不设置动态扩展线程数避免超过腾讯云允许的并发数


通过上面的Hystrix可以解决调用混元模型API时不会超过允许并发路数的问题,但如果上游并发请求数量太大,远远超过了Hystrix的承载能力(即远超过了核心线程数+排队容量),那么可能会频繁引起Hystrix的熔断降级,通过配置线程池控制上游并发请求数量可以规避这个问题


通过定时任务批量获取上游UGC数据进行异步AI审核


PS : 定时任务每6秒执行1次,并发20,即6秒可以处理20条UGC数据,1分钟可以处理200条,1天可以处理28w+条数据,已达到我们的预期目标20w条了!

版权声明:本文内容由互联网用户自发贡献,该文观点仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容, 请联系我们举报,一经查实,本站将立刻删除。

发布者:Ai探索者,转载请注明出处:https://javaforall.net/261461.html原文链接:https://javaforall.net

(0)
上一篇 2026年3月12日 下午11:28
下一篇 2026年3月12日 下午11:28


相关推荐

关注全栈程序员社区公众号