之前分享了本地部署的文本编码教程
- 教程 | 使用大模型将文本编码为结构化数据(本地Ollma篇)
- 教程 | 使用大模型将文本编码为结构化数据(本地LM-Studio篇)
经过实验,发现本地编码速度实在感人(3s一条), cntext2x未优化,只能同步依次对每条文本进行编码, 分析 1000 条至少需要 3000 秒,速度实在太慢。
经过这几天打磨,ct.llm内置异步处理机制,调用云服务器(阿里云百炼模型平台为例), 1000 条耗时 20 秒。 今天将实验代码分享给大家。
cntext2.1.7版本llm支持异步处理多条文本。
2.2.1 平台介绍
使用阿里云百炼平台,只需几行Python代码即可轻松调用通义千问Qwen大模型。它提供简洁API接口,支持快速集成到应用中,实现高效文本生成与对话能力。无需复杂配置,适合快速原型开发与轻量级AI应用部署。
初次使用
Run
使用qwen-plus 单次编码的时间是 554毫秒。我整理了通义千问目前的模型定位、速度与价格。
2.2.2 如何配置阿里云
配置起来应该不难,大致有充值、申请api-key、选择一个模型。
cntext2x 内置提示词模板不止支持sentiment,还有其他任务,如分类、实体识别等。具体如下
Run
查看模板内容
Run
内置模板设计是通用型,不够聚焦具体场景, 各位可根据自己研究问题、数据场景, 设计适合自己的提示词。
Run
使用不同的模型,结果会有不同, 建议使用qwen-plus模型,该模型兼顾了性能与成本,速度也不慢。
ct.llm()支持处理单条文本,也支持异步批处理多条文本。在上一节已经展示了单条处理能力,接下来介绍如何批量处理多条文本。
Run
10条的编码耗时2.69秒,速度还是很快的。那么编码1000条是多久?
Run
可以看到1000条编码所耗时间并不是10条的100倍, 之所以如此快,得益于ct.llm内部支持了异步处理, 可以同时处理多条文本, 提高编码效率。
如果需要处理的数据量特别大, 处理技巧:
- 先用少量数据测试, 确保所选择模型的速度、性能(编码质量)。
- 分批次编码、保存结果,避免断网、服务器异常,导致丢失数据。
假设data.csv 含字段reviewid、rating、text。 分析结果csv也要含 reviewid、rating、text。以下是分批次处理、依次保存编码结果的代码。
上面的代码,我在 10000 条的在线评论数据中进行了实验,选择了qwen-flash/qwen-turbo/qwen-plus/qwen-max 4个模型。耗时统计
标注质量方面, max最好, plus其次,flash、turbo的质量都一般,最终均衡考虑下推荐qwen-plus。
千问 Qwen 教程
如在研究或项目中使用 cntext ,请在文中介绍并附引用声明。引用格式可参考 cntext 推荐引用格式
- PNAS | GPT 是多语言心理文本分析的有效工具
- 教程 | 如何使用 Ollama 下载 & 使用本地大语言模型
- 实验 | 使用本地大模型预测在线评论情感类别和分值
- 实验 | 如何使 Ollama 结构化输出 JSON 样式的结果
- 推荐 | 文本分析库 cntext2.x 使用手册
- 实验 | 使用本地大模型从文本中提取结构化信息
- 实验 | 使用 Ollama 本地大模型 DIY 制作单词书教案 PDF
- 实验 | 使用 Crewai 和 Ollama 构建智能体(AI Agent)帮我撰写博客文章
- LIST | 可供社科(经管)领域使用的数据集汇总
- LIST | 社科(经管)数据挖掘文献资料汇总
- 网络爬虫 | 使用 scrapegraph-ai(大模型方案)自动采集网页数据
- 推荐 | 文本分析库 cntext2.x 使用手册
- 付费视频课 | Python 实证指标构建与文本分析
- 实验 | 使用本地大模型从文本中提取结构化信息
发布者:全栈程序员-站长,转载请注明出处:https://javaforall.net/260184.html原文链接:https://javaforall.net
