教程｜使用大模型将文本数据转化为结构化数据(阿里云百炼)

之前分享了本地部署的文本编码教程

教程 | 使用大模型将文本编码为结构化数据(本地Ollma篇)
教程 | 使用大模型将文本编码为结构化数据(本地LM-Studio篇)

经过实验，发现本地编码速度实在感人(3s一条)， cntext2x未优化，只能同步依次对每条文本进行编码，分析 1000 条至少需要 3000 秒，速度实在太慢。

经过这几天打磨，ct.llm内置异步处理机制，调用云服务器(阿里云百炼模型平台为例)， 1000 条耗时 20 秒。今天将实验代码分享给大家。

cntext2.1.7版本llm支持异步处理多条文本。

2.2.1 平台介绍

使用阿里云百炼平台，只需几行Python代码即可轻松调用通义千问Qwen大模型。它提供简洁API接口，支持快速集成到应用中，实现高效文本生成与对话能力。无需复杂配置，适合快速原型开发与轻量级AI应用部署。

初次使用

Run

使用qwen-plus 单次编码的时间是 554毫秒。我整理了通义千问目前的模型定位、速度与价格。

模型名定位输入成本(每千token) 输出成本(每千token) qwen-max 最强综合能力 0.0024 0.0096 qwen-plus 平衡性能与成本 0.0008 0.002 qwen-turbo 快速响应 0.0003 0.003 qwen-flash 极致速度与低成本 0.00015 0.0015

2.2.2 如何配置阿里云

配置起来应该不难，大致有充值、申请api-key、选择一个模型。

教程｜使用大模型将文本数据转化为结构化数据(阿里云百炼)

cntext2x 内置提示词模板不止支持sentiment，还有其他任务，如分类、实体识别等。具体如下

Run

查看模板内容

Run

内置模板设计是通用型，不够聚焦具体场景，各位可根据自己研究问题、数据场景，设计适合自己的提示词。

Run

使用不同的模型，结果会有不同，建议使用qwen-plus模型，该模型兼顾了性能与成本，速度也不慢。

ct.llm()支持处理单条文本，也支持异步批处理多条文本。在上一节已经展示了单条处理能力，接下来介绍如何批量处理多条文本。

教程｜使用大模型将文本数据转化为结构化数据(阿里云百炼)

Run

教程｜使用大模型将文本数据转化为结构化数据(阿里云百炼)

10条的编码耗时2.69秒，速度还是很快的。那么编码1000条是多久？

Run

可以看到1000条编码所耗时间并不是10条的100倍，之所以如此快，得益于ct.llm内部支持了异步处理，可以同时处理多条文本，提高编码效率。

如果需要处理的数据量特别大，处理技巧:

先用少量数据测试，确保所选择模型的速度、性能(编码质量)。
分批次编码、保存结果，避免断网、服务器异常，导致丢失数据。

假设data.csv 含字段reviewid、rating、text。分析结果csv也要含 reviewid、rating、text。以下是分批次处理、依次保存编码结果的代码。

上面的代码，我在 10000 条的在线评论数据中进行了实验，选择了qwen-flash/qwen-turbo/qwen-plus/qwen-max 4个模型。耗时统计

标注质量方面， max最好， plus其次，flash、turbo的质量都一般，最终均衡考虑下推荐qwen-plus。

模型名定位输入成本(每千token) 输出成本(每千token) qwen-max 最强综合能力

千问 Qwen 教程

0.0024 0.0096 qwen-plus 平衡性能与成本 0.0008 0.002 qwen-turbo 快速响应 0.0003 0.003 qwen-flash 极致速度与低成本 0.00015 0.0015

如在研究或项目中使用 cntext ，请在文中介绍并附引用声明。引用格式可参考 cntext 推荐引用格式

PNAS | GPT 是多语言心理文本分析的有效工具
教程 | 如何使用 Ollama 下载 & 使用本地大语言模型
实验 | 使用本地大模型预测在线评论情感类别和分值
实验 | 如何使 Ollama 结构化输出 JSON 样式的结果
推荐 | 文本分析库 cntext2.x 使用手册
实验 | 使用本地大模型从文本中提取结构化信息
实验 | 使用 Ollama 本地大模型 DIY 制作单词书教案 PDF
实验 | 使用 Crewai 和 Ollama 构建智能体(AI Agent)帮我撰写博客文章

LIST | 可供社科(经管)领域使用的数据集汇总
LIST | 社科(经管)数据挖掘文献资料汇总
网络爬虫 | 使用 scrapegraph-ai(大模型方案)自动采集网页数据
推荐 | 文本分析库 cntext2.x 使用手册
付费视频课 | Python 实证指标构建与文本分析
实验 | 使用本地大模型从文本中提取结构化信息

发布者：全栈程序员-站长，转载请注明出处：https://javaforall.net/260184.html原文链接：https://javaforall.net

教程 ｜ 使用大模型将文本数据转化为结构化数据(阿里云百炼)

2.2.1 平台介绍

2.2.2 如何配置阿里云

关于作者

全栈程序员-站长

相关推荐

Qwen-Image-2512实战教程：结合ComfyUI节点定制像素艺术工作流

OpenClaw跟之前的豆包 、元宝、千问、ChatGPT有什么不一样？

阿里通义千问发布 Qwen3-Coder-Flash 模型，AI 智能体编程 ／ 操控浏览器等领域媲美 GPT-4.1 等领先闭源模型

阿里成立了个新事业群，这次是想摸着谷歌过河？

通义千问Qwen-7B-Chat Windows本地部署教程-详细认真版

阿里千问负责人林俊旸卸任，吴泳铭称Qwen为第一优先级

教程｜使用大模型将文本数据转化为结构化数据(阿里云百炼)

OpenClaw跟之前的豆包、元宝、千问、ChatGPT有什么不一样？

阿里通义千问发布 Qwen3-Coder-Flash 模型，AI 智能体编程／操控浏览器等领域媲美 GPT-4.1 等领先闭源模型