教程 | 使用大模型将文本数据转化为结构化数据(阿里云百炼)

教程 | 使用大模型将文本数据转化为结构化数据(阿里云百炼)

之前分享了本地部署的文本编码教程

  • 教程 | 使用大模型将文本编码为结构化数据(本地Ollma篇)
  • 教程 | 使用大模型将文本编码为结构化数据(本地LM-Studio篇)

经过实验,发现本地编码速度实在感人(3s一条), cntext2x未优化,只能同步依次对每条文本进行编码, 分析 1000 条至少需要 3000 秒,速度实在太慢。

经过这几天打磨,ct.llm内置异步处理机制,调用云服务器(阿里云百炼模型平台为例), 1000 条耗时 20 秒。 今天将实验代码分享给大家。

cntext2.1.7版本llm支持异步处理多条文本。

2.2.1 平台介绍

使用阿里云百炼平台,只需几行Python代码即可轻松调用通义千问Qwen大模型。它提供简洁API接口,支持快速集成到应用中,实现高效文本生成与对话能力。无需复杂配置,适合快速原型开发与轻量级AI应用部署。

初次使用

Run

使用qwen-plus 单次编码的时间是 554毫秒。我整理了通义千问目前的模型定位、速度与价格。

模型名 定位 输入成本(每千token) 输出成本(每千token) qwen-max 最强综合能力 0.0024 0.0096 qwen-plus 平衡性能与成本 0.0008 0.002 qwen-turbo 快速响应 0.0003 0.003 qwen-flash 极致速度与低成本 0.00015 0.0015

2.2.2 如何配置阿里云

配置起来应该不难,大致有充值、申请api-key、选择一个模型。

教程 | 使用大模型将文本数据转化为结构化数据(阿里云百炼) 教程 | 使用大模型将文本数据转化为结构化数据(阿里云百炼) 教程 | 使用大模型将文本数据转化为结构化数据(阿里云百炼)

cntext2x 内置提示词模板不止支持sentiment,还有其他任务,如分类、实体识别等。具体如下

Run

查看模板内容

Run

内置模板设计是通用型,不够聚焦具体场景, 各位可根据自己研究问题、数据场景, 设计适合自己的提示词。

Run

使用不同的模型,结果会有不同, 建议使用qwen-plus模型,该模型兼顾了性能与成本,速度也不慢。

ct.llm()支持处理单条文本,也支持异步批处理多条文本。在上一节已经展示了单条处理能力,接下来介绍如何批量处理多条文本。

教程 | 使用大模型将文本数据转化为结构化数据(阿里云百炼)

Run

教程 | 使用大模型将文本数据转化为结构化数据(阿里云百炼)

10条的编码耗时2.69秒,速度还是很快的。那么编码1000条是多久?

Run

可以看到1000条编码所耗时间并不是10条的100倍, 之所以如此快,得益于ct.llm内部支持了异步处理, 可以同时处理多条文本, 提高编码效率。

如果需要处理的数据量特别大, 处理技巧:

  1. 先用少量数据测试, 确保所选择模型的速度、性能(编码质量)。
  2. 分批次编码、保存结果,避免断网、服务器异常,导致丢失数据。

假设data.csv 含字段reviewid、rating、text。 分析结果csv也要含 reviewid、rating、text。以下是分批次处理、依次保存编码结果的代码。

上面的代码,我在 10000 条的在线评论数据中进行了实验,选择了qwen-flash/qwen-turbo/qwen-plus/qwen-max 4个模型。耗时统计

标注质量方面, max最好, plus其次,flash、turbo的质量都一般,最终均衡考虑下推荐qwen-plus。

模型名 定位 输入成本(每千token) 输出成本(每千token) qwen-max 最强综合能力

千问 Qwen 教程

0.0024 0.0096 qwen-plus 平衡性能与成本 0.0008 0.002 qwen-turbo 快速响应 0.0003 0.003 qwen-flash 极致速度与低成本 0.00015 0.0015

如在研究或项目中使用 cntext ,请在文中介绍并附引用声明。引用格式可参考 cntext 推荐引用格式

  • PNAS | GPT 是多语言心理文本分析的有效工具
  • 教程 | 如何使用 Ollama 下载 & 使用本地大语言模型
  • 实验 | 使用本地大模型预测在线评论情感类别和分值
  • 实验 | 如何使 Ollama 结构化输出 JSON 样式的结果
  • 推荐 | 文本分析库 cntext2.x 使用手册
  • 实验 | 使用本地大模型从文本中提取结构化信息
  • 实验 | 使用 Ollama 本地大模型 DIY 制作单词书教案 PDF
  • 实验 | 使用 Crewai 和 Ollama 构建智能体(AI Agent)帮我撰写博客文章
  • LIST | 可供社科(经管)领域使用的数据集汇总
  • LIST | 社科(经管)数据挖掘文献资料汇总
  • 网络爬虫 | 使用 scrapegraph-ai(大模型方案)自动采集网页数据
  • 推荐 | 文本分析库 cntext2.x 使用手册
  • 付费视频课 | Python 实证指标构建与文本分析
  • 实验 | 使用本地大模型从文本中提取结构化信息













版权声明:本文内容由互联网用户自发贡献,该文观点仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容, 请联系我们举报,一经查实,本站将立刻删除。

发布者:全栈程序员-站长,转载请注明出处:https://javaforall.net/260184.html原文链接:https://javaforall.net

(0)
上一篇 2026年3月13日 上午7:39
下一篇 2026年3月13日 上午7:39


相关推荐

关注全栈程序员社区公众号