我想用扣子完成AI数字分身的搭建，应该怎么操作

构建一个 AI 数字人分身主要包括以下两个方面：一、构建数字人躯壳数字人的躯壳建模有多种方式： 1. 2D 引擎：风格偏向二次元，亲和力强，定制化成本低，在日本、东南亚等国家比较受欢迎，也深受年轻人喜欢。能将喜欢的动漫人物变成数字人的躯壳。代表是 Live2D Cubism。 2. 3D 引擎：风格偏向超写实的人物建模，拟真程度高，定制化成本高。目前有很多公司都在做这个方向的创业，已经可以实现用户通过手机摄像头快速创建一个自己的虚拟人身体。如 NextHuman、Unity，虚幻引擎 MetaHuman 等。但个人学习在电脑配置和学习难度上有一定门槛。 3. AIGC：虽然省去了建模流程，直接生成数字人的展示图片，但弊端也明显，算法生成的数字人很难保持 ID 一致性，帧与帧的连贯性上会让人有虚假的感觉。如果项目对人物模型真实度要求没有那么高，可以使用这种方案。典型的项目有 wav2lip等。AIGC 还有一个方向是直接扣子 Coze 教程生成 2d/3d 引擎的模型，而不是直接生成数字人的最终展示部分，但该方向还在探索中。建好的模型可以使用 web 前端页面（Live2D 就提供了 web 端的 SDK）或者 Native 的可执行程序进行部署，最后呈现在用户面前的是一个 GUI。二、构建数字人灵魂有了数字人躯壳，还需要构建数字人的灵魂，让数字人具备各种智能，比如记得个人信息，充当个人助手；在某个领域具备更专业的知识；能处理复杂的任务等等。实现这些能力有以下几个工程关键点： 1. AI Agent：要想数字人像人一样思考就需要写一个像人一样的 Agent，工程实现所需的记忆模块，工作流模块、各种工具调用模块的构建都是挑战。 2. 驱动躯壳的实现：灵魂部分通过接口定义，躯壳部分通过 API 调用，调用方式可以是 HTTP、webSocket 等，视躯壳部分的实现而定。但包含情绪的语音表达以及如何保证躯壳的口型、表情、动作和语音的同步及匹配，目前主流方案只能做到预设一些表情动作，再做一些逻辑判断来播放预设，语音驱动口型相对来说成熟一些，但都是闭源的，效果可以参考 Nvidia 的 Audio2Face。 3. 实时性：由于整个数字人的算法部分组成庞大，几乎不能实现单机部署，特别是大模型部分，所以算法一般会部署到额外的集群或者调用提供出来的 API，这里面就会涉及到网络耗时和模型推理耗时，如果响应太慢就会体验很差，所以低延时也是亟需解决的一个问题。 4. 多元跨模态：仅仅是语音交互的数字人是远远不够的，人有五感（听觉、视觉、嗅觉、触觉、味觉），听觉只是其中一种，其他的感官可以根据实际需求来做，比如视觉可以通过添加摄像头数据来获取数据，再通过系列 CV 算法做图像解析等。 5. 拟人化场景：正常和人交流的时候不是线性对话，会有插话、转移话题等情况，这些情景需要通过工程丝滑处理。

发布者：全栈程序员-站长，转载请注明出处：https://javaforall.net/260241.html原文链接：https://javaforall.net

我想用扣子完成AI数字分身的搭建，应该怎么操作

关于作者

全栈程序员-站长

相关推荐

Coze智能体开发：从零基础开始使用扣子空间

Coze零基础开发Agent智能体

Coze插件开发实战：5分钟搞定API调用与Python自定义插件（附完整代码）

我的第一个coze 智能体（agent）应用

Coze（扣子）创建小红书爆款笔记

用扣子工作流让AI任务自动化