
手把手教你用Deepseek打造会聊天的桌宠!AI语音互动全流程拆解【爱莉希雅向】
通过deepseek等技术手段实现二次元桌宠与你的直接对话
hello 大家好随着deepseek的爆火与研究的进展,今天我们来进行一个实用的实战项目
本项目使用技术栈:
1.最近爆火的deepseek-R1模型本地部署/API云端调用,这里有两种解决方案,会依次讲解
2.数字伙伴2D:https://store.steampowered.com/app/2488350/ 18元购买
🔍评价:该软件在GUI页面存在一定的bug但优势点在于聊天AI API接口的调用整合方便(跟得上AI的迭代脚步),以及创意工坊对于角色模型、声音以及舞蹈动作的大量资源的社区化整合,减少了使用成本
⭐️可支持各种语言llama模型的调用包括chatgpt,本地使用ollma部署大模型,以及硅基流动云服务上大模型的调用
⭐️富有各种角色经过调优的live2d以及3d模型,以及fastvit vitsapi等角色语音包
有免费版但不支持ollama API以及硅基流动API调用,不方便使用【简而言之无法通过提供的免费版本实现deepseek的使用】
免费版地址:https://github.com/XDesktopSoft/DigitalMate2D
3.自行训练语音包(AI训练下一期会讲到)
4.舞蹈等功能的编排与使用(下一期)
这里有如下好处:
支持从steam创意工坊下载各种人物角色模型以及催眠咒语和角色设定,以及可以下载更多语音朗读引擎包括支持本地推理的FastVITS和数千动漫人物声线的语音模型。
1.0 Deepseek的部署与API的调用
1.1【方法一】部署本地版本deepseek(推荐但成本较高)
1.ollama 下载
http://ollama.com/
下载下来的安装包根据安装引导一直下一步即可,因为无法更改下载路径,默认存在C盘的用户文件中
2.模型部署
⚠️部署前请修改好环境变量
修改环境变量以及参数
OLLAMA_MODELS是配置ollama的模型存储路径,默认路径为C:\Users<USERNAME>.ollama\models,这里我们更改ollama的模型存储到别的盘。
如果你C盘很大那也可以不用更改
变量名:OLLAMA_MODELS,这个指的是模型储存地址
变量值:D:\ollama
OLLAMA_ORIGINS为http开放请求
变量名:OLLAMA_ORIGINS
变量值:*
(可选)局域网内使用deepseek配置
如下配置可选择性改动,可以在同一局域网内利用本机ollama部署的deepseek api服务
OLLAMA_HOST为ollama监听地址,默认是127.0.0.1(仅限本机访问),这里设置为设置为0.0.0.0,即可远程访问
变量名:OLLAMA_HOST
变量值:0.0.0.0:10070
OLLAMA_PORT为ollama默认端口号,默认为11434端口
变量名:OLLAMA_PORT
变量值:10070
建议在局域网情况下关闭windows defender防火墙
如若不安全请在windows防火墙控制软件内添加入站规则,注明端口号和使用的入站指令。
克隆deepseek-R1不同大小的量化模型
ollama仓库:https://ollama.com/library/deepseek-r1
在CMD命令行中运行:
根据本项目的需求,推荐如下几个模型大小进行部署
模型大小 | 参数量 | 显存需求 (GPU) | CPU 和内存需求 | 硬盘 | 适用场景 |
---|---|---|---|---|---|
1.5B | 15亿 | 2-4 GB | 8 GB 内存 | 3GB+(1.5-2GB) | 低资源设备部署(如树莓派、旧款笔记本)实时文本生成(聊天机器人、简单问答)嵌入式系统或物联网设备 |
7B | 70亿 | 8-12 GB | 16 GB 内存 | 8GB+(4-5GB) | 本地开发测试(中小型企业)中等复杂度 NLP 任务(文本摘要、翻译) |
8B | 80亿 | 10-16 GB | 16-32 GB 内存 | 15GB+ | 需更高精度的轻量级任务(如代码生成、逻辑推理) |
DeepSeek-R1-Distill-Qwen-1.5B
ollama run deepseek-r1:1.5b
DeepSeek-R1-Distill-Qwen-7B
ollama run deepseek-r1:7b
DeepSeek-R1-Distill-Llama-8B
ollama run deepseek-r1:8b
DeepSeek-R1-Distill-Qwen-14B
ollama run deepseek-r1:14b
DeepSeek-R1-Distill-Qwen-32B
ollama run deepseek-r1:32b
DeepSeek-R1-Distill-Llama-70B
ollama run deepseek-r1:70b
全体量模型:671b
ollama run deepseek-r1:671b
等读条结束后即可使用cmd内命令行对话,如需GUI请向下阅读
查看ollama 模型列表命令为 ollama list
国内拉取速度较慢可以上阿里的Modelscope GGUF进行拉取,需要在modelscope上进行对应量化gguf仓库的搜索
例如
ollama run modelscope.cn/unsloth/DeepSeek-R1-Distill-Llama-8B-GGUF
🌟 拉取速度对比原来ollama仓库拉取有极大提升:
参考文档:https://modelscope.cn/docs/models/advanced-usage/ollama-integration
1.2【方法二】使用硅基流动&华为云API
硅基流动网站:https://cloud.siliconflow.cn/i/GWFkAmy3
1.注册并登录
进行实名认证,如果不实名每日限制调用100条api
聊天机器人使用免费量化llama8B模型即可,可以有效节省成本。
首次注册会送你14元
点击侧边栏的密钥生成
点击新建API密钥
内容描述可写可不写,自行选择,然后直接点击新建密钥
点击这一窜字符可以自动复制
1.3(可选)使用cherrystudio调用deepseek
这个步骤根据自己想法进行实践,如果你想直接想接入到桌宠软件中,那即可跳过直接跳到2.1部分进行阅读
🎄这部分内容与本文章最终目标实现没有关联,但为了让大家部署deepseek可以不止限制于该功能,我写了如下内容
1.进入官网https://cherry-ai.com/
点击下载客户端下载
2.打开软件后,选择设置小图标
硅基流动用户调用方法
如图可见,你如果使用方法二调用deepseekAPI,那你就把刚才复制的API密钥粘贴进入API密钥框
回顾:
返回对话对话框,跟他进行聊天,点击上方模型名称可更改使用模型我们把它改成deepseek-R1
例如:
如果是本地部署的模型那把ollama这个开关打开即可
然后点击下方绿色管理按钮添加嵌入的模型,添加完成后即可返回对话页面选择模型deepseek-r1进行对话了
2.0 利用steam上的数字伙伴软件创建桌宠
2.1 安装软件
软件链接:https://store.steampowered.com/app/2488350/
steam购买后下载,然后等待初始化完毕进入页面
2.2 选取喜欢的角色
在角色栏中选择创意工坊然后搜索你喜欢的角色,建议是角色设定和角色live2d框架已经优化好的模型
如果想要属于自己的live2d,可以找画师定制,推荐bilibili工坊
2.3 角色编辑
我们下载后回到已安装界面点击加载,该模型则会在你的电脑桌面上出现,但你会发现他的尺寸不合你的心意,如下图所示点击编辑
在[信息中]设定角色缩放极为角色在你桌面上展示的大小,而角色立体感强度则是让她更加的生动立体,但⚠️不要太大否则会变形。
然后点击语音:
推荐使用fastvits引擎,vits语音模型点击右侧下载选项框在创意工坊内下载你所需要的角色的语音模型:
点击试听声音进行实验,观察是否可以正常发音完成试听内容!!!
如若不能或遇到bug请按如下方法解决,若效果不满意请在工坊内再找一个同角色模型
⚠️主要下面的朗读者和语音标志是否统一,部分情况下可能模型训练者没有设定语言标志,在一定概率下会出现问题,最明显的特征则为在vits朗读时候会出现[ZH]或者其他语言标志的模糊音,这时你需要将语言标志内信息清空
⚠️ 反之如果你的语言模型无法正常发音请选择语言标志,点击右方向下箭头的下拉列表可以选择对应的语言,如果还是没有声音请检查朗读者是否选择正确,如若都不可以则更换其他模型!
💡后期会讲如何训练某个角色的声音模型 敬请期待!
然后点击应用和确定,返回主界面再次点击加载,即可获得你调整好的AI桌宠!
但并未结束,我们接下来要接入AI 的API !
💡Tips:如果页面消失了请到任务栏隐藏菜单去寻找该图标:
2.4 接入deepseek API
该软件提供了很多API如 硅基流动 Ollama,以及openai chatgpt
我们这里讲Ollama和 硅基流动
点击聊天页面,选择聊天服务
按照自己想要的方法选择api,选中的api则为调用的api
ollama配置
确保ollama是在后台运行的
然后选中ollama api 点击测试即可,这里ollama网址是默认的,如果你按照上文更改端口号,请根据你自定义内容更改
点击测试后会显示测试成功,然后点击模型栏的更新列表,选择deepseek r1即可进行聊天!
硅基流动API配置
请选中轨迹流动API,并配置APIkey 然后点击测试和更新列表,找到deepseek-ai/DeepSeek-R1
即可对话
API获取方式请查找上文
点击测试,测试成功后可见下图
对桌宠进行聊天时可通过该图框内容观察使用的什么API,避免选择错误
总之就是你用什么api选择什么,不要配置过后再去选别的没有配置的api,你选中的api则是你对话调用的!
3.0 效果展示
最终配上效果图
OK 本篇文章完结撒花🎉!下一期会讲角色语音的训练!
更多推荐
所有评论(0)