Back to search
为了实现真正的All in Local! 我将Llava视觉大模型、QWen2.5-VL多模态大模型,以及STT和TTS模型全部部署在本地计算机上,打造了一个完全离线的机器人视觉交互系统。 机器人通过摄像头感知周围环境,LLaVA和QWen2.5-VL进行视觉分析,STT进行语音识别,TTS进行语音播报,整个过程完全在本地完成。
Stars
58
Forks
7
Watchers
58
Open Issues
2
Overall repository health assessment
No package.json found
This might not be a Node.js project
3
commits