开源的基于摄像头的眼动跟踪方案

时间: 2025-12-11

python方案 https://github.com/pupil-labs/pupil
浏览器js方案 https://github.com/brownhci/WebGazer 测试了下,需要校准,并且在比较低分辨率的摄像头上似乎效果很不准确.

AI大模型方案 moondream gaze detection https://moondream.ai/ 2B参数做到相对精准的检测. 今年年初发布的开源模型. 油管上有个视频介绍.但速度太慢了, 22秒的视频在RTX A6000上处理的12分钟.
另一个方案gaze-lle https://github.com/fkryan/gazelle 似乎没有找到视频介绍, 也不知道速度如何. https://huggingface.co/spaces/fffiloni/Gaze-LLE 我在huggingface上运行一张图片的时间要30多秒.

研究这个有个感悟, 就是旧方案解决的不是很好的领域, 使用AI可以得到更好的解决, 然而AI需要大量训练且速度更慢能耗与资源消耗高几个数量级. 已眼动跟踪来说, 旧方案如webgazer使用浏览器js即可运行, 而AI方案要A6000才能运行且效率极低.

对比来说, Tobii的方案能实现虚拟键盘打字确实就很厉害了, 虚拟键盘每行有十几个按键都能准确触发确实很了不起.而七鑫易维也能实现每行十多个按键的识别输入也很厉害. 按豆包的反馈, 高精度方案使用瞳孔角膜反射法, 并使用近红外光辅助摄像头捕捉普洱钦点. 还有高成本方案虹膜追踪, 低成本方案使用巩膜追踪法. 但是, 豆包这个成本说法不可信, 因为红外光和摄像头的成本是不高的, 如果算法在普通计算机上能运行, 那么运行成本也是不高的.

在尝试webgazer后发现其精度太差, 而核心其实是应该更近的拍摄眼睛, 因此想到VR/AR方案中也有眼动跟踪的需求, 于是又搜索到了这个方案:
EyeTrackVR https://github.com/EyeTrackVR/EyeTrackVR , 这个方案还有一个完善的文档网站 https://docs.eyetrackvr.dev/
接着在油管搜索 EyeTrack, 又发现两个项目, 这两个项目不用嵌入VR眼镜, 是独立的眼部跟踪:
基于py的: https://github.com/JEOresearch/EyeTracker
基于C++的: https://github.com/YutaItoh/3D-Eye-Tracker

到这儿就颇有些感悟, 眼动跟踪这个看起来有些高端昂贵的产品(比如tobii要一两万, 其他的价格也不低), 从第一性原理出发(SD分辨率摄像头+红外光), 硬件成本似乎并不高, 剩下的其实只是软件算法而已. 另一个感悟是, 摄像头能产生的价值似乎远比想象的还要高得多.

标签: none 阅读量: 537

开源的基于摄像头的眼动跟踪方案

添加新评论

最新文章

最近回复

分类

归档

其它