python方案 https://github.com/pupil-labs/pupil
浏览器js方案 https://github.com/brownhci/WebGazer 测试了下,需要校准,并且在比较低分辨率的摄像头上似乎效果很不准确.

AI大模型方案 moondream gaze detection https://moondream.ai/ 2B参数做到相对精准的检测. 今年年初发布的开源模型. 油管上有个视频介绍.但速度太慢了, 22秒的视频在RTX A6000上处理的12分钟.
另一个方案gaze-lle https://github.com/fkryan/gazelle 似乎没有找到视频介绍, 也不知道速度如何. https://huggingface.co/spaces/fffiloni/Gaze-LLE 我在huggingface上运行一张图片的时间要30多秒.

研究这个有个感悟, 就是旧方案解决的不是很好的领域, 使用AI可以得到更好的解决, 然而AI需要大量训练且速度更慢能耗与资源消耗高几个数量级. 已眼动跟踪来说, 旧方案如webgazer使用浏览器js即可运行, 而AI方案要A6000才能运行且效率极低.

对比来说, Tobii的方案能实现虚拟键盘打字确实就很厉害了, 虚拟键盘每行有十几个按键都能准确触发确实很了不起.而七鑫易维也能实现每行十多个按键的识别输入也很厉害. 按豆包的反馈, 高精度方案使用瞳孔角膜反射法, 并使用近红外光辅助摄像头捕捉普洱钦点. 还有高成本方案虹膜追踪, 低成本方案使用巩膜追踪法. 但是, 豆包这个成本说法不可信, 因为红外光和摄像头的成本是不高的, 如果算法在普通计算机上能运行, 那么运行成本也是不高的.

标签: none 阅读量: 13

添加新评论