一种场景和目标感知与理解技术
1. 痛点问题
场景、目标对象的感知与语义理解在医疗健康、运动培训等领域具有广阔的应用前景,其核心是如何在像素级、对象级、场景级多层次、多尺度表示下实现语义、几何及空间关系的透彻感知。
现有计算机视觉方法或激光雷达等手段无法同时获取多个维度的高质量场景与目标信息,同时现有的深度估计、语义分割、位姿估计等相关技术,存在识别精度低、提取不到关键信息、应用场景单一等问题,无法满足大尺度场景应用的需求。
2. 解决方案
团队提出多模态采集、时空复用编码摄像方法,获取大景深、高时空分辨、丰富的精确场景视觉信息;提出一种基于物理空间推理和语义关联建模的动态场景深度估计方法,综合语义信息、几何结构信息以及时空间信息进行滤波,实现复杂动态场景的无先验深度估计,将观测目标与背景进行区分;提出一套从图像和视频中预测目标的位置和姿态的方法,包括迭代匹配的深度网络、基于物体三维坐标的旋转/平移解耦、自监督6D模型等,克服了遮挡、光照变化、视觉歧义与数据标注依赖等因素的影响,可以准确估计目标相对相机的 6D 位姿(3D平移量和3D旋转量);构建了基于全卷积网络和兴趣区域的多目标实例检测与分割框架,有效的解决了复杂类别、场景遮挡情况下的多目标实例分割问题,能够实现同时对场景中多个目标检测与分析。
合作需求
寻求医疗健康服务、医疗器械等领域有相关技术开发、市场推广经验,能推广本技术落地的高科技企业,可以进行深度合作。
清华大学
2022-02-18