Web Analytics

TAPIP3D

⭐ 369 stars Spanish by zbw001

TAPIP3D: Seguimiento de Cualquier Punto en Geometría 3D Persistente

arXiv Project Page

Bowei Zhang1,2, Lei Ke1\, Adam W. Harley3, Katerina Fragkiadaki1

1Universidad Carnegie Mellon   2Universidad de Pekín   3Universidad de Stanford

NeurIPS 2025

\* Contribución Igual

Resumen TAPIP3D


🚀 Noticias

Resumen

TAPIP3D es un método para el seguimiento feed-forward a largo plazo de puntos 3D en secuencias monoculares de video RGB y RGB-D. Introduce una representación de nube de características 3D que eleva las características de la imagen a un espacio de coordenadas del mundo persistente, cancelando el movimiento de la cámara y permitiendo una estimación precisa de la trayectoria a través de los fotogramas.

Proporcionamos una ilustración en video detallada de nuestro TAPIP3D.

Instalación

Instalación de dependencias

conda create -n tapip3d python=3.10
conda activate tapip3d

pip install torch==2.4.1 torchvision==0.19.1 torchaudio==2.4.1 "xformers>=0.0.27" --index-url https://download.pytorch.org/whl/cu124 pip install torch-scatter -f https://data.pyg.org/whl/torch-2.4.1+cu124.html pip install -r requirements.txt

cd third_party/pointops2
LIBRARY_PATH=$CONDA_PREFIX/lib:$LIBRARY_PATH python setup.py install
cd ../..

cd third_party/megasam/base
LIBRARY_PATH=$CONDA_PREFIX/lib:$LIBRARY_PATH python setup.py install
cd ../../..

Descarga de puntos de control

Descargue nuestro punto de control del modelo TAPIP3D aquí en checkpoints/tapip3d_final.pth

Si desea ejecutar TAPIP3D en vídeos monoculares, debe preparar manualmente los siguientes puntos de control para ejecutar MegaSAM:

Además, los puntos de control de MoGe y UniDepth se descargarán automáticamente al ejecutar la demo. Por favor, asegúrese de que su conexión de red esté disponible.

Uso de la Demo

Proporcionamos un script de demo simple inference.py, junto con datos de entrada de muestra ubicados en el directorio demo_inputs/.

El script acepta como entrada un archivo de vídeo .mp4 o un archivo .npz. Si proporciona un archivo .npz, debe seguir el siguiente formato:

Para propósitos de demostración, el script utiliza una cuadrícula de 32x32 puntos en el primer fotograma como consultas.

Inferencia con Vídeo Monocular

Al proporcionar un vídeo como --input_path, el script primero ejecuta MegaSAM con MoGe para estimar mapas de profundidad y parámetros de cámara. Posteriormente, el modelo procesará estas entradas dentro del marco global.

Demo 1

Demo 1

Para ejecutar la inferencia:

python inference.py --input_path demo_inputs/sheep.mp4 --checkpoint checkpoints/tapip3d_final.pth --resolution_factor 2
Un archivo npz se guardará en outputs/inference/. Para visualizar los resultados:

python visualize.py 

Demo 2

Demo 2

python inference.py --input_path demo_inputs/pstudio.mp4 --checkpoint checkpoints/tapip3d_final.pth --resolution_factor 2

Inferencia con Profundidades y Parámetros de Cámara Conocidos

Si se proporciona un archivo .npz que contiene las cuatro claves (rgb, depths, intrinsics, extrinsics), el modelo operará en un marco global alineado, generando trayectorias de puntos en coordenadas del mundo. Proporcionamos un archivo .npz de ejemplo aquí y por favor colóquelo en el directorio demo_inputs/.

Demostración 3

Demo 3

python inference.py --input_path demo_inputs/dexycb.npz --checkpoint checkpoints/tapip3d_final.pth --resolution_factor 2

Entrenamiento y Evaluación

1. Preparación del Conjunto de Datos

Por favor, consulte DATASET.md para obtener instrucciones sobre la preparación de conjuntos de datos tanto para entrenamiento como para evaluación.

2. Entrenamiento

Para iniciar el entrenamiento, ejecute:
bash scripts/train.sh

3. Evaluación

Para evaluar un punto de control, ejecute:
bash scripts/eval.sh
Puedes especificar el modelo a evaluar modificando la variable checkpoint en scripts/eval.sh.

Citación

Si encuentras este proyecto útil, por favor considera citar:

@article{tapip3d,
  title={TAPIP3D: Tracking Any Point in Persistent 3D Geometry},
  author={Zhang, Bowei and Ke, Lei and Harley, Adam W and Fragkiadaki, Katerina},
  journal={arXiv preprint arXiv:2504.14717},
  year={2025}
}

--- Tranlated By Open Ai Tx | Last indexed: 2026-02-12 ---