TAPIP3D: 永続的な3Dジオメトリ内の任意の点の追跡

Bowei Zhang^1,2, Lei Ke¹\, Adam W. Harley³, Katerina Fragkiadaki¹

¹カーネギーメロン大学 ²北京大学 ³スタンフォード大学

NeurIPS 2025

\* 同等の貢献

TAPIP3D overview

🚀 ニュース

(2025.12.28) 🔥 トレーニング と評価コードを更新しました！以下の新しいセクションをご覧ください。

概要

TAPIP3D は、単眼RGBおよびRGB-Dビデオシーケンスにおける長期のフィードフォワード3D点追跡の手法です。画像特徴を永続的なワールド座標空間に持ち上げる3D特徴クラウド表現を導入し、カメラの動きをキャンセルし、フレーム間の正確な軌跡推定を可能にします。

我々のTAPIP3Dの詳細なビデオ解説を提供しています。

インストール

依存関係のインストール

環境を準備する

conda create -n tapip3d python=3.10
conda activate tapip3dpip install torch==2.4.1 torchvision==0.19.1 torchaudio==2.4.1 "xformers>=0.0.27" --index-url https://download.pytorch.org/whl/cu124
pip install torch-scatter -f https://data.pyg.org/whl/torch-2.4.1+cu124.html
pip install -r requirements.txt

pointops2をコンパイルする

cd third_party/pointops2
LIBRARY_PATH=$CONDA_PREFIX/lib:$LIBRARY_PATH python setup.py install
cd ../..

megasamをコンパイルする

cd third_party/megasam/base
LIBRARY_PATH=$CONDA_PREFIX/lib:$LIBRARY_PATH python setup.py install
cd ../../..

チェックポイントのダウンロード

TAPIP3Dモデルのチェックポイントをこちらから checkpoints/tapip3d_final.pth にダウンロードしてください。

単眼動画でTAPIP3Dを実行する場合は、MegaSAMを動かすために以下のチェックポイントを手動で準備する必要があります。

DepthAnything V1のチェックポイントをこちらからダウンロードし、third_party/megasam/Depth-Anything/checkpoints/depth_anything_vitl14.pth に配置してください。

RAFTのチェックポイントをこちらからダウンロードし、third_party/megasam/cvd_opt/raft-things.pth に配置してください。

さらに、MoGe と UniDepth のチェックポイントはデモ実行時に自動的にダウンロードされます。ネットワーク接続が利用可能であることを確認してください。

デモの使い方

簡単なデモスクリプト inference.py とサンプル入力データが demo_inputs/ ディレクトリに用意されています。

スクリプトは .mp4 動画ファイルまたは .npz ファイルのいずれかを入力として受け付けます。 .npz ファイルを提供する場合、以下のフォーマットに従う必要があります：

video: 形状 (T, H, W, 3)、データ型: uint8
depths（任意）: 形状 (T, H, W)、データ型: float32
intrinsics（任意）: 形状 (T, 3, 3)、データ型: float32
extrinsics（任意）: 形状 (T, 4, 4)、データ型: float32

デモ用に、スクリプトは最初のフレームで32x32のグリッド上のポイントをクエリとして使用します。

単眼動画での推論

--input_path に動画を指定すると、スクリプトはまず MegaSAM と MoGe を用いて深度マップとカメラパラメータを推定します。その後、モデルはこれらの入力をグローバルフレーム内で処理します。

デモ 1

Demo 1

推論を実行するには：

python inference.py --input_path demo_inputs/sheep.mp4 --checkpoint checkpoints/tapip3d_final.pth --resolution_factor 2

npzファイルがoutputs/inference/に保存されます。結果を可視化するには：

python visualize.py

Demo 2

Demo 2

python inference.py --input_path demo_inputs/pstudio.mp4 --checkpoint checkpoints/tapip3d_final.pth --resolution_factor 2

既知の深度とカメラパラメータを用いた推論

4つのキー（rgb、depths、intrinsics、extrinsics）をすべて含む.npzファイルが提供されると、モデルは整列されたグローバルフレームで動作し、ワールド座標での点軌跡を生成します。例として1つの.npzファイルをこちらに用意しており、demo_inputs/ディレクトリに置いてください。

デモ 3

Demo 3

python inference.py --input_path demo_inputs/dexycb.npz --checkpoint checkpoints/tapip3d_final.pth --resolution_factor 2

トレーニングと評価

1. データセット準備

トレーニングおよび評価用のデータセット準備については、DATASET.md を参照してください。

2. トレーニング

トレーニングを開始するには、次のコマンドを実行してください：

bash scripts/train.sh

experiment_name: WandB に表示される実行名。
experiment_id: 一意の識別子。同じ experiment_id で再実行すると、最新のチェックポイントから自動的にトレーニングが再開されます。

3. 評価

チェックポイントを評価するには、次を実行してください。

bash scripts/eval.sh

checkpoint変数をscripts/eval.sh内で変更することで、評価するモデルを指定できます。

引用

このプロジェクトが役立つと感じた場合は、引用をご検討ください：

@article{tapip3d,
  title={TAPIP3D: Tracking Any Point in Persistent 3D Geometry},
  author={Zhang, Bowei and Ke, Lei and Harley, Adam W and Fragkiadaki, Katerina},
  journal={arXiv preprint arXiv:2504.14717},
  year={2025}
}

--- Tranlated By Open Ai Tx | Last indexed: 2026-02-12 ---