TAPIP3D: 永続的な3Dジオメトリ内の任意の点の追跡
Bowei Zhang1,2, Lei Ke1\, Adam W. Harley3, Katerina Fragkiadaki1
1カーネギーメロン大学 2北京大学 3スタンフォード大学
NeurIPS 2025
\* 同等の貢献

🚀 ニュース
- (2025.12.28) 🔥 トレーニング と 評価 コードを更新しました!以下の新しいセクションをご覧ください。
概要
TAPIP3D は、単眼RGBおよびRGB-Dビデオシーケンスにおける長期のフィードフォワード3D点追跡の手法です。画像特徴を永続的なワールド座標空間に持ち上げる3D特徴クラウド表現を導入し、カメラの動きをキャンセルし、フレーム間の正確な軌跡推定を可能にします。我々のTAPIP3Dの詳細なビデオ解説を提供しています。
インストール
依存関係のインストール
- 環境を準備する
conda create -n tapip3d python=3.10
conda activate tapip3dpip install torch==2.4.1 torchvision==0.19.1 torchaudio==2.4.1 "xformers>=0.0.27" --index-url https://download.pytorch.org/whl/cu124
pip install torch-scatter -f https://data.pyg.org/whl/torch-2.4.1+cu124.html
pip install -r requirements.txt
- pointops2をコンパイルする
cd third_party/pointops2
LIBRARY_PATH=$CONDA_PREFIX/lib:$LIBRARY_PATH python setup.py install
cd ../..- megasamをコンパイルする
cd third_party/megasam/base
LIBRARY_PATH=$CONDA_PREFIX/lib:$LIBRARY_PATH python setup.py install
cd ../../..
チェックポイントのダウンロード
TAPIP3Dモデルのチェックポイントをこちらから checkpoints/tapip3d_final.pth にダウンロードしてください。
単眼動画でTAPIP3Dを実行する場合は、MegaSAMを動かすために以下のチェックポイントを手動で準備する必要があります。
- DepthAnything V1のチェックポイントをこちらからダウンロードし、
third_party/megasam/Depth-Anything/checkpoints/depth_anything_vitl14.pthに配置してください。 - RAFTのチェックポイントをこちらからダウンロードし、
third_party/megasam/cvd_opt/raft-things.pthに配置してください。
デモの使い方
簡単なデモスクリプト inference.py とサンプル入力データが demo_inputs/ ディレクトリに用意されています。
スクリプトは .mp4 動画ファイルまたは .npz ファイルのいずれかを入力として受け付けます。 .npz ファイルを提供する場合、以下のフォーマットに従う必要があります:
video: 形状 (T, H, W, 3)、データ型: uint8depths(任意): 形状 (T, H, W)、データ型: float32intrinsics(任意): 形状 (T, 3, 3)、データ型: float32extrinsics(任意): 形状 (T, 4, 4)、データ型: float32
単眼動画での推論
--input_path に動画を指定すると、スクリプトはまず MegaSAM と MoGe を用いて深度マップとカメラパラメータを推定します。その後、モデルはこれらの入力をグローバルフレーム内で処理します。
デモ 1

推論を実行するには:
python inference.py --input_path demo_inputs/sheep.mp4 --checkpoint checkpoints/tapip3d_final.pth --resolution_factor 2
npzファイルがoutputs/inference/に保存されます。結果を可視化するには:python visualize.py Demo 2

python inference.py --input_path demo_inputs/pstudio.mp4 --checkpoint checkpoints/tapip3d_final.pth --resolution_factor 2既知の深度とカメラパラメータを用いた推論
4つのキー(rgb、depths、intrinsics、extrinsics)をすべて含む.npzファイルが提供されると、モデルは整列されたグローバルフレームで動作し、ワールド座標での点軌跡を生成します。
例として1つの.npzファイルをこちらに用意しており、demo_inputs/ディレクトリに置いてください。
デモ 3

python inference.py --input_path demo_inputs/dexycb.npz --checkpoint checkpoints/tapip3d_final.pth --resolution_factor 2トレーニングと評価
1. データセット準備
トレーニングおよび評価用のデータセット準備については、DATASET.md を参照してください。2. トレーニング
トレーニングを開始するには、次のコマンドを実行してください:bash scripts/train.sh
experiment_name: WandB に表示される実行名。experiment_id: 一意の識別子。同じexperiment_idで再実行すると、最新のチェックポイントから自動的にトレーニングが再開されます。
3. 評価
チェックポイントを評価するには、次を実行してください。bash scripts/eval.sh
checkpoint変数をscripts/eval.sh内で変更することで、評価するモデルを指定できます。引用
このプロジェクトが役立つと感じた場合は、引用をご検討ください:@article{tapip3d,
title={TAPIP3D: Tracking Any Point in Persistent 3D Geometry},
author={Zhang, Bowei and Ke, Lei and Harley, Adam W and Fragkiadaki, Katerina},
journal={arXiv preprint arXiv:2504.14717},
year={2025}
}--- Tranlated By Open Ai Tx | Last indexed: 2026-02-12 ---