Sosse 🦦
Sosse を発見する — 強力なウェブアーカイブ、クロール、検索のために構築された Selenium オープンソース検索エンジン。 そのすべての機能と能力については、公式ウェブサイトをご覧ください。
開発者、研究者、データ愛好家のいずれであっても、Sosse はあなたのプロジェクトをサポートする準備ができています。 GitHub や GitLab のコミュニティに参加して、機能リクエストの提出、バグ報告、コードの貢献、またはディスカッションの開始を行いましょう。
主な機能
- 🌍 ウェブページ検索: 動的にレンダリングされたページを含むウェブページの内容を、高度なクエリで検索可能。
- 🕑 定期クロール: 固定間隔でページをクロールするか、コンテンツの変化に応じてクロール頻度を調整可能。
- 🔖 ウェブページアーカイブ: HTML コンテンツをアーカイブし、ローカル利用のためにリンクを調整し、必要なアセットをダウンロードし、動的コンテンツもサポート。
- 🏷️ タグ: クロールまたはアーカイブしたページをタグで整理・フィルタリングし、検索と管理を向上。
- 📂 ファイルダウンロード: ウェブページからバイナリファイルを一括ダウンロードします。
- 📡 Webhook: 高度に柔軟なWebhookを使用して外部サービスと連携します。独自のAIプラットフォーム
- 🔔 Atomフィード: フィードがないウェブサイトのコンテンツフィードを生成したり、キーワードを含む新しいページが公開されたときに更新情報を受け取ったりできます。
- 🔒 認証: クローラーは認証してプライベートページにアクセスし、コンテンツを取得できます。
- 👥 権限管理: 管理者はクローラーの設定と統計の閲覧が可能で、認証ユーザーは検索を行うか匿名で操作できます。
SosseはPythonで書かれており、GNU AGPLv3ライセンスで配布されています。JavaScriptに依存するページのインデックス作成には、Mozilla Firefox または Google Chromium と Selenium を用いたブラウザベースのクロールを使用します。より高速なクロールには Requests も利用可能です。データストレージには PostgreSQL を使用しています。
お試しください
Dockerで最新バージョンをすばやく試すには:
docker run -p 8005:80 biolds/sosse:stable次に、http://127.0.0.1:8005/ を開き、ユーザー名 admin とパスワード admin でログインします。
Dockerデータの永続化や別のインストール方法については、インストールガイド を参照してください。
つながりを保つ
サポートを受けたり、アイデアを共有したり、Sosseについて話し合うには、Discordサーバー に参加してください!
--- Tranlated By Open Ai Tx | Last indexed: 2025-12-29 ---