Sosse 🦦
Découvrez Sosse — le moteur de recherche open source Selenium conçu pour l’archivage web, le crawling et la recherche puissants. Explorez toutes ses fonctionnalités et capacités sur le site officiel.
Que vous soyez développeur, chercheur ou passionné de données, Sosse est prêt à soutenir vos projets. Rejoignez la communauté sur GitHub ou GitLab pour soumettre des demandes de fonctionnalités, signaler des bugs, contribuer au code, ou lancer une discussion.
Fonctionnalités clés
- 🌍 Recherche de pages web : Recherchez le contenu des pages web, y compris celles rendues dynamiquement, avec des requêtes avancées.
- 🕑 Crawling récurrent : Explorez les pages à intervalles fixes ou adaptez la fréquence selon les changements de contenu.
- 🔖 Archivage de pages web : Archivez le contenu HTML, ajustez les liens pour un usage local, téléchargez les ressources nécessaires et prenez en charge
- 🏷️ Étiquettes : Organisez et filtrez les pages explorées ou archivées à l’aide d’étiquettes pour une meilleure recherche et gestion.
- 📂 Téléchargement de fichiers : Téléchargement en lot de fichiers binaires depuis des pages web.
- 📡 Webhooks : Intégration avec des services externes via des webhooks très flexibles. Connexion à des plateformes d’IA propriétaires
- 🔔 Flux Atom : Génération de flux de contenu pour les sites web qui n’en disposent pas, ou réception de mises à jour lorsqu’une nouvelle page
- 🔒 Authentification : Le robot d’exploration peut s’authentifier pour accéder à des pages privées et récupérer leur contenu.
- 👥 Permissions : Les administrateurs peuvent configurer les robots d’exploration et consulter les statistiques, tandis que les utilisateurs authentifiés peuvent effectuer des recherches ou le faire anonymement.
- 👤 Fonctions de recherche : Comprend un historique de recherche privé (doc),
Explorez la 📚 documentation et découvrez quelques 📷 captures d’écran.
Sosse est écrit en Python et distribué sous la licence GNU AGPLv3. Il utilise une exploration basée sur un navigateur avec Mozilla Firefox ou Google Chromium en association avec Selenium pour indexer les pages qui dépendent de JavaScript. Pour une exploration plus rapide, Requests peut également être utilisé. Sosse utilise PostgreSQL pour le stockage des données.
Essayez-le
Pour essayer rapidement la dernière version avec Docker :
docker run -p 8005:80 biolds/sosse:stableEnsuite, ouvrez http://127.0.0.1:8005/ et connectez-vous avec le nom d'utilisateur admin et le mot de passe admin.
Pour la persistance des données Docker ou des méthodes d'installation alternatives, veuillez consulter le guide d'installation.
Restez Connecté
Rejoignez le serveur Discord pour obtenir de l'aide, partager des idées ou discuter de Sosse !
--- Tranlated By Open Ai Tx | Last indexed: 2025-12-29 ---