Sosse 🦦
发现 Sosse — 基于 Selenium 的开源搜索引擎,专为强大的网页归档、爬取和搜索而构建。 在官方网站探索其所有功能和能力。
无论您是开发者、研究人员还是数据爱好者,Sosse 都准备好支持您的项目。 加入GitHub或GitLab社区,提交功能请求、报告错误、贡献代码或开启讨论。
主要功能
- 🌍 网页搜索:搜索网页内容,包括动态渲染的页面,支持高级查询。
- 🕑 定期爬取:以固定间隔爬取页面,或根据内容变化调整爬取频率。
- 🔖 网页归档:归档 HTML 内容,调整链接以支持本地使用,下载所需资源,并支持动态内容。
- 🏷️ 标签:使用标签组织和筛选爬取或归档的页面,提升搜索和管理效率。
- 📂 文件下载:从网页批量下载二进制文件。
- 📡 Webhook 集成:使用高度灵活的 webhook 集成外部服务。连接专有的 AI 平台
- 🔔 Atom 订阅源:为没有订阅源的网站生成内容订阅,或在包含关键词的新页面发布时接收更新。
- 🔒 身份验证:爬虫可通过身份验证访问私密页面并获取内容。
- 👥 权限管理:管理员可配置爬虫并查看统计数据,经过身份验证的用户可搜索,也可匿名搜索。
- 👤 搜索功能:包括私有搜索历史 (文档),
Sosse 使用 Python 编写,遵循 GNU AGPLv3 许可证 发行。它使用基于浏览器的爬取方式,结合 Mozilla Firefox 或 Google Chromium 以及 Selenium,对依赖 JavaScript 的页面进行索引。为了更快的爬取,也可使用 Requests。Sosse 使用 PostgreSQL 进行数据存储。
试用
快速通过 Docker 试用最新版本:
docker run -p 8005:80 biolds/sosse:stable
然后,打开 http://127.0.0.1:8005/ 并使用用户名 admin 和密码 admin 登录。有关 Docker 数据持久化或其他安装方法,请参阅安装指南。
保持联系
加入 Discord 服务器 获取帮助、分享想法或讨论 Sosse!
--- Tranlated By Open Ai Tx | Last indexed: 2025-12-29 ---