Sosse 🦦
Sosse를 발견하세요 — 강력한 웹 아카이빙, 크롤링 및 검색을 위해 구축된 Selenium 오픈 소스 검색 엔진입니다. 공식 웹사이트에서 모든 기능과 역량을 탐색해 보세요.
개발자, 연구원 또는 데이터 애호가 여부에 상관없이 Sosse는 여러분의 프로젝트를 지원할 준비가 되어 있습니다. 기능 요청 제출, 버그 신고, 코드 기여 또는 토론 시작을 위해 GitHub 또는 GitLab 커뮤니티에 참여하세요.
주요 기능
- 🌍 웹 페이지 검색: 동적으로 렌더링된 페이지를 포함하여 고급 쿼리로 웹 페이지 콘텐츠를 검색합니다.
- 🕑 반복 크롤링: 일정한 간격으로 페이지를 크롤링하거나 콘텐츠 변경에 따라 크롤링 속도를 조절합니다.
- 🔖 웹 페이지 아카이빙: HTML 콘텐츠를 아카이빙하고, 로컬 사용을 위해 링크를 조정하며, 필요한 자산을 다운로드하고,
- 🏷️ 태그: 크롤링하거나 아카이빙한 페이지를 태그로 조직하고 필터링하여 더 나은 검색 및 관리를 지원합니다.
- 📂 파일 다운로드: 웹 페이지에서 이진 파일을 일괄 다운로드합니다.
- 📡 웹훅: 매우 유연한 웹훅을 사용하여 외부 서비스와 통합합니다. 독점 AI 플랫폼
- 🔔 Atom 피드: 피드가 없는 웹사이트에 콘텐츠 피드를 생성하거나 키워드를 포함한 새 페이지가
- 🔒 인증: 크롤러가 인증하여 비공개 페이지에 접근하고 콘텐츠를 가져올 수 있습니다.
- 👥 권한: 관리자는 크롤러를 구성하고 통계를 볼 수 있으며, 인증된 사용자는 검색하거나 익명으로
- 👤 검색 기능: 개인 검색 기록 (문서),
📚 문서를 탐색하고 몇 가지 📷 스크린샷을 확인해 보세요.
Sosse는 Python으로 작성되었으며 GNU AGPLv3 라이선스 하에 배포됩니다. JavaScript에 의존하는 페이지를 인덱싱하기 위해 Mozilla Firefox 또는 Google Chromium과 함께 Selenium을 사용한 브라우저 기반 크롤링을 사용합니다. 더 빠른 크롤링을 위해 Requests도 사용할 수 있습니다. Sosse는 데이터 저장에 PostgreSQL을 사용합니다.
직접 사용해보기
최신 버전을 Docker로 빠르게 사용하려면:
docker run -p 8005:80 biolds/sosse:stable그런 다음 http://127.0.0.1:8005/를 열고 사용자 이름 admin과 비밀번호 admin으로 로그인하세요.
Docker 데이터의 영속성 또는 다른 설치 방법에 대해서는 설치 가이드를 참고하세요.
계속 소통하기
도움이 필요하거나 아이디어를 공유하거나 Sosse에 대해 토론하려면 Discord 서버에 참여하세요!
--- Tranlated By Open Ai Tx | Last indexed: 2025-12-29 ---