- 맞춤형 웹 크롤링·스크래핑 정제 전달까지 원스톱으로 수행합니다.- 상품/리뷰/뉴스/지도(매장) 등 공개 웹 데이터를 표준 스키마로 정리해 CSV·구글시트·DB로 제공합니다.- R 중심(rvest/httr/RSelenium)으로 구현하며, 필요 시 간단한 Python 사용 가능.- 실행 파일(EXE) 제작·상시 호스팅은 제공하지 않습니다. 대신 스크립트 + 실행 가이드 + 재현 가능한 파이프라인을 드립니다.- robots.txt·사이트 약관·개인정보 규정을 준수합니다(우회·취약점 이용·유료벽 해제 불가). - 요건 정리(킥오프): 대상 사이트·필드·주기·산출물 포맷 확정- 사전 점검: robots/반봇 정책·구조(HTML/API) 확인, 샘플 50행 수집- 스키마 확정: 컬럼 정의·중복/결측 규칙·키값 결정- 수집: 크롤러 구현(지연·재시도·로그), 중복 제거·클린징- 검수(QA): 표본 대조·이상치/누락 점검, 데이터 사전 제공- 납품: CSV/구글시트/DB 적재 중 선택 + R 스크립트/README/재실행 가이드 - 대상 URL/도메인 목록 + 수집 필드 예시(예: 상품명·가격·리뷰·좌표 등)- 수집 주기·분량 한도(예: 주 1회, 최대 5만 건) & 산출물 포맷(CSV/시트/DB)- 용도·수용 가능한 지연 속도(반봇 회피를 위한 크롤 속도)- (해당 시) API 키/로그인 계정(2FA 해제 방법 포함), 사내 DB 접속 정보- 법적/약관 준수 확인(회사 내부 승인 여부)- 운영 환경 정보(Windows/macOS, R 설치 가능 여부)- 결과물: 정제 데이터 + R 스크립트 + 실행/운영 가이드 + 데이터 사전- 제한: EXE 제작·상시 운영 대행 불가, 강한 반봇·유료벽·개인정보/비공개 영역 수집 불가.
로딩중...