Недавно, мне нужно было написать небольшое приложение, которое бы парсило URLs. В связи с чем хочу поделиться небольшой информацией по написанию своего паука (crawl, spider). Для начала давайте разберемся, из каких частей состоит URL. Обобщенно его структуру можно представить следующим образом:
