[ ВОЙТИ ]
Актуальность базы и данных в ней
Парсеров существует громадное количество, под разные нужды. Наш проект является парсером базы данных сертификатов с сайта ФСА.
Работа парсера заключается в несколько этапов
- Войти на сайт ФСА
- Вытащить из списка сертификатов и деклараций предварительные данные
- Обойти предварительные данные и вытащить основные
После чего все данные появляются в базе.
Таким образом формируется база данных в целом. Дальше идет анализ, выгрузки, генерация статистики и так далее.
У любого парсера, вне зависимости от желания разработчика и заказчиков, всегда имелись и будут иметься некоторые нюансы.
- Работа парсера зависит от работы Интернет-соединения и работоспособности ресурса, с которого идет парсинг данных
- Работа парсера зависит от работы серверов (внутренних ресурсов) того места, где физически расположены исполняемые файлы парсера
- Полнота данных и их достоверность зависит от того, как публикуются данные на самом сайте-оригинале.
Из этого следует, что соответствие данных на ресурсе-оригинале и в базе парсера будут различаться. Они, различия, могут быть не существенными, но могут быть и очень обширными.
В связи с этим может возникнуть некоторая разница между тем, что находится внутри базы парсера, и на сайте-оригинале (ФСА).
Также, не маловажно, на самом сайте ФСА публикуется не всегда достоверная или полноценная информация. По этой причине, тоже могут быть расхождения. Пока не существует способов, кроме разве-что внедрения своих людей в организацию, сделать так, что бы данные в базе парсера совпадали на 100% с данными ФСА.
Примерный процент разницы составляет 3-5%.
Если у Вас есть идеи, пожелания, то Вы всегда сможете нам сказать об этом.