Объект Chilkat.Spider - парсинг сайтов

Здравствуйте, дорогие читатели блога scriptcoding.ru. В этой статье мы рассмотрим компонент Chilkat.Spider, который позволяет производить парсинг сайтов.

В этой публикации я не буду приводить примеров программного кода, я только рассмотрю описание методов и свойства объекта Chilkat.Spider. Что бы просмотреть примеры кода, можете почитать статью «Скрипт для поиска битых ссылок«, из этой же оперы, но с использование другого компонента можете ознакомиться с публикацией «Сохранение электронной почты«.

И так, давайте для начала посмотрим, какие возможности для парсинга сайтов представляет класс Chilkat.Spider:

Пробег по сетевому ресурсу с учетом файла Robots.txt
Создание списка внешних ссылок страниц сетевого ресурса
Возможность кешировать страницы для будущего их обхода
Получение информации по мета тегам (Title, Description, Keywords)
Поддерживает работу с протоколом HTTPS
Создание шаблона для исключения заданных URL_адресов
Возможность исключения внешних ссылок по заданному шаблону
Дает возможность задавать тайм-аут, счетчик и лимит страниц
Позволяет задать максимальную длину URL_адреса для избегания процесса зацикливания
Возможность задать максимальный размер страницы

Информацию, примеры и сам компонент (исполняемый файл) можно скачать на www.chilkatsoft.com, однако, ссылку на архив с распакованными компонентами я дам в этой статьи ниже.

Свойства объекта Chilkat.Spider — парсинг сайтов

Chilkat.Spider - парсинг интернет сайтов

AvoidHttps – Если данное свойство установить в 1 (TRUE), то обход будет производиться по всем HTTPS URLs, по умолчанию свойство равно 0 (FALSE).

CacheDir — Указывает каталог кэша используемый для просмотра. Если одно из свойств FetchFromCache или UpdateCache равно TRUE, это расположение кэша будет использоваться. Примечание: Internet Explorer, Netscape, FireFox кэши полностью отделены от кэша каталога Chilkat Spider. Вы должны указать новый и пустой каталог.

ChopAtQuery — Если свойство равно 1 (TRUE), то все URL_адреса удаляются автоматически при добавлении в список исключений. По умолчанию установлено значение 0 (FALSE).

ConnectTimeout — Максимальное количество секунд ожидания при подключении к серверу HTTP.

Domain — Доменное имя, которое в настоящее время используется. Данное свойство предварительно устанавливается в методе Initialize. Пакрсинг интернет сайтов.

FetchFromCache — Если равно 1 (истинно), то страницы извлекаются из кэша, когда это возможно. Если 0, то кэш игнорируются. Значение по умолчанию 1. Несмотря на это, если CacheDir не установлен, то кэш не используется.

LastErrorHtml — Предоставляет информацию в формате HTML о последних метод / свойство. Если вызов метода возвращает значение, указывающее на сбой, или ведет себя неожиданно, то данное свойство позволит получить информацию об ошибке.

LastErrorText — Предоставляет информацию в текстовом формате о последних метод / свойство. Если вызов метода возвращает значение, указывающее на сбой, или ведет себя неожиданно, то данное свойство позволит получить информацию об ошибке.

LastErrorXml — Предоставляет информацию в XML-формате о последних метод / свойство. Если вызов метода возвращает значение, указывающее на сбой, или ведет себя неожиданно, то данное свойство позволит получить информацию об ошибке.

LastFromCache — Равно 1, если последняя страница индексации была получен из кэша. В противном случае равна 0. Парсинг страниц и сайтов.

LastHtml — HTML содержимое последней выгружаемой страницы.

LastHtmlDescription – Позволяет получить описание (Description) с последней выгружаемой страницы HTML.

LastHtmlKeywords — Позволяет получить ключевые слова (Keywords) с последней выгружаемой страницы HTML.

LastHtmlTitle — Позволяет получить заголовок (Title) с последней выгружаемой страницы HTML.

LastModDate — Последнее изменение даты последней индексации страницы. Парсим сайты.

LastUrl – URL_адрес на последней странице индексации.

MaxResponseSize – Максимально допустимый размер ответа HTTP. Будут автоматически игнорироваться страницы, размер которых больше заданного. Значение по умолчанию 250000 байт.

MaxUrlLen – Максимально допустимая длина URL_заголовка. Адреса_URL, размер которых больше заданного, автоматически добавляются в список исключений. Значение по умолчанию 200.

NumAvoidPatterns — Число шаблонов ранее установленных по методу AddAvoidPattern.

NumFailed — Количество URL_адресов возвративших неудачу.

NumOutboundLinks — Количество исходящих ссылок в списке страниц. Как парсить сайты программно.

NumSpidered — Количество ссылок в уже индексируемом списке URL_адресов.

NumUnspidered — Количество адресов в исключающем списке URL_адресов.

ProxyDomain — (Предварительная) доменное имя прокси-сервера, если используется HTTP прокси. Парсим сайты.

ProxyLogin — (Предварительная) Если прокси HTTP используется, и это требует проверки подлинности, это свойство определяет HTTP прокси логин.

ProxyPassword — (Предварительная) Если прокси HTTP используется, и это требует проверки подлинности, это свойство определяет HTTP прокси пароль.

ProxyPort — (Предварительная) номер порта прокси-сервер, если HTTP прокси используется. Парсинг сайтов.

ReadTimeout — Максимальное количество секунд ожидания при чтении с HTTP сервера.

UpdateCache — Если равно 1 (истинно), то страницы, будут сохранены в кэше. Если 0, то кэш игнорируются. Значение по умолчанию 1. Несмотря на это, если CacheDir не установлен, то кэш не используется.

VerboseLogging — Если установлено в 1, то содержимое LastErrorText (LastErrorXml или LastErrorHtml) может содержать более подробную информацию. Значение по умолчанию равно 0. Ведение подробного журнала следует использовать только для отладки. Слишком большое количество данных может привести к негативным последствиям.

Version — Версия (например, «1.0») компонента Spider.

Методы объекта Chilkat.Spider — парсинг сайтов

AddAvoidOutboundLinkPattern(pattern) — Добавляет символов подстановки шаблона для предотвращения сбора адресов для исходящих ссылок. Например, если «* Google *» добавляется, то любые исходящие ссылки, содержащие слово «Google» будут игнорироваться. Символ «*» означает ноль или более любых символов.

AddAvoidPattern(pattern) — Добавляет символов подстановки шаблона для предотвращения обхода соответствующих урлов. Например, если добавляется «* register *», то любой УРЛ, содержащий слово » register » будет проигнорирован. Символ «*» означает ноль или более любых символов. Парсинг интернет сайтов.

AddMustMatchPattern(pattern) — Добавляет символов подстановки шаблона для ограничения индексации заданных URL_адресов, которые соответствуют шаблону. Например, если добавляется «* / register / *», то только URL_адреса, содержащие «/ register /», будут индексироваться. Это полезно только при обходе части блога. Символ «*» означает ноль или более любых символов.

AddUnspidered(url) — Вы должны вызывать этот метод один или несколько раз, чтобы обеспечить отправную точку обхода. Метод добавляет один URL_адрес к внутренней очереди списка из URL-адресов для индексации. Парсим сайты.

CanonicalizeUrl(url) – Метод обеспечивает видоизменение заданного URL адреса, преобразовывает все символы в строчные, удаляет лишние символы и многое другое.

ClearFailedUrls() — Очищает внутренний список компонентов из URL-адреса, которые не могут быть загружены.

ClearOutboundLinks() — Очищает внутренний список компонентов исходящих адресов, которые будут автоматически накапливаться во время обхода.

ClearSpideredUrls() — Очищает внутренний список компонентов из уже проиндексированных адресов, которые будут автоматически накапливаться во время обхода.

CrawlNext() — Сканирует следующий URL адрес .URL адреса извлекаются из списка индексации. Любые новые ссылки в том же домене, но еще не проиндексированные будут добавлены в список неиндексируемых. Парсить сайты. Любые новые исходящие ссылки будут добавлены в список исходящих URL. Этот метод возвращает HTML на странице загрузки. Если больше нет ссылок в списке, возвращается нулевое значение. Информация о URL доступна в свойствах LastUrl, LastFromCache и LastModDate.

FetchRobotsText() — Возвращает содержимое файла robots.txt из области обхода. Это позволяет исключить сканирование адресов, запрещенных в файле robots.txt.

GetDomain(url) — Возвращает часть доменного имени URL. Например, если URL адрес является «http://www.scriptcoding.ru/test.asp», то метод возвратит «www. scriptcoding.ru «. Возвращает 0 при неудаче.

GetFailedUrl(index) — Возвращает N-ый URL в неудачном URL списке. Индексация начинается с 0. Возвращает 0 при неудаче.

GetOutboundLink(index) — Возвращает N-ый URL в список исходящих URL ссылок. Индексация начинается с 0. Возвращает 0 при неудаче.

GetSpideredUrl(index) — Возвращает N-ый URL в уже индексируемом URL списке. Индексация начинается с 0. Возвращает 0 при неудаче.

GetUnspideredUrl(index) — Возвращает N-ый URL в не индексируемом URL списке. Индексация начинается с 0. Возвращает 0 при неудаче.

Initialize(domain) — Инициализация начального домена для индексации. Вызов Initialize удаляет все модели добавленные с помощью методов AddAvoidOutboundLinkPattern, AddAvoidPattern и AddMustMatchPattern. Как осуществить парсинг интернет сайтов. Обход URL-адресов будет произведен в пределах одного домена.

RecrawlLast() — Повторный обход последнего индексируемого URL. Это полезно, когда куки установленные при предыдущей загрузке страницы вызывают страницу, которая будет загружаться по-разному в следующий раз. парсить сайты.

SaveLastError(filename) — Сохраняет последнюю информацию об ошибках (содержание LastErrorXml) в формате XML-файла.

SkipUnspidered(index) — Перемещение URL из неиндексируемого списка к индексируемому. Это позволяет приложению пропустить конкретный URL.

Скачать компонент

Парсинг сайтов можно также осуществить с помощью компонентов вида XMLHTTP, так как они позволяют отправлять http запросы на заданный URL адрес. Также можете ознакомится с объектами JSForm.Window и JSSys3.Ops.

Добавить комментарий

orenkomp 17.03.2023
В списке TC мне не хватает собственных значков для облегчения визуального поиска нужной папки. Кроме...
4APK 17.03.2023
Битые ссылки, по тем или иным причинам возникающие на сайте, могут нанести вред ресурсу. Конечно, если...
Ирина 17.03.2023
он-лайн сервис не всегда удобный - например если нужно сделать скрин счетов каких-то! или панели...
4APK 17.03.2023
А вот распечатка сайтов сверстанных на фреймах идет по другому. Если просто послать сайт на печать...
Артём 17.03.2023
Извините, но если честно, то не понял, что же все-таки лучше использовать на сайте. Мне кажется там, где...
Ирина 17.03.2023
Вы можете проверить это сами, взяв какую-нибудь очень качественную фотография и сохранив ее в Джипег с...
Дмитрий 17.03.2023
Откровенно говоря не очень полно даны объяснения. В Фотошопе есть специальное сохранение для web и...

Объект Chilkat.Spider — парсинг сайтов

Свойства объекта Chilkat.Spider — парсинг сайтов

Методы объекта Chilkat.Spider — парсинг сайтов