Отсеивание URL адресов, соответствующих шаблону (VBScript)

Данный пример демонстрирует использование шаблона, согласно которому будут игнорироваться все URL адреса, которые соответствуют шаблону символьной подстановки. Тут мы используем функционал компонента Chilkat.Spider. Скрипт будет игнорировать интернет адреса, которые содержат «HTA», «WSH» и «LangMF».

Dim fso, outputFile
Set fso = CreateObject("Scripting.FileSystemObject")
Set outputFile = fso.CreateTextFile("outputFile.txt", True)
'  Объявляем экземпляр компонента Chilkat.Spider в переменной spd
set spd = CreateObject("Chilkat.Spider")
'  Задаем начальный домен для компонента в свойстве Initialize
'  Далее происходит обход сайта согласно заданному шаблону в 20 циклов
spd.Initialize "scriptcoding.ru"
'  добавляем URL адрес для исследования
spd.AddUnspidered "https://scriptcoding.ru/"
'  Добавляем отеиваемые URL адреса по шаблону
spd.AddAvoidPattern "*HTA*"
spd.AddAvoidPattern "*WSH*"
spd.AddAvoidPattern "*LangMF*"
'  Начало обхода сайта путем многократного вызова метода CrawlNext
For i = 0 To 19
    success = spd.CrawlNext()
        If (success = 1) Then
            '  Считываем в файл адрес полученой страницы
            outputFile.WriteLine(spd.LastUrl)
            '  HTML код странице доступен в свойстве LastHtml 
        Else
            '  Условие возникновения ошибки, или закончился обход            
If (spd.NumUnspidered = 0) Then
                    'MsgBox "Обход адресов закончен"
            Else
'  Выводим информацию об ошибке        
                    MsgBox spd.LastErrorText
            End If
        End If
        '  Ожидание в 1 секунду до перехода к следующему URL
        spd.SleepMs 1000
Next
MsgBox "Обход адресов закончен"
'  Закрываем открытый файл
outputFile.Close

 

Сам компонент и его описание вы найдете тут.

Оцените статью
Технологии программирования и ведение блога
Добавить комментарий