Extensão cromática webscraper.io - como funciona a paginação com a seleção de"next"

Question

Extensão cromática webscraper.io - como funciona a paginação com a seleção de"next"

eu estou tentando raspar tabelas de um site usando o google chrome extensão webscraper.io. No tutorial de extensão, é documentado como raspar um site com páginas diferentes, digamos, "página 1", "página 2" e "página 3", onde cada uma das páginas que está diretamente ligado na página principal.

no exemplo do site eu estou tentando raspar , no entanto, há apenas um botão "Próximo" para acessar o próximo site. Se eu seguir os passos no tutorial e criar um link para a Página" próxima", ele só vai considerar as páginas 1 e 2. Criar um link "próximo" para cada página não é viável porque eles são muitos. Como posso fazer com que o webscraper inclua todas as páginas? Existe uma maneira de fazer um loop através de páginas usando a extensão webscraper?

Estou ciente deste possível duplicado: pagination Chrome web scraper . No entanto, não foi bem recebido e não contém respostas úteis.

3

google-chrome pagination web-scraping

Author: Community, 2017-01-12

Source

1 answers

score 4 · Accepted Answer

Está bem, resolvi-o. Vou postar a solução para futuros visitantes para o site com a mesma pergunta. Se responder a perguntas a si mesmo não é um bom estilo, por favor exclua.]

Seguindo a documentação avançada aqui , o problema é resolvido fazendo com que a" paginação " ligue um dos pais. Em seguida, o software de raspagem vai recursivamente passar por todas as páginas e sua página "próxima". Nas suas palavras,

Para extrair itens de todas as ligações de paginação incluindo os que não são visíveis no início, você precisa criar outro seletor de links que selecione os links de paginação. A figura 2 mostra como o seletor de links deve ser criado no sitemap. Quando o raspador abre um link de categoria irá extrair itens que estão disponíveis na página. Depois disso, encontrará os links de paginação e também os visitará. Se o selector de ligação de paginação for feito uma criança para si mesmo, ele irá descobrir recursivamente todas as páginas de paginação.