Procurar no código html com o GOOGLE?
4 answers
Motores de busca com foco em HTML
Também gostaria de acrescentar o seguinte:Enorme, web crawl arquivos de dados
Como podemos analisar estes dados rastejantes?
Para um idéia de como começar a analisar alguns desses dados massivos, dê uma olhada em Big Data/Map-reduce-type frameworks(s).
O Google Lista algumas ideias sobre o uso do projeto Spark do Apache para analisar O(S) dump (s) comum (s) do Crawl. Para compreender O(S) formato (S) de ficheiro utilizado pelo Common Crawl , consulte o seguinte:
- Então você está pronto para começar [com rastejar comum]
- a navegar no formato de ficheiro WARC [por Common Rastejar]
O artigo, acessando-comum-Crawl-Dataset-on-S3 , descreve o acesso a 250TB+ dump(s) de Common Crawl de uma forma de baixo custo Sem transferindo essa carga de dados para fora da rede AWS/S3 da Amazon. Claro que isso pressupõe que vai usar alguma combinaçãoAWS/EC2/S3 etc. para analisar os dados rastejantes.
Por fim, Patrick Durusau mantém algumas coisas interessantes. Páginas de blogues relacionadas com a utilização comum (Common-Crawl-usage) . Pessoalmente, acho este assunto intrigante, sugiro que obtenhamos estes dados enquanto está quente! ;-)Você pode tentar Publicww para procurar no código / marcação. Ele permite encontrar qualquer HTML,JavaScript, CSS e texto simples no código fonte da página web em 167 + milhões de sites.
Com o Publicww você pode:
Encontrar sites relacionados através dos códigos HTML únicos que compartilham, i.e. widgets & publisher IDs.
Identificar sites usando certas imagens ou distintivos.
Descobre quem mais está a usar o teu tema.
- identificar os sítios que mencionam você. Encontra as afiliadas do teu concorrente.
- identifique os locais onde os seus concorrentes colaboram ou interagem pessoalmente.
- referências para usar uma biblioteca ou uma plataforma.
- encontra exemplos de código na net.
- descobrir quem está a usar os widgets do JS nos seus sites.
- ...
Claro que você pode encontrar não só os seus sites que usam algum excerto de código/marcação.