Procurar no código html com o GOOGLE?

Tenho vários sites, e não me lembro onde escrevi algumas linhas de código. Como minhas páginas são indexadas pelo Google, eu gostaria de saber se o Google oferece uma facilidade para pesquisar dentro do código-fonte HTML/mark-up em si, em vez de, permitindo apenas pesquisar no visual, proferida, parte de uma página?

Obrigado.
Author: Big Rich, 2010-11-24

4 answers

Há um novo motor de busca chamado NerdyData o que lhe permite procurar no código-fonte HTML/CSS/JS Eles indexam mais de 160 milhões de domínios públicos e eu achei os dados úteis.
 40
Author: Noah Freitas, 2014-01-06 04:55:11
Encontrei os seguintes recursos nas minhas viagens (alguns já mencionados):

Motores de busca com foco em HTML

Também gostaria de acrescentar o seguinte:

Enorme, web crawl arquivos de dados

Como podemos analisar estes dados rastejantes?

Para um idéia de como começar a analisar alguns desses dados massivos, dê uma olhada em Big Data/Map-reduce-type frameworks(s).

O Google Lista algumas ideias sobre o uso do projeto Spark do Apache para analisar O(S) dump (s) comum (s) do Crawl. Para compreender O(S) formato (S) de ficheiro utilizado pelo Common Crawl , consulte o seguinte:

O artigo, acessando-comum-Crawl-Dataset-on-S3 , descreve o acesso a 250TB+ dump(s) de Common Crawl de uma forma de baixo custo Sem transferindo essa carga de dados para fora da rede AWS/S3 da Amazon. Claro que isso pressupõe que vai usar alguma combinaçãoAWS/EC2/S3 etc. para analisar os dados rastejantes.

Por fim, Patrick Durusau mantém algumas coisas interessantes. Páginas de blogues relacionadas com a utilização comum (Common-Crawl-usage) . Pessoalmente, acho este assunto intrigante, sugiro que obtenhamos estes dados enquanto está quente! ;-)
 33
Author: Big Rich, 2020-11-21 13:20:35

Você pode tentar Publicww para procurar no código / marcação. Ele permite encontrar qualquer HTML,JavaScript, CSS e texto simples no código fonte da página web em 167 + milhões de sites.

Com o Publicww você pode:

  • Encontrar sites relacionados através dos códigos HTML únicos que compartilham, i.e. widgets & publisher IDs.

  • Identificar sites usando certas imagens ou distintivos.

  • Descobre quem mais está a usar o teu tema.
  • identificar os sítios que mencionam você.
  • Encontra as afiliadas do teu concorrente.
  • identifique os locais onde os seus concorrentes colaboram ou interagem pessoalmente.
  • referências para usar uma biblioteca ou uma plataforma.
  • encontra exemplos de código na net.
  • descobrir quem está a usar os widgets do JS nos seus sites.
  • ...

Claro que você pode encontrar não só os seus sites que usam algum excerto de código/marcação.

 10
Author: James Andreenko, 2016-04-26 05:49:03
 2
Author: Limon Pervez, 2014-10-19 20:36:42