Extracção de dados em MySQL [fechado]

comecei recentemente o projecto de comércio electrónico e preciso de usar a datamining. Simplesmente a minha pergunta é qual a solução que posso usar no desenvolvimento:

    MySQL com PHP
  • servidor SQL com ASP

na verdade MySQL é uma boa solução e adequada para o meu projecto por muitas razões, mas é boa e óptima para Datamining? Sou principiante em Datamining e vou desenvolver isto como parte do meu projecto. Há bons instrumentos de apoio para isso?

Author: halfer, 2013-10-05

2 answers

As bases de dados SQL desempenham pouco papel na extracção de dados. (Isto é, a menos que você considere computar vários relatórios de negócios envolvendo médias como "mineração de dados", IMHO estes devem, no máximo, ser chamados de "análise de negócios").

A razão é que as estatísticas avançadas efectuadas para a extracção de dados não podem ser aceleradas pelos índices da base de dados. E normalmente, eles também levam muito mais tempo do que os usuários interativos estariam dispostos a esperar.

Então, no final, a maioria dos dados reais a mineração acontece "offline", fora de uma base de dados. O banco de dados pode servir como armazenamento inicial de dados, mas o processo de mineração de dados real, em seguida, geralmente é 1. carregar dados da base de dados, 2. dados do pré-processo, 3. análise de dados, 4. apresentar resultados.

Eu sei que existem algumas extensões SQL como o DMX ("extensões de mineração de dados"). Mas a sério, isso não é extracção de dados. Essa é uma interface para invocar alguma funcionalidade básica de predição, mas nada geral. Qualquer boa mineração de dados irá necessite personalização do processo, e você não pode fazer isso com um DMX one-liner.

O facto é que as ferramentas mais importantes para a extracção de dados são R e SciPy. Seguido pelas ferramentas especializadas como RapidMiner, Weka e ELKI. Por quê? Porque R e Python são melhores para scripting . Trata-se de personalização do processo. Esqueça qualquer solução do botão de pressão, eles apenas não funcionam razoavelmente bem ainda. Não se pode treinar razoavelmente, por exemplo, uma máquina de vectores de suporte. "dentro" de um banco de dados SQL (e ainda menos, dentro de um banco de dados NoSQL, que geralmente não é muito mais do que uma loja de valores-chave). Também não subestime a necessidade de pré-processar seus dados. Então, de fato, você estará treinando em uma cópia do conjunto de dados. Você pode, então, apenas obter esta cópia em um formato de dados mais eficiente para o seu processo de mineração de dados real mais tarde; em vez de mantê-lo em uma loja de banco de dados de acesso aleatório de propósito geral.
 7
Author: Anony-Mousse, 2013-10-05 21:00:47

Eu diria para escolher o idioma que você e sua equipe se sentem mais confortáveis com , há bens e não tanto bens de ambos os lados, eu acho que você faz um pouco de pesquisa antes de escolher um caminho tendo em mente as suas necessidades de Negócio.

 0
Author: M.Ali, 2013-10-05 19:13:00