Ir para conteúdo

Arquivado

Este tópico foi arquivado e está fechado para novas respostas.

newboxters

Lista das 10 palavras mais utilizadas no texto

Recommended Posts

Tenho um texto que é equivalente a 500 páginas do Word. Gostaria de saber se é possível eu copiar e colar ele numa textarea de um formulário e quando der um ok, ir para um action php que conta as palavras mais repetidas e exibe a lista das 10 mais repetidas.

 

Eu sei que essa requisição pode demorar, mas eu gostaria de uma solução bem otimizada e excluindo palavras de menos de 3 letras, como e, o, as, ok, oi.

 

Aguardo sugestões. E se não for possível fazer esse script, tem algum software que faça isso?

 

Obrigado.

Compartilhar este post


Link para o post
Compartilhar em outros sites

Programe.

 

Pensa no algorítmo disso.

você precisa:

 

-> identificar as palavras

-> agrupar palavras iguais

-> contar qntas tem de cada uma

-> retornar as 10 mais

 

entre cada um desses passos, existem alguns desdobramentos.

Com funções básicas do php não é tão dificil assim resolver isso.

 

aqui no fórum podemos te ajudar, se quiser que alguém faça por você, ai você terá que contratar alguém.

Compartilhar este post


Link para o post
Compartilhar em outros sites

Olá William, obrigado pela resposta e desculpe se dei a entender que quero que alguém faça isso. De maneira alguma, quero apenas aprender realmente a melhor maneira para se alcançar esse resultado.

 

Sei que é complexo, não sou tão experiente assim em php. Os passos da lógica para mim não haveriam problemas, mas sinceramente, não sei se valerá a pena fazer isso, pois pelo que estou pensando exigirá um grande processamento do servidor.

 

Pois eu pensei da seguinte maneira:

busca uma palavra e verifica no texto quantas são iguais a ela. Se for fazer isso, por palavra, levando em consideração que são 100 mil palavras, aproximadamente, ficaria inviável.

 

O que você acha?

 

No caso, também perguntei se há algum programa/software que faça isso? Nem no Word, nem no Writer, pelo que eu pesquisei, é possível fazer isso. Então, se souber algum, mesmo pago, poderia me indicar?

Pois daí eu atualizaria manualmente a lista no site, já que pelo script, parece ser não só complexo para desenvolver, como com grande dificuldade quanto ao processamento.

Compartilhar este post


Link para o post
Compartilhar em outros sites

No caso, também perguntei se há algum programa/software que faça isso? Nem no Word, nem no Writer, pelo que eu pesquisei, é possível fazer isso. Então, se souber algum, mesmo pago, poderia me indicar?

Pois daí eu atualizaria manualmente a lista no site,

 

Se você for fazer as atualizações manualmente, pq não cria e deixe o script p/ para você usar de vez em qnd... :thumbsup:

Quem tem que decidir vai ser você, pois apenas você teria o sistema na mão e vai saber se é ou não viável :joia:

Compartilhar este post


Link para o post
Compartilhar em outros sites

Uma sugestão de desenvolvimento:

 

1 - Crie uma array que armazene toda e qualquer palavra que encontrar no texto.

2 - Seria algo assim:

$a=array("palavra1"=>"1","palavra2"=>"1","palavra3"=>"1");

Use um while pra repetir isto até acabar as palavras. Sempre que encontrar uma palavra, veja se ela já está na array, se não estiver, inclua ela, se tiver, incremente em 1.

3 - Faça a aplicação PHP ler todo o texto, e incrementar em 1 a cada ocorrência encontrada.

4 - Depois, mostre as 10 maiores, é só descobrir a maior de todas, a segunda maior de todas, a terceira e etc. Isso você faz com um while.

Compartilhar este post


Link para o post
Compartilhar em outros sites

Evidentemente não é o mais performático. Peço um desconto por ter feito em questão de 5 minutos e sem testes mais refinados.

<?php 

$text = "
Lorem Ipsum is simply dummy text of the printing and typesetting industry. Lorem Ipsum has been the industry's standard dummy text ever since the 1500s, when an unknown printer took a galley of type and scrambled it to make a type specimen book. It has survived not only five centuries, but also the leap into electronic typesetting, remaining essentially unchanged. It was popularised in the 1960s with the release of Letraset sheets containing Lorem Ipsum passages, and more recently with desktop publishing software like Aldus PageMaker including versions of Lorem Ipsum.
It is a long established fact that a reader will be distracted by the readable content of a page when looking at its layout. The point of using Lorem Ipsum is that it has a more-or-less normal distribution of letters, as opposed to using 'Content here, content here', making it look like readable English. Many desktop publishing packages and web page editors now use Lorem Ipsum as their default model text, and a search for 'lorem ipsum' will uncover many web sites still in their infancy. Various versions have evolved over the years, sometimes by accident, sometimes on purpose (injected humour and the like).
Contrary to popular belief, Lorem Ipsum is not simply random text. It has roots in a piece of classical Latin literature from 45 BC, making it over 2000 years old. Richard McClintock, a Latin professor at Hampden-Sydney College in Virginia, looked up one of the more obscure Latin words, consectetur, from a Lorem Ipsum passage, and going through the cites of the word in classical literature, discovered the undoubtable source. Lorem Ipsum comes from sections 1.10.32 and 1.10.33 of 'de Finibus Bonorum et Malorum' (The Extremes of Good and Evil) by Cicero, written in 45 BC. This book is a treatise on the theory of ethics, very popular during the Renaissance. The first line of Lorem Ipsum, 'Lorem ipsum dolor sit amet..', comes from a line in section 1.10.32.
The standard chunk of Lorem Ipsum used since the 1500s is reproduced below for those interested. Sections 1.10.32 and 1.10.33 from 'de Finibus Bonorum et Malorum' by Cicero are also reproduced in their exact original form, accompanied by English versions from the 1914 translation by H. Rackham.
There are many variations of passages of Lorem Ipsum available, but the majority have suffered alteration in some form, by injected humour, or randomised words which don't look even slightly believable. If you are going to use a passage of Lorem Ipsum, you need to be sure there isn't anything embarrassing hidden in the middle of text. All the Lorem Ipsum generators on the Internet tend to repeat predefined chunks as necessary, making this the first true generator on the Internet. It uses a dictionary of over 200 Latin words, combined with a handful of model sentence structures, to generate Lorem Ipsum which looks reasonable. The generated Lorem Ipsum is therefore always free from repetition, injected humour, or non-characteristic words etc.
";

preg_match_all("/\w+/", $text, $matches);

$words = array();

foreach ($matches[0] as $i => $match)
{
if (!isset($words[$match])) $words[$match] = 0;

$words[$match]++;
}

arsort($words);

var_dump($words);
?>

Compartilhar este post


Link para o post
Compartilhar em outros sites

×

Informação importante

Ao usar o fórum, você concorda com nossos Termos e condições.