Ir para conteúdo

POWERED BY:

Arquivado

Este tópico foi arquivado e está fechado para novas respostas.

DanielGerep

Curl

Recommended Posts

Olá pessoas...

 

 

Eu criei um código aonde eu acesso uma página via cURL e consigo pegar as informações nela e armazenar o que me interessa no banco mas para pegar esse conteúdo eu tenho que fazer uma "gambiarra" por exemplo:

 

<table id="cliente"><tr><td>Nome:</td><td>João</td></tr></table>

 

Eu tive que criar uma função que pegasse o que estivesse entre "<table id="cliente"><tr><td>Nome:</td><td>" e "</td></tr></table>" e o problema é que se algum dia a estrutura do site for alterada para por exemplo DIVs no lugar de tabelas, eu vou ter problemas.

 

 

Alguém conhece uma classe que faça isso?

 

Muito obrigado!

Compartilhar este post


Link para o post
Compartilhar em outros sites

Não tem como.

 

A partir do momento que você lê uma informação de um site, você está sujeito a estrutura que o criador desenvolveu.

 

Se o criador começou com tabelas e ao longo do tempo de vida do ste se aprimorou para Tableless, cabe a você com um tipo menos agressivo de "leecher" se adaptar para continuar oferecendo aos SEUS usuários tal conteúdo.

 

Se essa informações viessem de um WebService e houvesse uma API bem desenvolvida, a situação seria o oposto, onde o desenvolvedor seria responsável por, feita a primeira estrutura, continuar sempre oferecendo o mesmo recurso com mínimo de intervenção para o usuário.

Compartilhar este post


Link para o post
Compartilhar em outros sites

a solução é simples

entre em contato com o site, assim eles lhe entrgam o pacote de informação correto

 

sem isso será apenas uma copia sem autorização <_<

 

Não, senhor. Cópia seria se ele reproduzisse em algum outro lugar o conteúdo que ele extraiu, se a informação está na internet, disponível para todos, então ela é pública (Você não pode copiar sem autorização, mas não precisa de autorização para extrair).

 

Alguns sites, como o IMDb, por exemplo, proíbem em seus Termos de Uso a utilização de rôbos para screen scraping/data mining, mas aqui é outra história, nada a ver com direitos autorais pois não estamos falando ainda de reprodução/cópia de material, mas sim de uso do site. Então se o site que ele quer colher informações não proíbe em seus termos de uso a extração dessas informações, ele pode fazê-lo se essa informação estiver disponível.

Compartilhar este post


Link para o post
Compartilhar em outros sites

a solução é simples

entre em contato com o site, assim eles lhe entrgam o pacote de informação correto

 

sem isso será apenas uma copia sem autorização <_<

 

Não, senhor. Cópia seria se ele reproduzisse em algum outro lugar o conteúdo que ele extraiu, se a informação está na internet, disponível para todos, então ela é pública (Você não pode copiar sem autorização, mas não precisa de autorização para extrair).

 

cópia é cópia... reprodução é reprodução

 

 

Então se o site que ele quer colher informações não proíbe em seus termos de uso a extração dessas informações, ele pode fazê-lo se essa informação estiver disponível.

sim, seria em carater de webservice como citei acima

Compartilhar este post


Link para o post
Compartilhar em outros sites

@criatividade zero

 

Sobre direitos autorais, qual a diferença entre cópia e reprodução?

Até onde eu sei, cópia você se abstém de citar a fonte.

Compartilhar este post


Link para o post
Compartilhar em outros sites

Onde?

 

Se for o buscador, ele reproduz parte do conteúdo do site com base na(s) palavra(s) buscadas mas indireatmente cita a fonte em forma de URL, logo abaixo, de verde.

Compartilhar este post


Link para o post
Compartilhar em outros sites

Mas o Google não faz isso?

 

Pois é... o @criatividade zero deve considerar o Google o maior pirateiro da web então.

Compartilhar este post


Link para o post
Compartilhar em outros sites

viro topico sobre ética de copia de conteúdo???

 

ajudem o rapaz ai ;)

 

Já ajudamos! Ou melhor... não tem como ajudar já que o que ele quer seria uma espécie de Classe Vidente que adivinhasse quais seriam as alterações que o autor do site faria no futuro.

 

 

Uma outra maneira seria:

- Primeiramente extrair o texto (sem tags HTML) de uma página e em seguida

- usar Expressões Regulares para localizar o conteúdo desejado baseando-se em um padrão.

 

Mas isso pode ficar muito confuso, pois algumas informações tem o mesmo padrão e seria difícil diferenciá-las sem ter de usar algum elemento HTML como referência. Como por exemplo o nome de uma pessoa e um topônimo. Daria menor trabalho fazer as alterações no código do scraper quando (e se) ocorrer uma mudança no layout do site alvo.

Compartilhar este post


Link para o post
Compartilhar em outros sites

Mas o Google não faz isso?

 

Pois é... o @criatividade zero deve considerar o Google o maior pirateiro da web então.

Google, Yahoo, Bing, ou qq outro mecanismo de busca DECENTE, apenas varre os sites neles cadastrados ou os que não contem a tag de impedimento

 

 

Sobre direitos autorais, qual a diferença entre cópia e reprodução?

você pode copiar TUDO que quiser, contanto que não use com fins comerciais

citação de fonte não torna a copia legal

 

 

<table id="cliente"><tr><td>Nome:</td><td>João</td></tr></table>

é nitida a intenção do autor do topico em pegar parte do conteudo do site, diferente de usar um meio para capturar as metatags de sites cadastrados na database dele

se fosse um acordo unilateral, o conteudo seria servido em webservice e não gambiarra como citado

Compartilhar este post


Link para o post
Compartilhar em outros sites

Para encerrar minha participação nesse tópico:

 

No meu (leigo) entender:

A cópia só se caracteriza quando a informação é reproduzida em outro lugar, quer com fins comerciais ou não, citando a fonte ou não, se está violando o direito do autor. A legislação brasileira permite que se copie notícias de jornais, desde que citada a fonte, mas as outras coisas protegidas pela Lei de Direitos autorais só com autorização.

No entanto, a mera extração de informações, que não serão reproduzidas, mas sim usadas para outros fins (pesquisa, montagem de informações estratégicas, etc), não é cópia.

 

É perfeitamente legal que um proprietário de uma loja virtual use robôs para vasculharem os sites concorrentes em busca das ofertas e preços que eles praticam. Com essas informações, ele poderá saber se os seus preços estão abaixo ou acima dos da concorrência e a partir daí desenvolver uma política de preços mais eficaz. Desde que, claro, o acesso de robôs não seja vedado pelos proprietários desses sites.

 

Em outras palavras, a atividade de scraping não é regulada pela legislação de direito autoral, mas pelos termos de uso do site alvo. Se ele proíbe, então não pode.

 

Portanto, não há violação de direitos autorais no uso de scrapers. Caso se ignore proibição do uso de robôs nos “termos de uso”, então houve uma invasão de propriedade privada.

 

 

Ilustração: Caso Feist vs. Rural

 

O famoso caso Feist Publications, Inc., v. Rural Telephone Service Co., geralmente chamado apenas de Feist v. Rural foi um caso julgado pela Suprema Corte dos Estados Unidos no qual o réu Feist havia copiado informações da lista telefônica publicada pela Rural com o objetivo de incluí-las na sua própria. A Rural, por sua vez, ao ser contatada pela Feist, se recusou a licenciar a informação. Em 9 de janeiro de 1991 a Rural entrou com uma ação judicial contra a Feist por infração de direitos autorais. Em 27 de março do mesmo ano a Corte decidiu que a proteção aos direitos autorais não se aplicavam a informação contida na lista, e que, portanto não existiu infração alguma.

 

Desde então, tribunais americanos têm entendido que os usuários de “scrapers” ou “robots” podem ser acusados de cometer o delito de invasão de propriedade (trespass to chattels) uma vez que os servidores do site alvo sejam propriedade privada de outrem que os scrapers invadem.

 

Fonte:

http://en.wikipedia.org/wiki/Web_scrape

Compartilhar este post


Link para o post
Compartilhar em outros sites

A cópia só se caracteriza quando a informação é reproduzida em outro lugar, quer com fins comerciais ou não, citando a fonte ou não, se está violando o direito do autor.

 

você esta errado

 

 

Capítulo IV

Das Limitações aos Direitos Autorais

 

Art. 46. Não constitui ofensa aos direitos autorais:

 

II - a reprodução, em um só exemplar de pequenos trechos, para uso privado do copista, desde que feita por este, sem intuito de lucro;

 

III - a citação em livros, jornais, revistas ou qualquer outro meio de comunicação, de passagens de qualquer obra, para fins de estudo, crítica ou polêmica, na medida justificada para o fim a atingir, indicando-se o nome do autor e a origem da obra;

 

 

sempre parcial, nunca total

Compartilhar este post


Link para o post
Compartilhar em outros sites

Mas o Google não faz isso?

 

Pois é... o @criatividade zero deve considerar o Google o maior pirateiro da web então.

Google, Yahoo, Bing, ou qq outro mecanismo de busca DECENTE, apenas varre os sites neles cadastrados ou os que não contem a tag de impedimento

Não faz sentido esse seu comentário. Dessa forma, cada busca, de cada usuário abriria uma requisição em cada site cadfastrado no buscador para buscar o termo desejado.

 

Os buscadores varrem sim, assim como também copiam parte do (ou todo) conteúdo para que essa busca não estoure abanda de ninguém.

 

Eles estão constantemente varrendo os sites em busca de atualizações, para que mantenham um catálogo em ordem.

 

<table id="cliente"><tr><td>Nome:</td><td>João</td></tr></table>

é nitida a intenção do autor do topico em pegar parte do conteudo do site, diferente de usar um meio para capturar as metatags de sites cadastrados na database dele

se fosse um acordo unilateral, o conteudo seria servido em webservice e não gambiarra como citado

Já te passou pela cabeça que esse pode ter sido um exemplo fictício para mascarar a real intenção?

 

Eu mesmo, aqui no fórum, quando tenho um problema X, desenvolvo outro Y inteirinho com todas as características de X para que eu obtenha a resposta desejada (se possível) sem divulgar a real intenção que tenho.

 

Claro, sempre fui "o bom moço" e nunca perguntei nada para nada errado, mas cada um é a cada um né...

Compartilhar este post


Link para o post
Compartilhar em outros sites

Onde?

 

Se for o buscador, ele reproduz parte do conteúdo do site com base na(s) palavra(s) buscadas mas indireatmente cita a fonte em forma de URL, logo abaixo, de verde.

 

Eu sei...estava apenas brincando!

^_^

Compartilhar este post


Link para o post
Compartilhar em outros sites

×

Informação importante

Ao usar o fórum, você concorda com nossos Termos e condições.