Amigos, Respondendo a um amigo, aqui reproduzo esta resposta pois meus amigos do voto estão falando em fazer o site em outras linguas, e de acordo com o novo algoritmo do Google, isso podera colocar esse seu site no sandbox (caixa de areia = sua audiencia morrera).
Keywords (palavras-chaves) Google (e Yahoo e MSN) nao usam mais isso, ha uns 12 meses! Antigamente o ranking (a posicao de um site, nos resultados do Google) era baseado nos seus 104 (super-secretos) argoritmos. UM deles (o mais mencionado, pelos leigos) eram as keywords. Ele continua com os 104, mas nao mais o das keywords, que foi substituida pelo LSI. Voce queria comprar cavalos, procurava por "cavalos comprar", e ele selecionava os milhares ou milhoes de sites que tinham essa keyword. E "nos resultados" vinham tambem os dos outros 103 algoritmos. Resultados "sujos", pois voce so queria comprar cavalos, mas vinham cavalos brancos da Espanha, clube de cavalos de Moscow, alimentacao dos cavalos na India, vote no melhor cavalo dos Estados Unifdos, etc. O LSI elimina essa sujeira, ainda parcialmente mas podera ir ate o total, veremos mais adiante. Como os amigos sabem, durante 2 anos, eu desenvolvi um programa de analise do conteudo de um texto, e desde entao meus sistemas o usam automaticamente toda noite, inclusive para procurar na Internet e fazer novas licoes, escrever artigos sobre um assunto, e outras. Hoje - ja totalmente depurado - funciona 100%, e ate as vezes me impressiona/surprende. Como entao disse, o Google estava muito atras disso (com suas "keywords"), e ele nao podia fazer o mesmo que eu, porque o sistema depende fundamentalmente do "assunto" envolvido, e eu so trabalho com 16 assuntos (os dos meus 16 MBAs) e o Google com milhoes. Assim, embora ele reconheca que analise de conteudo é a UNICA possibilidade dele não morrer tecnicamente, não pode faze-lo. E tambem nao podia continuar com as "keywords", cada vez mais isso lhe traria problemas e no futuro, certamente a "morte" tecnica. Ha 12 meses o Google incluiu nos seus algoritmos mais um, que é um meio termo entre o meu sistema e o dele: o LSI, Latent Semantic Index. Nao podendo analisar um conteudo, ele decidiu criar uma similaridade semantica (uma "impressão digital") entre 2 textos (frases, "espacos"), seja de uma pagina ou de um site. E o usa para 2 finalidades: 1. Fazer melhores pesquisas (sem a "sujeita" das antigas), 2. Comparar 2 paginas ou sites, para ver se existem duplicatas e penaliza-las. Eu nao sei se voces se lembram, no passado, se voce procurava por meus MBAs, vinham dezenas de respostas: na posicao 1, na idem 7, na idem 25, etc. Alias, eu estava na 6a. posicao dentro de 40.000.000 de sites concorrentes... Sites/paginas diferentes, MAS DA MESMA COMPANHIA. Hoje, aparece somente UM, por causa do LSI. Como o Google quer, e obviamente melhor para ele (resultados mais limpos, melhor computacao, menor banco de dados, computacao - dele - mas rapida). O que ele faz: Usando a "sua" keyword (a de voce), ele seleciona os primeiros 100 sites. E aplica o algoritmo do LSI nessas 100 paginas do resultado parcial, criando o resultado final mais "puro" e sem repeticoes de sites/paginas. Ou seja, eliminou as duplicatas, sejam elas de companhias diferentes, de sites diferentes e ate com layouts diferentes, etc. O sistema ainda tem muitos problemas, mas agora que eles comecaram com o LSI, irao melhora-lo pouco a pouco, essa es a tendencia natural em desenvolvimento de software. O LSI existe ha uns 10 anos, para procurar/identificar documentos (dentro de uma grande quantidade, se necessario). Es um modelo matematico (complexo) que, examinando um documento, usa um VETOR para criar um "espaço", ou seja, uma especie de impressão digital do documento, ou "uma frase" de LSI, um "espaço" representando uma digital. Ora, documentos sobre o mesmo assunto provavelmente terão impressoes digitais "parecidas", ou sejam conteudos semanticos "iguais". A impressão digital não é a minha analise de conteudo, mas para os efeitos desejados pela Google ela serve. Ela nao faz o que a minha analise faz (escrever artigos, procurar/selecionar/escrever licoes, etc), mas o Google nao precisa dessas profundidades pois so deseja comparar "impressoes digitais". Na realidade, o LSI é uma das formas de Data Mining, uma das principais materias da Inteligencia Artificial (um dos meus MBAs es de Business Intelligence, com inteligencia artificial e data mining). Ao contrario do que voce pode imaginar, o LSI tem alta precisao. =================== CONSEQUENCIAS ==================== Nao se fazia mais UM site, mas sim centenas/milhares. Melhorava o ranking, numa pesquisa. Tambem nao mais se faz um site "MANUAL", mas sim automatico, existem muitos programas para isso. Eu nao os uso, pois tinha necessidade de automacoes, etc., e ha anos fiz o meu proprio sistema. Hoje ele faz um novo site com 2.000 paginas, em 25 minutos, e com todas as 2.000 paginas diferentes entre si, com conteudos (textos) diferentes entre si (e agora, vai fazer com LSIs diferente, estou terminando essa modificação, ja esta funcionando ainda sem o debug). Mas com o LSI o Google facilmente vera que aquele site antigo por keywords é igual a outro site, embora eles tenham textos e layouts diferentes... Em outras palavras, nao serve mais, ele agora penalizara. Por isso o modifiquei nos ultimos 3 meses, e agora ele continua fazendo o mesmo porem MAIS imune ao LSI da Google. A solucao que eu encontrei foi simples. NAO PARA RESOLVER O PROBLEMA MAS PARA MINIMIZA-LO. Se ele compara a impressao digital, é so voce fazer sites com impressoes digitais diferentes. Como? Voce vai fazer o site 1 (no meu sistema). Voce tem as keywords que sao necessarias (por exemplo, a "online MBA" é uma delas. Peço (tudo sem interferencia humana, automatico) ao meu sistema as LSI dessa keyword. Agora, faz as 1000 paginas com essas LSIs. Agora, voce vai fazer o site 2. Repita, porem com a keyword "curso business administration" ou outra. Pronto, o Google nao detectara a duplicidade dos 2 sites, eles terao LSIs diferentes. Eu inclui no meu sistema a funcao "criar uma LSI" que corresponde a uma (ou varias) keywords, e ele consulta o banco de dados do Google, ou seja, sao as LSI do Google, portanto operacionalmente as "reais". Eu tenho o meu proprio codigo (API) para consulta DIRETA aos bancos de dados do Google, os "raw", nao confundir com as pesquisas. O Google permite, nao importando o que voce vai fazer com os dados; e tem muita gente ganhando dinheiro com esses dados "raw", eles servem para uma infinidade de novos negocios. Por curiosidade, va no http://quintura.com, é um search engine que faz pesquisas somente em LSI (Inteligencia Artificial). Procure "management", e na resposta, na coluna da esquerda, voce tem as opcoes (os LSI) relacionados com management. Por exemplo, a LSI (impressao digital) obtida pelo meu sistema com a keyword "online MBA courses" es: Online MBA management Business Master of Business Administration ~MBA Mortgage Bankers Association business management business school Business School MBA Courses Training Training Courses Education schools course classes degree courses Training Course Education's Se voce analizar direito, vai ver que essas palavras sao realmente as palavras que voce vai encontrar num site/pagina sobre MBAs online. Essas palavras sao a impressao digital do site 1 (o seu LSI). Mas se voce procurar a LSI da keyword "correspondence MBA", tera a seguinte "impressao digital": Correspondence Correspondent Letters MBA management Business Master of Business Administration ~MBA Mortgage Bankers Association business management business school Business School MBA Essa impressao digital do site 2, es quase igual, MAS DIFERENTE do site 1. E o Google concluira que sao 2 sites diferentes, e nao os penalizara. O otimo seria voce criar 1000 sites, com 1000 LSIs diferentes. Obviamente, para criar 1000 sites com 1000 LSIs diferentes, em menos de um mes, voce precisaria de uma coisa igual ao meu sistema, manualmente nem em 2 anos voce o faria (1000 sites dara umas 40.000 paginas...). Nao es somente isso, tem muitas outras coisas, mas eu quero explicar somente os LSI. Esqueca TUDO (sem excecao) que ensinam no Brasil, sobre fazer sites com keywords apropriadas, etc. Agora, isso lhe remetera para o fim da lista de um resultado de pesquisa (morre...). Es possivel fazer um site para LSI? NAO. Voce pode "melhorar" o site de varias maneiras, para que o modelo do Google "ache" um melhor LSI para o seu site/paginas, ache diferencas - e nao duplicatas - entre os multiplos sites, etc. O que acima descrevo sao coisas obvias que nao podem prejudicar, mas nao es uma receita de bolo que, satisfeita, resolva o problema. Adicionalmente, no texto abaixo tem: And, it is the only known method for cross-language retrieval that does not require translation of user queries or information --- using LSI, queries in one language can effectively retrieve information in the same or different languages. O autor nao foi feliz com essa frase pois da margem a um entendimento errado, vou traduzi-la pela patente, pois é aqui que o voto secreto podera "desaparecer" com as outras linguagens que pretende fazer. Ele esta dizendo que podemos fazer LSI usando diferentes linguages, mas no modelo matematico (o algoritmo do LSI) eu nao vejo isso. 1.Uma coisa es fazer lSI em outra lingua (ex: Alemao). Funciona 100%. 2. Outra coisa (e PARECE que ele diz isso), es fazer LSI entre duas paginas, uma Portugues e outra Ingles, eu nao vejo como e estou consultando um amigo que pode me responder, pelo algoritmo acho impossivel, vamos ver. Mas de qualquer modo, minha sugestao abaixo para o site do voto, vale nessas duas hipoteses acima, ate mesmo a 2. Isso diz que LSI é o unico metodo para obter informacoes sem necessidade de traduzir suas keywords, ou seja ele PODE ser usado em outras linguagens. E dai? Quando voce traduz um site, obviamente ele é igual ao original em Ingles, apenas em outra lingua. Nao é mais como no passado, que voce criava um site que era copia do seu (de "management" por exemplo), e quem digitava management em alemao ia para o seu site e o Google nao podia evitar essa duplicacao. Agora pode... e pior, penaliza seu site e sua audiencia (a de primeira vez) desaparecera. Quem quer ver o pedido da patente, esta aqui: http://www.patentstorm.us/patents/6954750-claims.html E entao, o que o voto devera fazer? Vamos comparar o seu site em Portugues, com 10 paginas diferentes, e voce fez mais 3 sites em outras 3 linguagens: Ingles, Frances e Alemao. O algoritmo do Google "pega" o seu LSI em Portugues, e faz o seu LSI. E as outras paginas devem ter um LSI parecido (no minimo 10% para dar relevancia, e um maximo de 50% para nao parecer ser "stuffing" o que ele penaliza). E o Google fez isso no index, criou a LSI DO SITE, e vai procurar nas outras suas 9 paginas em Portugues se elas tem esse LSI parecido. Se tem, sua audiencia aumenta, se nao tem, ele conclue que essas 9 paginas "nada tem a ver com a LSI de cavalos que ele criou com o index", e nao as usa para dar maior relevancia (audiencias) ao seu site. Tecnicamente, o seu site sera somente o index, e desaparece nos resultados de uma pesquisa. Como resolver: Como eu expliquei acima, primeiro fazer um LSI para cada pagina: Pagina 1, index: online MBA (e mais as 2 dezenas de LSI relacionadas) Pagina 2, crm online MBA (e mais as 2 dezenas de LSI relacionadas) E assim por diante. Assim, ele "concluira" que todos os LSI das 10 paginas tem relevancia entre si (minimo 10% maximo 50%). E as suas 3 outras linguas? Com essa explicacao acima, agora voce vai entender o que eu vou dizer. Pagina 1 em Portugues, tem o LSI "x". Pagina 1 em Ingles, NAO TEM o LSI "x" pela razao obvia de que as palavras/frases sao OUTRAS! Comparacao = ZERO. Como resolver? Nao faça como essa totalidade de sites brasileiros fazem: O site em Portugues, e o site igual em Ingles JUNTOS, pois criara o problema acima. Em outras palavras, para CADA lingua faca um site TOTALMENTE independente (em outro local), por exemplo em Alemao e entao voce tera um aumento da sua audiencia pois o seu Index es em alemao, e suas outras 9 paginas sao em Alemao, ou seja, terao (EM ALEMAO) as LSI relevantes em alemao. Eu vou ajuda-los: Me digam quais as suas (provaveis) 10 paginas em Portugues e eu pensarei o que deve ser feito. Meu programa so cria as LSI em Ingles, eu nunca tentei em Portugues (nao trabalho em Portugues), tentarei mas nao posso promete-las. Acho que sim pois o LSI INDEPENDE da lingua usada, mas como meu programa consulta (por API) o database raw do Google e se ele nao tiver o LSI em Portugues? Acho que devera ter (pelas carcteristicas do LSI), mas terei que testar. Uma das coisas boas do LSI es que ele podera trabalhar em qualquer lingua, para criar a impressao digital. Confirmando o que eu penso, consultei agora o database raw do Google (com o meu codigo API) e ele respondeu com as seguintes LSI: Com "voto eletronico" ele deu: VOTO VoTo's Eletronico Eletrônico (veja que diferencia eletronico com e sem acento) E com "voto eletronico Brasil" ele deu: VOTO VoTo's Eletronico Eletrônico ~brasil Brasil Brasil's E com "voto eletronico Brazil" ele deu: VOTO VoTo's Eletronico Eletrônico Brazil Brazilian Brazil's B r a z i l Veja esse ultimo Brazil, com um espaco entre as letras. Voce nunca pensaria nisso... Conclusao: As keywords a serem pesquisadas tem que ser melhor pensadas/elaboradas, so vendo as paginas .htm es que eu posso concluir com certeza. E com "electronic vote Brazil" ele deu: Electronic email Music ~electronic Digital Computer Electron Electronica digital music Electronics electric Voting Vote ~vote votes election Campaign rate election campaign Brazil Brazilian Brazil's B r a z i l Ele incluiu "music", deve ter alguma com essa frase... Nao importa, es mais audiencia para o site. Um abraco, Melo Para os tecnicos, sobre o LSI: ------------------------------ The main reasons for missing relevant information is that there are surprisingly many different ways to describe the same idea or concept. If a document author uses one word and a searcher another, relevant materials will be missed. A query about "laptop" computers, for example, will fail to find articles about "portable" or "lightweight" or "notebook" or "palmtop" or "ThinkPad" computers. Searchers and authors alike find it very difficult to anticipate the many ways in which the same idea might be described. By automatically constructing a semantic or concept space, LSI enables users to find relevant information even when it shares no words with their queries. It requires no additional work by either the searcher to painstakingly describe their needs or by the content provider to carefully handcraft a thesaurus or knowledge base. LSI uses a powerful and fully automatic statistical method (singular value decomposition) to uncover the associations among terms in a large collection of texts, to create a semantic or concept space, and to exploit this to improve retrieval. As noted above, LSI is 30% more effective than popular word-matching methods in helping users find relevant information (e.g., Deerwester et al., 1990; Dumais, 1995). Roughly speaking, by analysis of a collection of texts, LSI will learn that "laptop" and "portable" occur in many of the same contexts, and that queries about one should probably retrieve documents about the other. Unlike hand-crafted knowledge bases or thesauri, LSI is completely automatic and widely applicable. It can handle multimedia descriptions, marketing brochures, trouble reports, email messages, or World Wide Web URLs with equal ease. In addition to it overall retrieval benefits, LSI is uniquely applicable to improving information access when: * high recall is necessary (e.g., matching new problems against a database of existing trouble reports and solutions, data mining efforts, law, medicine, research); * text descriptions are short (e.g., figure captions, multimedia information, ads); * user input or texts are noisy (e.g., pen or OCR input); and * there is a need to retrieve information in multiple languages without requiring translation of queries or documents. LSI can be used in all these applications with no modifications to the existing algorithms. It can be used both to answer specific information requests and to monitor new information for more stable user interests. Because LSI can retrieve relevant information that does not contain query words, it finds more relevant information than other methods. Similarly, because it does not rely on literal matching, it can be used when the available textual information or user queries are short or noisy. And, it is the only known method for cross-language retrieval that does not require translation of user queries or information --- using LSI, queries in one language can effectively retrieve information in the same or different languages. --~--~---------~--~----~------------~-------~--~----~ __________________________________________________ O texto acima e' de inteira e exclusiva responsabilidade de seu autor, conforme identificado no campo "remetente", e nao representa necessariamente o ponto de vista do Forum do Voto-E O Forum do Voto-E visa debater a confibilidade dos sistemas eleitorais informatizados, em especial o brasileiro, e dos sistemas de assinatura digital e infraestrutura de chaves publicas. __________________________________________________ Pagina, Jornal e Forum do Voto Eletronico http://www.votoseguro.org __________________________________________________ Você recebeu esta mensagem porque está inscrito no Grupo "VotoEletronico" em Grupos do Google. Para postar neste grupo, envie um e-mail para [email protected] Para cancelar a sua inscrição neste grupo, envie um e-mail para [EMAIL PROTECTED] Para ver mais opções, visite este grupo em http://groups.google.com/group/votoeletronico?hl=pt- -~----------~----~----~----~------~----~------~--~---
