{VotoEletronico} Site do voto em outras linguas

C Brito Sun, 07 Oct 2007 01:07:41 -0700

Amigos,

Respondendo a um amigo, aqui reproduzo esta resposta pois meus amigos
do voto estão falando em fazer o site em outras linguas, e de acordo
com o novo algoritmo do Google, isso podera colocar esse seu site no
sandbox (caixa de areia = sua audiencia morrera).


Keywords (palavras-chaves) Google (e Yahoo e MSN) nao usam mais isso,
ha uns 12 meses!

Antigamente o ranking (a posicao de um site, nos resultados do Google)
era baseado nos seus 104 (super-secretos) argoritmos. UM deles (o mais
mencionado, pelos leigos) eram as keywords. Ele continua com os 104,
mas nao mais o das keywords, que foi substituida pelo LSI.

Voce queria comprar cavalos, procurava por "cavalos comprar", e ele
selecionava os milhares ou milhoes de sites que tinham essa keyword. E
"nos resultados" vinham tambem os dos outros 103 algoritmos.
Resultados "sujos", pois voce so queria comprar cavalos, mas vinham
cavalos brancos da Espanha, clube de cavalos de Moscow, alimentacao
dos cavalos na India, vote no melhor cavalo dos Estados Unifdos, etc.
O LSI elimina essa sujeira, ainda parcialmente mas podera ir ate o
total, veremos mais adiante.

Como os amigos sabem, durante 2 anos, eu desenvolvi um programa de
analise do conteudo de um texto, e desde entao meus sistemas o usam
automaticamente toda noite, inclusive para procurar na Internet e
fazer novas licoes, escrever artigos sobre um assunto, e outras. Hoje
- ja totalmente depurado - funciona 100%, e ate as vezes me
impressiona/surprende. Como entao disse, o Google estava muito atras
disso (com suas "keywords"), e ele nao podia fazer o mesmo que eu,
porque o sistema depende fundamentalmente do "assunto" envolvido, e eu
so trabalho com 16 assuntos (os dos meus 16 MBAs) e o Google com
milhoes. Assim, embora ele reconheca que analise de conteudo é a UNICA
possibilidade dele não morrer tecnicamente, não pode faze-lo. E tambem
nao podia continuar com as "keywords", cada vez mais isso lhe traria
problemas e no futuro, certamente a "morte" tecnica.

Ha 12 meses o Google incluiu nos seus algoritmos mais um, que é um
meio termo entre o meu sistema e o dele: o LSI, Latent Semantic Index.

Nao podendo analisar um conteudo, ele decidiu criar uma similaridade
semantica (uma "impressão digital") entre 2 textos (frases,
"espacos"), seja de uma pagina ou de um site. E o usa para 2
finalidades:

1. Fazer melhores pesquisas (sem a "sujeita" das antigas),

2. Comparar 2 paginas ou sites, para ver se existem duplicatas e penaliza-las.

Eu nao sei se voces se lembram, no passado, se voce procurava por meus
MBAs, vinham dezenas de respostas: na posicao 1, na idem 7, na idem
25, etc. Alias, eu estava na 6a. posicao dentro de 40.000.000 de sites
concorrentes... Sites/paginas diferentes, MAS DA MESMA COMPANHIA.
Hoje, aparece somente UM, por causa do LSI. Como o Google quer, e
obviamente melhor para ele (resultados mais limpos, melhor computacao,
menor banco de dados, computacao - dele - mas rapida).

O que ele faz: Usando a "sua" keyword (a de voce), ele seleciona os
primeiros 100 sites. E aplica o algoritmo do LSI nessas 100 paginas do
resultado parcial, criando o resultado final mais "puro" e sem
repeticoes de sites/paginas. Ou seja, eliminou as duplicatas, sejam
elas de companhias diferentes, de sites diferentes e ate com layouts
diferentes, etc.

O sistema ainda tem muitos problemas, mas agora que eles comecaram com
o LSI, irao melhora-lo pouco a pouco, essa es a tendencia natural em
desenvolvimento de software.

O LSI existe ha uns 10 anos, para procurar/identificar documentos
(dentro de uma grande quantidade, se necessario). Es um modelo
matematico (complexo) que, examinando um documento, usa um VETOR para
criar um "espaço", ou seja, uma especie de impressão digital do
documento, ou "uma frase" de LSI, um "espaço" representando uma
digital. Ora, documentos sobre o mesmo assunto provavelmente terão
impressoes digitais "parecidas", ou sejam conteudos semanticos
"iguais". A impressão digital não é a minha analise de conteudo, mas
para os efeitos desejados pela Google ela serve. Ela nao faz o que a
minha analise faz (escrever artigos, procurar/selecionar/escrever
licoes, etc), mas o Google nao precisa dessas profundidades pois so
deseja comparar "impressoes digitais".

Na realidade, o LSI é uma das formas de Data Mining, uma das
principais materias da Inteligencia Artificial (um dos meus MBAs es de
Business Intelligence, com inteligencia artificial e data mining). Ao
contrario do que voce pode imaginar, o LSI tem alta precisao.

=================== CONSEQUENCIAS ====================

Nao se fazia mais UM site, mas sim centenas/milhares. Melhorava o
ranking, numa pesquisa. Tambem nao mais se faz um site "MANUAL", mas
sim automatico, existem muitos programas para isso. Eu nao os uso,
pois tinha necessidade de automacoes, etc., e ha anos fiz o meu
proprio sistema. Hoje ele faz um novo site com 2.000 paginas, em 25
minutos, e com todas as 2.000 paginas diferentes entre si, com
conteudos (textos) diferentes entre si (e agora, vai fazer com LSIs
diferente, estou terminando essa modificação, ja esta funcionando
ainda sem o debug).

Mas com o LSI o Google facilmente vera que aquele site antigo por
keywords é igual a outro site, embora eles tenham textos e layouts
diferentes... Em outras palavras, nao serve mais, ele agora
penalizara. Por isso o modifiquei nos ultimos 3 meses, e agora ele
continua fazendo o mesmo porem MAIS imune ao LSI da Google.

A solucao que eu encontrei foi simples. NAO PARA RESOLVER O PROBLEMA
MAS PARA MINIMIZA-LO. Se ele compara a impressao digital, é so voce
fazer sites com impressoes digitais diferentes. Como? Voce vai fazer o
site 1 (no meu sistema). Voce tem as keywords que sao necessarias (por
exemplo, a "online MBA" é uma delas. Peço (tudo sem interferencia
humana, automatico) ao meu sistema as LSI dessa keyword. Agora, faz as
1000 paginas com essas LSIs.

Agora, voce vai fazer o site 2. Repita, porem com a keyword "curso
business administration" ou outra.

Pronto, o Google nao detectara a duplicidade dos 2 sites, eles terao
LSIs diferentes.

Eu inclui no meu sistema a funcao "criar uma LSI" que corresponde a
uma (ou varias) keywords, e ele consulta o banco de dados do Google,
ou seja, sao as LSI do Google, portanto operacionalmente as "reais".
Eu tenho o meu proprio codigo (API) para consulta DIRETA aos bancos de
dados do Google, os "raw", nao confundir com as pesquisas. O Google
permite, nao importando o que voce vai fazer com os dados; e tem muita
gente ganhando dinheiro com esses dados "raw", eles servem para uma
infinidade de novos negocios.

Por curiosidade, va no http://quintura.com, é um search engine que faz
pesquisas somente em LSI (Inteligencia Artificial). Procure
"management", e na resposta, na coluna da esquerda, voce tem as opcoes
(os LSI) relacionados com management.

Por exemplo, a LSI (impressao digital) obtida pelo meu sistema com a
keyword "online MBA courses" es:

Online
MBA
management
Business
Master of Business Administration
~MBA
Mortgage Bankers Association
business management
business school
Business School MBA
Courses
Training
Training Courses
Education
schools
course
classes
degree courses
Training Course
Education's

Se voce analizar direito, vai ver que essas palavras sao realmente as
palavras que voce vai encontrar num site/pagina sobre MBAs online.
Essas palavras sao a impressao digital do site 1 (o seu LSI).

Mas se voce procurar a LSI da keyword "correspondence MBA", tera a
seguinte "impressao digital":

Correspondence
Correspondent
Letters
MBA
management
Business
Master of Business Administration
~MBA
Mortgage Bankers Association
business management
business school
Business School MBA

Essa impressao digital do site 2, es quase igual, MAS DIFERENTE do
site 1. E o Google concluira que sao 2 sites diferentes, e nao os
penalizara.

O otimo seria voce criar 1000 sites, com 1000 LSIs diferentes.

Obviamente, para criar 1000 sites com 1000 LSIs diferentes, em menos
de um mes, voce precisaria de uma coisa igual ao meu sistema,
manualmente nem em 2 anos voce o faria (1000 sites dara umas 40.000
paginas...).

Nao es somente isso, tem muitas outras coisas, mas eu quero explicar
somente os LSI.

Esqueca TUDO (sem excecao) que ensinam no Brasil, sobre fazer sites
com keywords apropriadas, etc. Agora, isso lhe remetera para o fim da
lista de um resultado de pesquisa (morre...).

Es possivel fazer um site para LSI? NAO. Voce pode "melhorar" o site
de varias maneiras, para que o modelo do Google "ache" um melhor LSI
para o seu site/paginas, ache diferencas - e nao duplicatas - entre os
multiplos sites, etc. O que acima descrevo sao coisas obvias que nao
podem prejudicar, mas nao es uma receita de bolo que, satisfeita,
resolva o problema.

Adicionalmente, no texto abaixo tem: And, it is the only known method
for cross-language retrieval that does not require translation of user
queries or information --- using LSI, queries in one language can
effectively retrieve information in the same or different languages.

O autor nao foi feliz com essa frase pois da margem a um entendimento
errado, vou traduzi-la pela patente, pois é aqui que o voto secreto
podera "desaparecer" com as outras linguagens que pretende fazer. Ele
esta dizendo que podemos fazer LSI usando diferentes linguages, mas no
modelo matematico (o algoritmo do LSI) eu nao vejo isso.

1.Uma coisa es fazer lSI em outra lingua (ex: Alemao). Funciona 100%.

2. Outra coisa (e PARECE que ele diz isso), es fazer LSI entre duas
paginas, uma Portugues e outra Ingles, eu nao vejo como e estou
consultando um amigo que pode me responder, pelo algoritmo acho
impossivel, vamos ver.

Mas de qualquer modo, minha sugestao abaixo para o site do voto, vale
nessas duas hipoteses acima, ate mesmo a 2.

Isso diz que LSI é o unico metodo para obter informacoes sem
necessidade de traduzir suas keywords, ou seja ele PODE ser usado em
outras linguagens. E dai? Quando voce traduz um site, obviamente ele é
igual ao original em Ingles, apenas em outra lingua. Nao é mais como
no passado, que voce criava um site que era copia do seu (de
"management" por exemplo), e quem digitava management em alemao ia
para o seu site e o Google nao podia evitar essa duplicacao. Agora
pode... e pior, penaliza seu site e sua audiencia (a de primeira vez)
desaparecera.

Quem quer ver o pedido da patente, esta aqui:
http://www.patentstorm.us/patents/6954750-claims.html

E entao, o que o voto devera fazer?

Vamos comparar o seu site em Portugues, com 10 paginas diferentes, e
voce fez mais 3 sites em outras 3 linguagens: Ingles, Frances e
Alemao.

O algoritmo do Google "pega" o seu LSI em Portugues, e faz o seu LSI.
E as outras paginas devem ter um LSI parecido (no minimo 10% para dar
relevancia, e um maximo de 50% para nao parecer ser "stuffing" o que
ele penaliza). E o Google fez isso no index, criou a LSI DO SITE, e
vai procurar nas outras suas 9 paginas em Portugues se elas tem esse
LSI parecido. Se tem, sua audiencia aumenta, se nao tem, ele conclue
que essas 9 paginas "nada tem a ver com a LSI de cavalos que ele criou
com o index", e nao as usa para dar maior relevancia (audiencias) ao
seu site. Tecnicamente, o seu site sera somente o index, e desaparece
nos resultados de uma pesquisa.

Como resolver: Como eu expliquei acima, primeiro fazer um LSI para cada pagina:

Pagina 1, index: online MBA (e mais as 2 dezenas de LSI relacionadas)

Pagina 2, crm online MBA (e mais as 2 dezenas de LSI relacionadas)

E assim por diante. Assim, ele "concluira" que todos os LSI das 10
paginas tem relevancia entre si (minimo 10% maximo 50%).

E as suas 3 outras linguas? Com essa explicacao acima, agora voce vai
entender o que eu vou dizer. Pagina 1 em Portugues, tem o LSI "x".
Pagina 1 em Ingles, NAO TEM o LSI "x" pela razao obvia de que as
palavras/frases sao OUTRAS! Comparacao = ZERO.

Como resolver? Nao faça como essa totalidade de sites brasileiros
fazem: O site em Portugues, e o site igual em Ingles JUNTOS, pois
criara o problema acima. Em outras palavras, para CADA lingua faca um
site TOTALMENTE independente (em outro local), por exemplo em Alemao e
entao voce tera um aumento da sua audiencia pois o seu Index es em
alemao, e suas outras 9 paginas sao em Alemao, ou seja, terao (EM
ALEMAO) as LSI relevantes em alemao.

Eu vou ajuda-los: Me digam quais as suas (provaveis) 10 paginas em
Portugues e eu pensarei o que deve ser feito. Meu programa so cria as
LSI em Ingles, eu nunca tentei em Portugues (nao trabalho em
Portugues), tentarei mas nao posso promete-las. Acho que sim pois o
LSI INDEPENDE da lingua usada, mas como meu programa consulta (por
API) o database raw do Google e se ele nao tiver o LSI em Portugues?
Acho que devera ter (pelas carcteristicas do LSI), mas terei que
testar. Uma das coisas boas do LSI es que ele podera trabalhar em
qualquer lingua, para criar a impressao digital. Confirmando o que eu
penso, consultei agora o database raw do Google (com o meu codigo API)
e ele respondeu com as seguintes LSI:

Com "voto eletronico" ele deu:

VOTO
VoTo's
Eletronico
Eletrônico

(veja que diferencia eletronico com e sem acento)

E com "voto eletronico Brasil" ele deu:

VOTO
VoTo's
Eletronico
Eletrônico
~brasil
Brasil
Brasil's

E com "voto eletronico Brazil" ele deu:

VOTO
VoTo's
Eletronico
Eletrônico
Brazil
Brazilian
Brazil's
B r a z i l

Veja esse ultimo Brazil, com um espaco entre as letras. Voce nunca
pensaria nisso... Conclusao: As keywords a serem pesquisadas tem que
ser melhor pensadas/elaboradas, so vendo as paginas .htm es que eu
posso concluir com certeza.

E com "electronic vote Brazil" ele deu:

Electronic
email
Music
~electronic
Digital
Computer
Electron
Electronica
digital music
Electronics
electric
Voting
Vote
~vote
votes
election
Campaign
rate
election campaign
Brazil
Brazilian
Brazil's
B r a z i l

Ele incluiu "music", deve ter alguma com essa frase... Nao importa, es
mais audiencia para o site.

Um abraco,
Melo

Para os tecnicos, sobre o LSI:
------------------------------

The main reasons for missing relevant information is that there are
surprisingly many different ways to describe the same idea or concept.
If a document author uses one word and a searcher another, relevant
materials will be missed. A query about "laptop" computers, for
example, will fail to find articles about "portable" or "lightweight"
or "notebook" or "palmtop" or "ThinkPad" computers. Searchers and
authors alike find it very difficult to anticipate the many ways in
which the same idea might be described. By automatically constructing
a semantic or concept space, LSI enables users to find relevant
information even when it shares no words with their queries. It
requires no additional work by either the searcher to painstakingly
describe their needs or by the content provider to carefully handcraft
a thesaurus or knowledge base.

LSI uses a powerful and fully automatic statistical method (singular
value decomposition) to uncover the associations among terms in a
large collection of texts, to create a semantic or concept space, and
to exploit this to improve retrieval. As noted above, LSI is 30% more
effective than popular word-matching methods in helping users find
relevant information (e.g., Deerwester et al., 1990; Dumais, 1995).
Roughly speaking, by analysis of a collection of texts, LSI will learn
that "laptop" and "portable" occur in many of the same contexts, and
that queries about one should probably retrieve documents about the
other. Unlike hand-crafted knowledge bases or thesauri, LSI is
completely automatic and widely applicable. It can handle multimedia
descriptions, marketing brochures, trouble reports, email messages, or
World Wide Web URLs with equal ease. In addition to it overall
retrieval benefits, LSI is uniquely applicable to improving
information access when:

    * high recall is necessary (e.g., matching new problems against a
database of existing trouble reports and solutions, data mining
efforts, law, medicine, research);
    * text descriptions are short (e.g., figure captions, multimedia
information, ads);
    * user input or texts are noisy (e.g., pen or OCR input); and
    * there is a need to retrieve information in multiple languages
without requiring translation of queries or documents.

LSI can be used in all these applications with no modifications to the
existing algorithms. It can be used both to answer specific
information requests and to monitor new information for more stable
user interests. Because LSI can retrieve relevant information that
does not contain query words, it finds more relevant information than
other methods. Similarly, because it does not rely on literal
matching, it can be used when the available textual information or
user queries are short or noisy. And, it is the only known method for
cross-language retrieval that does not require translation of user
queries or information --- using LSI, queries in one language can
effectively retrieve information in the same or different languages.

--~--~---------~--~----~------------~-------~--~----~
__________________________________________________

O texto acima e' de inteira e exclusiva responsabilidade de seu
autor, conforme identificado no campo "remetente", e nao
representa necessariamente o ponto de vista do Forum do Voto-E

O Forum do Voto-E visa debater a confibilidade dos sistemas
eleitorais informatizados, em especial o brasileiro, e dos
sistemas de assinatura digital e infraestrutura de chaves publicas.
__________________________________________________
Pagina, Jornal e Forum do Voto Eletronico
        http://www.votoseguro.org
__________________________________________________

Você recebeu esta mensagem porque está inscrito no Grupo "VotoEletronico" em 
Grupos do Google.
 Para postar neste grupo, envie um e-mail para [email protected]
 Para cancelar a sua inscrição neste grupo, envie um e-mail para [EMAIL 
PROTECTED]
 Para ver mais opções, visite este grupo em 
http://groups.google.com/group/votoeletronico?hl=pt-
-~----------~----~----~----~------~----~------~--~---

{VotoEletronico} Site do voto em outras linguas

Responder a