[IWETEL] [ThinkEPI] Search Analytics: cómo y qué buscan los lectores y no-usuarios

Jorge Serrano Cobos Mon, 08 Nov 2010 14:39:52 -0800

Las quejas sobre las carencias de los sistemas de búsqueda de los OPACs son
casi algo tradicional en nuestro entorno profesional [1]; si bien, como ya
se ha apuntado en esta misma lista, además de trabajar en mejorar los
algoritmos de recuperación y la presentación de los mismos a los usuarios,
podrían mejorarse los contenidos a recuperar. [2]


Cómo hacerlo es otra cuestión. Las iniciativas se multiplican en los últimos
años [3], y podemos ver desde el uso de tags para implementar la
recuperación por hojeo o browsing en Librarything [4] o Goodreads[5], cómo
Google Books añade "Rich results" [6] a sus resultados de la búsqueda de
libros (snippets), infiriendo qué buscas en concreto [7] mediante minería de
uso (web user mining) con tendencia a mostrarte la última edición
(probablemente para promover la compra online) hasta por ejemplo el uso de
linked data (dentro del movimiento de la web semántica) en RDF para
enriquecer los contenidos de los libros, por ejemplo permitiendo recuperar
libros de poemas por tipo de métrica [8] o por caracteres de ficción [9] e
incluso por libros que hablan en algún momento de un país o una ciudad [10],
lo que también se puede hacer mediante mashups con mapas [11]

Pero a la hora de enriquecer los resultados de una búsqueda, es importante
entender cómo y para qué buscan nuestros usuarios. Así, sabemos que de los 3
tipos de intencionalidad en la búsqueda más conocidos [12], el 75 % de las
búsquedas en la Web son informacionales, el 13 % navegacional y un 12%
transaccional, aproximadamente. [13] y también que en general, la mayoría de
los usuarios reformula sus búsquedas infructuosas mediante cambios en el
contenido de las mismas. [14] aunque harían falta estudios más actuales, una
vez popularizados los últimos cambios en la presentación / facetación de
resultados de los grandes buscadores de internet.

Otra cosa es que nuestros usuarios de las bibliotecas y no-usuarios actúen
igual. En cuanto a los no-usuarios que buscan en español en España, mediante
search analytics [15] podremos destacar algunos detalles curiosos de algunas
de sus cadenas de búsqueda, en este caso simplemente analizando Google
Keywords (Adwords) Tool [16]:

- Las búsquedas con errores gramaticales son muy comunes, tanto que en
ocasiones se busca más por la suma de los posibles errores que por la
palabra clave correcta. Pero Google hoy día casi elimina ese problema de las
búsquedas en internet, al corregir esos errores, y ciertos SIGB proporcionan
software del tipo “quiso decir”.

- En otras ocasiones, el usuario conoce la enorme variedad de contenidos que
se puede encontrar, y con su lenguaje natural, intenta contextualizar y
desambiguar el resultado que busca, por ejemplo en búsquedas como “el
caballero de la armadura oxidada libros”, “cien años de soledad libro”, o
“don quijote de la mancha libro”. Es decir, el usuario faceta o filtra su
búsqueda por formato, pero usando su lenguaje.

- Generalizando, se usan más los verbos en infinitivo que en otras formas
verbales (“comprar libros” más que “compra libros” o “compro libros”) pero
hay que tener en cuenta que el español es un idioma que usa la forma activa,
y al parecer, más aún en España.

- Depende de lo que se busca, hay más búsquedas que usan el plural que el
singular, o viceversa. Por ejemplo, a la hora de recuperar información
general o listas de elementos, se busca más en plural (12.100 veces al mes
de media “lecturas para niños“ frente a 8.100 veces “lectura para niños”)
 Sin embargo, si se buscan bibliotecas, para ahí comenzar la búsqueda de los
ítems que interesan, se usa más el singular, habitualmente acompañado de una
localización para desambiguar (2.740.000 veces “biblioteca” frente a 450.000
búsquedas mensuales de media para “bibliotecas”)

- Los sinónimos también deben ser tenidos en cuenta en nuestra búsqueda de
la excelencia catalogadora: hemos de preguntarnos por ejemplo, si los
usuarios buscan lo mismo en el caso de “aprendizaje lectura” (2.900 búquedas
de media) que en “enseñanza lectura” ( 1.600)

- También deberíamos ser capaces de jugar con las cartas que da el
desconocimiento de los usuarios de lo que buscan, que intentan dar un rodeo
usando los datos que sí conocen. Así, podemos encontrar a usuarios que
buscan “hogar del libro” en lugar de “casa del libro” pero más interesante
por el problema que pueden acarrear en la recuperación en un motor de
búsqueda del catálogo, “autora harry potter” (1.900 búsquedas) “romeo y
julieta autor” (1.600) “autor de la eneida” (590) Si el usuario en estos
casos lo que buscan es una lista de libros de ese autor, o información
biográfica del mismo, en el OPAC puede que como mucho les aporte el título
buscado, o ni eso si el sistema quiere encontrar TODOS los términos de la
búsqueda.

- Por último, es interesante contrastar la polisemia existente entre la
intención dada al usar nuestros encabezamientos de materia con el que tiene
quien realiza las búsquedas. Por ejemplo, cabe preguntarse cuántas de las
12.100 veces que se busca la expresión “escritores mexicanos” o de las 2.400
al mes que se busca “escritores hispanoamericanos” se hacen con la intención
de encontrar uno o más libros que estudien a los escritores
hispanoamericanos o mexicanos, o con la de encontrarse con listas de autores
con sus obras asociadas.

Al parecer, según Google y su uso extenso e intensivo del crowdsourcing
[17], pareciera que lo más probable, es lo segundo. [18]

Referencias:

[1]
http://www.alatechsource.org/blog/2006/04/how-opacs-suck-part-2-the-checklist-of-shame.html
[2] http://www.mail-archive.com/[email protected]/msg04422.html
[3] http://dialnet.unirioja.es/servlet/articulo?codigo=3065762
[4] http://www.librarything.com/work/8653840
[5] http://www.goodreads.com/shelf/top_shelves
[6]
http://thenextweb.com/google/2010/11/01/google-books-to-get-rich-results-starting-today/
[7]
http://www.theatlantic.com/technology/archive/10/11/inside-the-google-books-algorithm/65422/#
[8] http://www.freebase.com/view/book/poetic_verse_form
[9] http://www.freebase.com/view/book/book_character
[10] http://openlibrary.org/subjects/place:new_york
[11] http://www.muskiz-liburutegia.org/mapalit.html
[12] http://www.sigir.org/forum/F2002/broder.pdf
[13]
http://jimjansen.blogspot.com/2010/11/classifying-user-intent-of-web-queries.html
[14] http://citeseerx.ist.psu.edu/viewdoc/summary?doi=10.1.1.100.9448
[15] http://www.slideshare.net/jorgeserranocobos/search-analytics-2219355
[16] https://adwords.google.com/select/KeywordToolExternal
[17] http://bit.ly/aZHVXU
[18] http://bit.ly/aTbEW3

-- 
Jorge Serrano-Cobos
http://www.masmedios.com

Social:
http://es-es.facebook.com/jorgeserrano
http://www.linkedin.com/in/jorgeserranocobos
http://www.google.com/profiles/jorgeserrano
http://www.thinkepi.net

Personal:
http://twitter.com/serranocobos
http://trucosdegoogle.blogspot.com


----------------------------------------------------
Para darse de baja IWETEL pincha y envia el siguiente url
mailto:[email protected]
----------------------------------------------------

[IWETEL] [ThinkEPI] Search Analytics: cómo y qué buscan los lectores y no-usuarios

Responder a