En este caso, aunque no es tan común su optimización, me gustaría compartir algunos consejos que podemos llevar a cabo para optimizar nuestro contenido pdf en buscadores.
Es cierto que, en general, los buscadores tienen problemas para posicionar pdfs porque en la mayoría de las ocasiones, estos suelen contener sólo elementos multimedia (principalmente imágenes), y no texto, por lo que no suelen indexarlos como sí lo haría con un html de texto plano.
Sin embargo, cada vez más, los buscadores se han sofisticado en el rastreo e indexación, y en ocasiones, el texto que acompaña a estos elementos puede ser suficiente para indexarlos y posicionar el fichero pdf bajo la keyword principal. En el caso de los pdf, es cierto que además Google tiene la capacidad de seguir los enlaces que se encuentren dentro y de otorgarles autoridad.
Como cualquier página en términos de SEO (y en general en UX), se recomienda optimizar el título de la misma (además del título del fichero en sí), incluyendo las principales palabras clave. De alguna forma, sería como tratar estos documentos al igual que lo harías para un artículo de tu blog.
En ocasiones es cierto que puede darse el caso que incluso un archivo pdf con estado 200, posicione por encima de un artículo o url del mismo site para la misma palabra clave, de tal forma que se produce una canibalización en términos de visibilidad (el tráfico en principio quedaría sobre el mismo site). Y es que para Google por ejemplo, se hace complicado saber qué tipo de página o documento, resuelve mejor la intención de búsqueda del usuario.
Uno de los consejos o tips donde puedes ver si tu sitio tiene problemas de duplicidades con estos archivos, es a través de la herramienta Search Console en el apartado de Cobertura – Exclusión – Duplicadas.
Estructura del contenido
Optimización a través de la etiqueta rel=»canonical»
Otro de los consejos de optimización podría ser el de incluir en el encabezo del archivo, la etiqueta rel=canonical apuntando hacia sí misma, o bien apuntando a una url que contenga contenido en texto plano (ejemplo artículo) y que queramos priorizar en su posicionamiento. Ya que los pdfs no tienen como objetivo la conversión/monetización, si no de apoyo a un contenido (normalmente son guías, etc.).
No indexar los ficheros PDFs a través de la cabecera HTTP
Si por otro lado, tu decisión es evitar que Google pueda indexar este tipo de documentos, la solución quizás más efectiva sería incluir dentro del X-Robots la meta etiqueta «noindex» en la cabecera HTTP.
Para hacer esta modificación, tendrías que ir a tu cPanel y en la parte de Administrador de Archivos, activar en Configuración la opción de «Mostrar archivos ocultos (dotfiles)«, y después de acceder al public.html podrás ver el .htaccess y editarlo.
Sería incluir la siguiente línea, de forma que quedaría la cabecera de esta forma (aquí puedes acceder a la documentación de Google tanto si usas Apache como NGINX):
### PDF files start ###
<Files ~ "\.pdf$">
Header set X-Robots-Tag "noindex, nofollow"
</Files>
### PDF files end ###
De tal forma que quedaría así, ANTES y DESPUÉS:
Si quieres acelerar el proceso de desindexación de estos archivos en Google, puedes forzarlo usando la herramienta de solicitud de eliminación de URL en Google a través de la propiedad de tu dominio.
Evitar el rastreo de estos ficheros PDFs a través del robots.txt
También puedes indicarles a los buscadores a través del archivo robots.txt que no quieres que estos archivos sean rastreados, filtrando el path donde estén alojados esos archivos en el dominio mediante la directiva disallow…
Aquí te comparto el post que publiqué sobre cómo crear el fichero robots.txt a través de cPanel y cómo configurarlo.
Disallow: /*.pdf$