¿Está buscando una forma de evitar que los spammers y los estafadores roben el contenido de su blog de WordPress utilizando contenido extraíble?
Es muy frustrante como propietario de un sitio web ver que alguien está robando su contenido sin permiso, monetizándolo, superando su rango en Google y robando su audiencia.
En este artículo, cubriremos qué es el scraping de contenido de blogs, cómo puede reducir y prevenir el scraping de contenido e incluso cómo aprovechar el scraping de contenido para su propio beneficio.
¿Qué es el scraping de contenido de blogs?
El raspado de contenido de blog es cuando el contenido se toma de numerosas fuentes y se vuelve a publicar en otro sitio. Por lo general, esto se hace automáticamente a través de la fuente RSS de su blog.
El raspado de contenido es tan fácil ahora que cualquiera puede iniciar un sitio de WordPress, poner un tema gratuito o comercial e instalar algunos complementos que irán y rasparán el contenido de blogs seleccionados.
¿Por qué los rastreadores de contenido roban mi contenido?
Algunos de nuestros usuarios nos han preguntado por qué están robando mi contenido. La respuesta simple es porque eres INCREÍBLE. La verdad es que estos raspadores de contenido tienen motivos ocultos. A continuación, se muestran algunas de las razones por las que alguien rasparía su contenido:
- Comisión de afiliados – Hay algunos publicistas afiliados sucios que solo quieren explotar el sistema para ganar un poco de dinero extra. Utilizarán su contenido y el contenido de otros para atraer tráfico a su sitio a través del motor de búsqueda. Estos sitios generalmente están dirigidos a un nicho específico, por lo que tienen productos relacionados que están promocionando.
- Generación líder – A menudo vemos a abogados y agentes inmobiliarios haciendo esto. Quieren parecer líderes de la industria en sus pequeñas comunidades. No tienen el ancho de banda para producir contenido de calidad, por lo que salen y extraen contenido de otras fuentes. A veces, ni siquiera son conscientes de esto porque están pagando un poco de basura $ 30 / mes para agregar contenido y ayudarlos a obtener un mejor SEO. Hemos encontrado bastantes de estos en el pasado.
- Ingresos por publicidad – Algunas personas solo quieren crear un “centro” de conocimiento. Una ventanilla única para los usuarios de un nicho específico. A menudo notamos que el contenido de nuestro sitio está siendo raspado. El raspador siempre responde, estaba haciendo esto por el bien de la comunidad. Excepto que el sitio está plagado de anuncios.
Estas son solo algunas de las razones por las que alguien robaría su contenido.
¿Cómo detectar raspadores de contenido?
La captura de raspadores de contenido es una tarea tediosa y puede llevar mucho tiempo. Hay algunas formas en las que puede detectar raspadores de contenido.
Busca en Google con los títulos de tus publicaciones
Sí, eso es tan doloroso como suena. Este método probablemente no valga la pena, especialmente si está escribiendo sobre un tema muy popular.
Trackbacks
Si agrega enlaces internos en sus publicaciones, notará un trackback si un sitio roba su contenido. De esta manera, el raspador te dice que están raspando tu contenido.
Si está utilizando Akismet, muchos de estos trackbacks aparecerán en la carpeta SPAM. Nuevamente, esto solo funcionará si tiene enlaces internos en sus publicaciones.
Ahrefs
Si tiene acceso a una herramienta de SEO como Ahrefs, puede monitorear sus vínculos de retroceso y estar atento al contenido robado.
Cómo lidiar con los rastreadores de contenido
Hay pocos enfoques que las personas adoptan cuando se trata de recopiladores de contenido: el enfoque No hacer nada, el enfoque Eliminar o Aprovecharse de ellos.
Echemos un vistazo a cada uno.
El enfoque de no hacer nada
Este es, con mucho, el enfoque más fácil que puede adoptar. Por lo general, los bloggers más populares recomendarían esto porque lleva MUCHO tiempo luchar contra los raspadores.
Ahora, obviamente, si se trata de un blog conocido como Smashing Magazine, CSS-Tricks, Problogger u otros, entonces no tienen que preocuparse por eso. Son sitios de autoridad a los ojos de Google.
Sin embargo, conocemos algunos buenos sitios que han sido marcados como scrapers porque Google pensó que sus scrapers eran el contenido original. Entonces, este enfoque no siempre es el mejor en nuestra opinión.
Enfoque de derribo
Esto es exactamente lo contrario del “enfoque de no hacer nada”. En este enfoque, simplemente se pone en contacto con el raspador y le pide que elimine el contenido.
Si se niegan a hacerlo o simplemente no responden a sus solicitudes, entonces usted presenta una DMCA (Ley de Derechos de Autor del Milenio Digital) con su anfitrión.
En nuestra experiencia, la mayoría de los sitios web de scraping no tienen un formulario de contacto disponible. Si es así, utilícelo. Si no tienen el formulario de contacto, debe realizar una búsqueda de Whois.
Puede ver la información de contacto en el contacto administrativo. Por lo general, el contacto administrativo y técnico es el mismo.
También mostrará el registrador de dominios. La mayoría de las empresas de alojamiento web y los registradores de dominios más conocidas tienen formularios o correos electrónicos DMCA. Puede ver que esta persona específica está con HostGator debido a sus servidores de nombres. HostGator tiene un formulario para Quejas de DMCA.
Si el servidor de nombres es algo así como ns1.theirdomain.com, entonces debe profundizar más haciendo búsquedas inversas de IP y buscando IP.
También puede utilizar un servicio de terceros para DMCA.com para derribos.
Jeff Starr en su artículo sugieren que debes bloquear las direcciones IP del malo. Acceda a sus registros para obtener su dirección IP y luego bloquéelo con algo como esto en su archivo raíz .htaccess:
Deny from 123.456.789
También puede redirigirlos a un feed ficticio haciendo algo como esto:
RewriteCond %{REMOTE_ADDR} 123.456.789. RewriteRule .* http://dummyfeed.com/feed [R,L]
Puede ser realmente creativo aquí, como sugiere Jeff. Envíelos a fuentes de texto realmente grandes con Lorem Ipsum. Puedes enviarles algunas imágenes repugnantes de cosas malas. También puede enviarlos directamente a su propio servidor, lo que provocará un bucle infinito que bloqueará su sitio.
El último enfoque que tomamos es aprovecharlos.
Cómo aprovechar los raspadores de contenido
Este es nuestro enfoque para tratar con los raspadores de contenido, y resulta bastante bueno. Ayuda a nuestro SEO y nos ayuda a ganar dinero extra.
La mayoría de los raspadores utilizan su fuente RSS para robar su contenido. Estas son algunas de las cosas que puede hacer:
- Vinculación interna – Necesita interconectar mucho las publicaciones de su blog. Cuando tiene enlaces internos en su artículo, lo ayuda a aumentar las páginas vistas y reducir la tasa de rebote en su propio sitio. En segundo lugar, obtiene vínculos de retroceso de las personas que están robando su contenido. Por último, te permite robar su audiencia. Si eres un bloguero talentoso, entonces entiendes el arte de los enlaces internos. Tienes que colocar tus enlaces en palabras clave interesantes. Haga que sea tentador para el usuario hacer clic en él. Si lo hace, la audiencia del raspador también hará clic en él. Así, sacó a un visitante de su sitio y lo trajo de regreso a donde debería haber estado en primer lugar.
- Autoenlazar palabras clave con enlaces de afiliados – Hay algunos complementos como ThirstyAffiliates que reemplazarán automáticamente las palabras clave asignadas con enlaces de afiliados,
- Sea creativo con el pie de página RSS – Puede utilizar el complemento de SEO todo en uno para agregar elementos personalizados a su pie de página RSS. Puede agregar casi cualquier cosa que desee aquí. Conocemos a algunas personas a las que les gusta promocionar sus propios productos entre sus lectores de RSS. Entonces agregarán pancartas. Adivina qué, ahora esos banners también aparecerán en el sitio web de estos raspadores. En nuestro caso, siempre agregamos un pequeño descargo de responsabilidad al final de nuestras publicaciones en nuestros canales RSS. Al hacer esto, obtenemos un vínculo de retroceso al artículo original del sitio de scraper que le permite a Google y otros motores de búsqueda saber que somos la autoridad. También les permite a sus usuarios saber que el sitio está robando nuestro contenido.
Consulte nuestra guía sobre cómo controlar el pie de página de su fuente RSS en WordPress para obtener más consejos e ideas.
Cómo puede reducir y prevenir el scraping de blogs de WordPress
Teniendo en cuenta si adopta nuestro enfoque de muchos enlaces internos, agregando enlaces de afiliados, banners RSS y esas posibilidades, reducirá el raspado de contenido en buena medida. Si acepta la sugerencia de Jeff Starr de redirigir los raspadores de contenido, eso también detendrá esos raspadores. Aparte de lo que hemos compartido anteriormente, hay algunos otros trucos que puede utilizar.
Feed RSS completo o resumido
Ha habido un debate en la comunidad de blogs sobre si se debe tener un feed RSS completo o un feed RSS resumido. No vamos a entrar en muchos detalles sobre ese debate, sin embargo, una de las PROS de tener un feed RSS de solo resumen es que evita el raspado de contenido.
Puede cambiar la configuración yendo a su panel de administración de WordPress y yendo a Configuración »Lectura. Luego, cambie la configuración de cada artículo de un programa de noticias en tiempo real: Resumen.
SPAM de trackback
Los trackbacks y Pingbacks definitivamente tuvieron grandes usos, sin embargo, ahora se abusa constantemente de ellos.
A menudo, los temas muestran trackbacks y pingbacks debajo o entre los comentarios. Esto le da al spammer un incentivo para raspar su sitio y enviar trackbacks. Si lo aprueba por error, obtendrán un vínculo de retroceso y una mención de su sitio. Así es como puede deshabilitar los Trackbacks en todas las publicaciones futuras.
Aquí hay un artículo que le mostrará cómo deshabilitar los trackbacks y pings en publicaciones existentes de WordPress también.
¿El raspado de contenido es siempre bueno?
Puede ser. Si ve que está ganando dinero con el sitio del raspador, entonces seguro que puede serlo. Si ve mucho tráfico desde el sitio de un raspador, entonces puede serlo.
Sin embargo, en la mayoría de los casos no lo es. Siempre debes intentar quitar tu contenido. Pero te darás cuenta de que a medida que tu blog crezca, es casi imposible realizar un seguimiento de todos los raspadores de contenido. Todavía enviamos quejas de DMCA, sin embargo, sabemos que hay muchos otros sitios que están robando nuestro contenido y que simplemente no podemos mantenernos al día.
Esperamos que este artículo le haya ayudado a evitar que el contenido del blog se raspe en WordPress. Es posible que también desee ver nuestra guía sobre cómo prevenir el robo de imágenes en WordPress.
Si le gustó este artículo, suscríbase a nuestro Canal de Youtube para tutoriales en video de WordPress. También puedes encontrarnos en Gorjeo y Facebook.