[ home ] [ b / hum ] [ h ] [ a / jp / mu / tech / v / pol / vis / x ] [ lain ] [ meta / nexo ]

/tech/ - Tecnología

No rompas las leyes de Isaac Asimov
Nombre
Email
Comentario
Archivo





[]
Adjuntar
Clave (Para eliminar el post.)

  • Archivos soportados: [ jpg, jpeg, bmp, png, gif ] , [ ogg, mp3 ] , [ webm ] & [ pdf ].
  • Adjuntos soportados: [ youtube, vimeo, dailymotion, metacafe & vocaroo ].
  • Tamaño máximo total 20MB.



File: web-scraping-attack.jpg (27.95 KB, 800x315) ImgOpsGoogleiqdb

27.95 KB

No.1141

Alguna vez han trabajado en un scraper/crawler? Estoy metido en el tema porque un amigo y yo estamos haciendo un scraper que consume metadata de una pagina porno.

Es un pagina con mucho contenido difícil de conseguir en las paginas mas grandes. Y aunque tiene seguridad pitera (ni siquiera usan HTTPS) queremos que sirva para largo plazo y toca aprender a evadir la tipica seguridad de cloudfare o servicios similares.

Por el momento, usamos user agent del usuario que solicita la metadata, referers random (google, y urls de paginas con links al sitio del que hacemos scraping), y como es on-demand pues no nos preocupa consultas periodicas sospechosas. Que otras cosas recomiendan a parte de cambiar la IP cada cierto tiempo?
>>

No.1143

>>1141
Invidious es el mejor scraper. Obtiene videos de youtube y además anónimamente, sin exponer tus cabeceras HTTP (es un proxy).

>Alguna vez han trabajado en un scraper/crawler?

Si, fue uno bastante sencillo. Investigué cómo funcionaba la internamente el traductor de Swisscows (ya no existe) y después de averiguar cómo realizaba su procesamiento de las traducciones (usaba como 2 APIs), hice un script para traducir textos desde mi terminal Unix.

>Que otras cosas recomiendan a parte de cambiar la IP cada cierto tiempo?

Que en lugar de exponer el user-agent de tus usuarios uses el de chrome en windows 10 (el más normie y menos sospechoso)
>>

No.1144

>>1143
El de invidious es muy bueno, pero toca aprender Crystal o transcribirlo
>>

No.1145

File: 4bxm9h.jpg (134.04 KB, 696x500) ImgOpsGoogleiqdb

134.04 KB
>>1143
>hice un script para traducir textos desde mi terminal Unix
No suena tan sencillo wai

>Que en lugar de exponer el user-agent de tus usuarios uses el de chrome en windows 10

Bueno reconozco que quizas usar el user-agent del usuario pueda algo preocupante pero la verdad no entiendo porque. No se que podrían hacer con el User-Agent del usuario ni como pueda usarse como vulnerabilidad si al cabo la consulta se hace desde nuestra y host e IP. Pero si estoy de acuerdo en que quiza sea sospechoso ver una IP con varias solicitudes al día cambiarse los headers cada 15 o 20 segundos. Incluso mi amigo me dijo que era una idea estupida, pero bue…
>>

No.1146

>>1145
Si envías el user-agent del usuario el servidor puede empezar a aplicarle captchas si usa navegadores muy "niche" o de plano usa curl/wget. Además de eso tal vez la otra razón es "simplemente para mayor privacidad".
>>

No.1169

>>1144
La noticia de Omar dejando el proyecto y "apagando" la instancia .us nos sacudió un poco a todos.
Supongo que alternativas quedan (freetube, newpipe) y habrá gente con ganas de aportar pero se necesita un individuo al frente de todo para coordinar y administrar el proyecto.
https://freetube.writeas.com/the-invidious-project-will-be-shutting-down-soon
>>

No.1170

>>1169
Que el desarrollador principal se retire del proyecto no quiere decir que invidious vaya a morir totalmente (para eso es un proyecto FOSS).

https://instances.invidio.us/

En esa página puedes ver más instancias de invidious. Está la de snopyta.org que es muy buena y casi siempre está en buen estado, invidious.site que tiene el tema oscuro y proxy por defecto o yewtube también lo recomiendo. En el teléfono definitivamente es mejor usar NewPipe. Y FreeTube creo que está siendo reescrito por sus desarrolladores para ser más eficiente, no depender de invidious y procesar diferente el proxy de videos.


[Post a Reply]
[ ]
[ home ] [ b / hum ] [ h ] [ a / jp / mu / tech / v / pol / vis / x ] [ lain ] [ meta / nexo ]