In dorks we trust #01

...ведь без теории - никуда.

Что такое дорки?

Если просто спросить гугл об этом, то мы получим ответ, что это такая порода собак. Но это определённо не то, что нам надо.
Хех.
Так вот.
Дорк (дорка) - сформированный особым образом запрос к поисковику гугла с использованием его операторов поиска, для нахождения информации на плохо сконфигурированных сайтов, которые попали в лапы индексатора и были занесены в индекс поисковика.

Как появляются дорки?

Сами по себе. Ну, почти. Когда кто-то делает сайт, в один момент он прибегает к индексации его поисковиками, дабы люди могли найти этот сайт с помощью поисковиков. Но чтобы всё работало правильно нужно уметь настраивать серверную часть, например, robots.txt, чтобы боты-индексаторы не лезли куда не надо. Однако кто-то заморачивается этим, а кто-то - нет. И вот из-за таких людей и образуются потенциальные дорки, которые, при правильном составлении запроса, можно найти.

Как юзать их?

Просто вбиваете в поиск гугла. И всё. Можно в яндекс вбивать, но выхлопа почти никакого.




Ладно, думаю, теории хватит, переходим к практике.

Начнём с простого: директива inurl {smth}

Данная директива позволяет находить ссылки, в URL которых присутствует {smth}

/*Можно искать музыку*/
inurl mp3

/*Или же*/
inurl ftp://
/*Найдёт публичные(или нет) ftp сервера*/

Также существует директива allinurl:{...smth}

/*Найдёт всё, где в URL есть и `ftp://`, и `intel`*/
allinurl:ftp:// intel

Директивы site:{site} и intext:{txt}

Директива site выставляет скоуп сайтов с доменом {site}, в котором нужно искать, а intext - текст {txt}, который должен содержаться в найденных документах

/*
Найдёт всё, что:
    - в домене gov
    - в URL содержит robots.txt
    - в тексте содержит *password*
*/
inurl:robots.txt site:gov + intext:password

Многие директивы поддерживают ограниченное использование вайлдкард

/*
Звёздочка подразумевает _что_угодно_

Данный запрос найдёт все сайты, URL которых оканчивается на `/user/login`
*/
site:*/user/login

Ну да ладно, это всё ещё не очень интересно(наверное), поэтому давайте искать что-нибудь определённое.
Возьмём GoogleDrive. Там ооооооооооочень много спираченного контента: музыка, книги, игры.

/* 
Ищем по GD всё, где есть `iso` и нет `Whoops!`
Кавычки позволяют эканировать символы, что позволяет с помощью `-` исключить страницы с ошибкой (-"Whoops!")
*/
site:drive.google.com "iso" -"Whoops!"

/*
А вот так можно найти ISO образ со второй мафией от механиков
*/
site:drive.google.com "mafia" "iso"

/*
Открытые логи людских серверов в бакетах Amazon S3
*/
s3 site:amazonaws.com filetype:log

/*
Аналитика по Google Формам
*/
site:https://docs.google.com/forms viewanalytics

И самое главное - не злоупотребляйте! Гугл может что-то начать мыслить себе там и закидает вас машинами и лестницами(а ещё автобусами, мостами и витринами).