Цукерман написал, что заинтересовался объемом YouTube из-за исследований общественно вредного контента на нем. Учёные часто изучают именно те видеоролики, которые могут ввести людей в заблуждение и заставить их пренебрегать своим здоровьем, плохо относиться к какой-то социальной группе и т. д. Однако они не соотносят свои результаты с тем, сколько всего контента на площадке, поэтому получают преувеличенно пессимистические результаты. Например, в 2023 году пользователи Facebook посмотрели видео с дезинформацией о COVID-19 больше 3 миллиардов раз. Ученый отмечает, что цифра кажется ужасающе огромной, но среди общих просмотров контента на площадке она, на самом деле, незначительна.
Итан и его команда использовали для оценки общего количества видеороликов на YouTube метод, который они назвали «пьяным дозвоном». В этом им помог Джейсон Баумгартнер, который создал инструмент для парсинга Reddit — PushShift. Метод назвали так, потому что команда генерировала случайные адреса ссылок на видео, как пьяный человек набирает случайные номера на телефоне, пытаясь дозвониться знакомым. YouTube-адрес роликов основан на 11-символьных строках, где первые десять символов могут быть любыми: az, AZ, 0-9 и _-, а последний символ имеет всего 16 возможных результатов. Таким образом, общее количество возможных адресов на YouTube составляет 2^64 (18,4 квинтиллиона), что слишком много. Метод оптимизировали, и в результате удалось успешно загрузить более 10 000 случайных видеороликов на YouTube, перебирая случайным образом эти 11 символов.
Продолжая тему «пьяного дозвона», команда Цукермана предложила такую аналогию: если вы начнете набирать телефонные номера в коде 413, от 413-000-0000 до 413-999-9999, у вас будет 10 миллионов возможных номеров. Если предположить, что успешный звонок получается один 1 раз из 100, это будет означать, что в этом диапазоне существует 100 тысяч действующих телефонных номеров.
Каждый «пьяный набор» включал примерно 32 тысячи номеров, а попадание фиксировалось раз в 50 тысяч раз. В итоге учёные смогли вычислить, что на YouTube выложено около 13,325 миллиардов роликов. После этого они вывели статистику по возрасту роликов. Например, за один 2023 год на платформу добавили 4 миллиарда видео. В процессе оказалось, что большинство из них имеют всего 39 просмотров. При этом в рекомендации, которые стали следующим предметом анализа, попадает контент, который посмотрело хотя бы 10 тысяч зрителей, а это всего 4% от общего количества.
Цукерман с командой планируют и дальше наполнять Tubestats. Они считают, что YouTube может быть против существования этого ресурса и методов сбора информации, однако возражают, что платформа слишком важна для общественной жизни. Поэтому люди имеют право знать, что за контент находится на ней, кто создает его и как распространяются ролики. Подробное описание исследования заняло 85 страниц, его можно прочесть в журнале Journal of Quantitative Description.