Магазинът ми генерира високо CPU, но дали е от реален трафик?

Както вероятно много от Вас знаят, един от параметрите на услугата споделен хостинг е процесорно време. Този параметър е много важен, за да се гарантира, че всеки сайт използва точно толкова ресурси, колкото са определени за него, което е задължително, за да осигурим стабилна среда за всички сайтове на един сървър.

Понякога обаче използваното процесорно време рязко се покачва без видими причини за това. Случва се собствениците на сайтове да останат изненадани от повишена консумация на ресурс без осезаем ръст в посещенията на сайта и без да са правили скорошни промени в него и неговите функционалности.

В тези случаи доста често причината е интензивното (дори бих казал агресивното) обхождане на сайта от различни ботове на търсачки. Посещенията (зареждането на страници) от ботовете не се отчита от повечето инструменти за отчитане на трафика, защото те следят реалния трафик от реални потребители. Поради тази причина обемът на посещенията от ботове често остава незабелязан от администраторите на сайта. Тези посещения обаче използват ресурси на хостинг акаунта и могат да бъдат причина за резки пикове на потребление.

В тази статия искам да разгледаме защо това се случва и какво можем да направим по въпроса.

Да започнем със „Защо това се случва?“

Как филтрите в онлайн магазините могат да създадат хиляди URL адреси за търсачките

Когато разглеждате онлайн магазин и използвате филтри — например за цвят, размер, марка или цена — най-вероятно не си давате сметка, че всяка комбинация от филтри създава нов адрес (URL) в сайта. Това изглежда полезно за потребителя, но може да бъде предизвикателство за търсачките като Google.

Защо? Защото ботовете на търсачките се стремят да обходят всички възможни URL адреси на един сайт. И когато има хиляди възможни комбинации от филтри, се създава лавина от URL адреси, които често водят до една и съща или много сходна информация. Това пречи на ефективното обхождане на сайта и дори може да навреди на SEO оптимизацията му.

Какво представляват URL адресите от филтри?

Да кажем, че имате онлайн магазин за обувки. Без филтри, една категория може да има следния адрес:

example.com/obuvki

След като потребителят избере няколко филтъра, адресът става:

example.com/obuvki?cvyat=cheren&razmer=42&marka=Nike

Този URL изглежда различно за търсачките, дори и съдържанието да е почти същото като при други комбинации. Ако имате много филтри, броят на възможните комбинации (и съответно URL адреси) расте експоненциално.

Колко много URL адреси могат да се създадат?

Да видим един прост пример:

Брой филтриОпции на филтърОбщ брой възможни комбинации
3 филтъра5 опции всеки5 × 5 × 5 = 125
4 филтъра5 опции всеки5⁴ = 625
5 филтъра5 опции всеки5⁵ = 3,125
6 филтъра5 опции всеки5⁶ = 15,625
7 филтъра5 опции всеки5⁷ = 78,125

Графика на Експоненциален ръст на URL адресите:

Графика на Експоненциален ръст на URL адресите

И това е, ако филтрите предлагат избор само на една опция. В повечето случаи филтрите на електронните магазини предлагат избор на няколко опции едновременно, тогава резултатите стават още по-интересни.

Брой филтриОпции на филтърОбщ брой възможни комбинации
3 филтъра5 опции всеки29,791
4 филтъра5 опции всеки923,521
5 филтъра5 опции всеки28,629,151

Ако има и филтър за изгледа, например списък или решетка, тогава можете да умножите числото още по две. Сортиране по цена, популярност и др. също умножава получените резултати и числата могат да станат колосални.

Какво означава това за търсачките?

Google и други търсачки използват обхождащи ботове, които разглеждат сайта и индексират страниците му. Но когато един онлайн магазин предлага изобилието от десетки хиляди URL адреси, се случват следните неща:

  • Обхождащите ботове харчат повече ресурси, за да преглеждат страници с повтарящо се съдържание. На практика ботовете виждат едно и също съдържание, филтрирано по различни начини.
  • Пропускат да обхождат наистина важни страници (например нови продукти).
  • URL адресите с филтри най-често съдържат Query String (частта след „?“ в URL адреса), а такива адреси не се кешират (освен ако не е изрично настроено в кеширащия плъгин). Тези адреси консумират най-много ресурс, тъй като не могат да се възползват от кеш и да бъдат сервирани наготово.

В практиката ни сме виждали много показателни случаи с около 1 200 000 URL адреса, обходени от ботове и само около 20 000 страници, посетени от реални потребители на сайта. От тук можете да си представите каква част от ресурсите на хостинг услугата обслужва реални потребители и каква част се изразходва от обхождане на такъв обем URL адреси от ботове.

Понякога търсещите роботи решават да индексират и вътрешната търсачка на сайта, използвайки различни термини за търсене. Тогава възможните комбинации на URL адреси стават неограничени. Именно поради тази причина някои SEO плъгини предлагат директно възможността да се ограничи вътрешното търсене на сайта ( /?s= ), един такъв плъгин е All in One SEO например.

опция в настройките на плъгина

Друг плъгин, който нашите клиенти много често използват, е Yoast SEO и той също предлага тази опция.

При WordPress сайтове много често виждаме индексиране и на адреси с add-to-cart и add_to_wishlist, например:

example.com/?orderby=price&add_to_wishlist=77386&add-to-cart=79977

Как мога да разбера дали сайтът е обхождан интензивно от ботове?

За щастие cPanel предлага много удобен инструмент за анализ на трафика – Awstats. За разлика от повечето инструменти, той отчита и трафика от ботове, както и броя прегледани страници от тях. Така лесно можете да сравните този трафик с реалния трафик на електронния Ви магазин и да разберете дали е обхождан твърде често. В тази статистика можете да видите и кои точно ботове обхождат сайта и ако откриете ненужни такива, да ги блокирате.

За доста по-прецизна проверка можете да прегледате и лога за достъп на сайта, който се намира в Raw Access в cPanel. Там можете да видите какви адреси достъпват ботовете и дали те са полезни за Вас.

Да продължим към „Какво можем да направим по въпроса?“

Как да се реши този проблем?

Най-бързото и лесно решение е да използваме robots.txt файла, за да подскажем на ботовете, че не е необходимо да обхождат URL адреси с филтри. Ако искаме да ограничим филтрите от примера по-горе за всички ботове, правилата в robots.txt ще изглеждат по следния начин:

User-agent: *
Disallow: *?cvyat=*
Disallow: *&cvyat=*
Disallow: *?razmer=*
Disallow: *&razmer=*
Disallow: *?marka=*
Disallow: *&marka=*

Разбира се, за WordPress винаги можете да използвате плъгини, които да Ви помогнат с тези настройки. За системи като OpenCart, Prestashop, Joomla, Magento и др. можете да намерите готови примери за robots.txt файла с необходимите правила.

Ако работите със SEO специалисти, най-добре ще е да се консултирате с тях за това какво може да се ограничи.

Съветвам Ви преди създаване на robots.txt файла да проверите дали системата на сайта Ви вече не е генерирала виртуален такъв. Ако имате виртуален robots.txt файл, ще е по-добре да го редактирате през системата на сайта или да копирате съдържанието му във физическия robots.txt файл, за да не изгубите вече съществуващи правила в него.

Други добри практики за справяне с този проблем са:

  • Добавяне на nofollow или noindex за определени параметри – така търсачките знаят да не ги индексират.
  • Събиране на филтрирани резултати чрез JavaScript без промяна на URL – така филтрите работят, без да се създават нови адреси.

Филтрите правят онлайн пазаруването по-удобно, но ако не се управляват правилно могат да доведат до лавина от URL адреси, които объркват търсачките. Това влияе негативно на SEO и на видимостта на сайта в резултатите от търсене. Затова е важно администраторите на сайтове да бъдат внимателни как настройват филтрите и индексирането им.


Абонирайте се за СуперБлога, за да получавате полезно и експертно познание от света на уеб хостинг услугите, касаещо Вашия сайт и дигитално присъствие.

Димитър Милушев
Димитър Милушев
Митко е мениджър “Техническа поддръжка” и част от екипа повече от 15 години. Той отговаря за това нашите клиенти да получават бързо и коректно обслужване на техните технически казуси. Винаги дава 100% от себе си в това, което върши.
0 0 votes
.
Абониране
Уведоми ме при
guest

0 Коментара
Inline Feedbacks
View all comments
11 мита за онлайн присъствието

11 мита за онлайн присъствието [Аудио]

2
Темата е: онлайн присъствие - от изграждането на сайт до неговото развитие и следователно развитието на Вашия бизнес. Разберете кой е първият мит за разбиване!
7+1 мита за SaaS услугите

7+1 мита за SaaS услугите [Аудио]

0
SaaS услугите стават все по-популярни и интересът към тях нараства толкова бързо, че технологията се стреми да отговаря с възможно най-бързите темпове.
10 основни грешки при изграждането на един уебсайт

10 основни грешки при изграждането на един уебсайт [Аудио]

0
Последствията от неправилно структурирания сайт могат да бъдат неприятни за бизнеса Ви и да доведат до нежелан ефект.