Април 2012БЛОГ

КАК РАБОТЯТ ТЪРСЕЩИТЕ МАШИНИ?

Информацията е основата на всеки бизнес. Тя е фактор, който трябва да се открие и използва навреме за да бъде ефективен.

Всеки познава сайтове като Google и Yahoo! Search Engine, но знаем ли всъщност как те отговарят на това, което ги питаме? Какво представляват и как работят търсещите машини?

Търсещите машини са инструмент, който е проектиран да търси информация в световната мрежа (www). Информацията, към която се предоставя връзка, може да бъде текст, изображения, различни видове файлове. В практиката термина „търсеща машина” може да се разглежда в два случая:

  • търсещи машини, базирани на обхождането на информацията (crawlerbased search engines);
  • търсещи машини, в които информацията е разделена на директории (Web directories или още humаnpowered search engines).

Тъй като повечето съвременни търсещи машини са с crawler-based search engines, по-надолу под „търсещи машини“ ще се подразбира именно този вид.

Работата на всяка търсеща машина може да се раздели главно на четири етапа:

  • обхождане (crawling);
  • индексиране (indexing);
  • търсещ алгоритъм (search algorithm);
  • потребителски интерфейс (user interface).

Обхождането (crawling) е процес, при който търсещата машина прочита съдържанието на уеб страниците налични в мрежата. След прочитането информацията се изпраща за индексиране. Това обхождане се извършва от компютърни роботи, наричани още ботове (bots) или паяци(spiders). Важно е да се отбележи, че те работят само с текст. Съдържанието на приложения като flash обекти, клипове и изображения остават невидими за робота. Освен нормалният текст, паяка вижда също и хипертекст – обикновенно, това е подчертан текст, който представлява препратка към друга страница. Намирайки хипертекст, робота отива към препратката, където се извършва обхождане на информацията. При намиране на друг хипертекст действието се повтаря. Така задачата на робота е да обиколи всички уеб страници в мрежата. Факт е, че когато към един сайт има много препратки, вероятността той да бъде посещаван по-често от робота е много по-голяма.

Индексиране (indexing). След обхождане на страницата, започва нейното индексиране. То се извършва посредством огромни бази данни, където се намират и другите обходени и индексирани страници. При този процес търсещата машина “изважда” ключови думи и фрази, които най-добре описват съдържанието на страницата. Трябва да се отбележи, че индексиращите роботи нямат човешкият интелект и понякога грешно индексират дадена страница. За избягване на грешките съществува технология за оптимизиране на уеб страниците, която не е обект на тази статия.

Търсещ алгоритъм (search algorithm) – това е частта, където всяка търсеща машина има своя автономна последователност от действия. Това е и причината, еднакви заявки към различни търсещи машини, да изведат различни резултати. С други думи, в процеса на търсене, търсещата машина сканира за релевантни документи (уеб страници). Сканирането се извършва на базата на символния низ, който е въведен в търсещото поле. Алгоритъмът на всяка търсеща машина извежда връзки към уеб страници, подредени в низходящ ред по степен на смислово съвпадение.

PageRank е системата на Google за оценяване на сайтовете. Страниците се ранжират по степен на значимост от PageRank. За целта Google използват множество фактори, като например: популярността на страницата, позицията и съвпаденията на ключовите думи в страницата, сходството на ключовите думи с други от съдържанието и т.н.

Потребителски интерфейс (user interface) – нарича се още страница с резултати от търсенето (Searchuser interface of search engine Results Page), която най-често съдържа заглавие на сайта, към който е препратката; отрязък от сайта (най-често, контекста на ключовите думи). Потребителския интерфейс дава и възможност за преглед на кеширана информация.

Кешираната информация също се намира в индекс сървърите на Google. Когато роботът обходи един сайт и индексира информацията, същата се запазва в базата данни на Google, като старата се изтрива впоследствие. Това дава възможност да се открие статия или друг вид информация, която след обновяването на даден сайт, вече не се съдържа в него.

За повишаване ефиктивността на всяка една търсеща машина се търси нейната интуитивност. Проблема тук се състои в това, че една дума може да има няколко значения. Сегашните търсачки дават възможност този недостатък да се компенсира посредством логически оператори и „псевдо-код”. Същите оператори се въвеждат в полето за търсене, заедно с ключовите думи.

В момента се работи по алгоритми за усъвършенстване на търсенето. Обект на такова разработване е така нареченото conceptbased searching. Има предложения, върху които се работи и едно от тях е извършването на статистически анализ съдържанието на страниците, съдържащи въведените ключови думи. На базата на анализа се прави опит да се изведат връзки, които биха представлявали интерес. Ясно е, че по-големият брой процеси по обработване на информация изискват повече време, което се явява забавяне при отговор на заявка. Все още много групи защитиват идеята и продължават да правят опити за увеличаване на релевантните резултати и бързия отговор на запитване.

Автор: Божидар Петров

Вашият коментар

Вашият имейл адрес няма да бъде публикуван. Задължителните полета са отбелязани с *