Низомҳои ҷустуҷӯӣ

Мавод аз Википедиа — донишномаи озод

НИЗОМҲОИ ҶУСТУҶӮӢ[вироиш | вироиши манбаъ]

Низоми web-ҷустуҷӯ – ин системаи барномавие, ки барои ҷустуҷӯи маълумот дар шабакаи ҷаҳонӣ (World Wide Web, WWW) сохта шудааст. Натиҷаҳои ҷустуҷӯ умуман ба намуди рӯйхат пешниҳод мешаванд, ки саҳифаи натиҷаҳои ҷустуҷӯ (Search Engine Results Pages, SERP) ном доранд. Маълумотҳо метавонанд бо web-саҳифаҳо, тасвирҳо ва дигар намуди файлҳо омехта бошанд. Баъзе низомҳои ҷустуҷӯи, ҳамчунин маълумотҳои дар базаи маълумотҳо ё дар ҷузгирҳои кушода, мавҷуд бударо гирифта медиҳанд. Баръакси web-ҷузгирҳое, ки танҳо аз ҷониби муҳаррирон таъмин мегарданд. Низомҳои ҷустуҷӯи ҳамчунин маълумотҳои воқеиро бо воситаи алгоритмҳо ва web crawler-ҳо таъмин менамоянд. Барои ҷустуҷӯи маълумот бо ёрии низоми ҷустуҷӯи истифодабаранда дархости ҷустуҷӯиро таҳия мекунад.

Таърих[вироиш | вироиши манбаъ]

Низомҳои web-ҷустуҷӯи пеш аз ибтидои шабакаи глобалӣ декабри соли 1990 мавҷуд буданд. Низоми ҷустуҷӯии истифодабаранда “Who is” соли 1982 ва низоми ҷустуҷӯии мулти-шабакавии истифодабаранда “Knowbot Information Service” соли 1989 аввалин маротиба амалӣ гашта буданд. Санаи 10 сентябри соли 1990 низоми ҷустуҷӯии “Archie” ба кор сар дода шуд, ки файлҳои дар FTP (File Transfer Protocol) серверҳо мавҷуд бударо ҷустуҷӯ мекард.

Индексатсияи шабакаи глобалӣ (WWW) то сентябри соли 1993 умуман бо тарзи дастӣ иҷро карда мешуд. Дар он замон рӯйхати web-серверҳо буд, ки аз ҷониби Тим Бёрнерс-Лӣ (Tim Berners-Lee) таҳрир шуда буд ва дар web-серверҳои CERN баргузор гашта буданд. Як тасвири рӯйхати таърихи соли 1992 монда аст, лекин рӯз аз рӯз бисёртар web-серверҳои нав дар шабака пайваст мешуданд, ки рӯйхатро саривақт таҳрир додан мушкил буд. Дар сомонаи NCSA серверҳои нав, зери сарлавҳаи “What’s New!”, оғоз мешуданд.

Аввалин ассбобе, ки барои ҷустуҷӯи маълумот дар Интернет сохта шуда буд, ин “Archie” мебошад. Чунин ном аз калимаи “archive” бе ҳарфи “v”, ки маънои бойгонӣ дорад, гирифта шудааст. Низоми мазкур аз ҷониби Алан Имтейҷ (Alan Emtage), Билл Ҳилан (Bill Heelan) ва Ҷ. Питер Дутш (J. Peter Deutsch), донишҷӯёни ихтисоси илмҳои компютерӣ (Computer Science) – и донишгоҳи McGill дар шаҳри Монреал (McGill University in Montreal), сохта шудааст. Барномаи мазкур рӯйхати файлҳои дар FTP сомонаҳои анонимӣ мавҷуд бударо дар базаи маълумотҳо сабт мекард, ки роҳи ҷустуҷӯ осон мегашт. Низоми ҷустуҷӯии Archie маълумотҳои он сомонаҳоро индексатсия намекард, аз баски ҳаҷми маълумотҳо хеле маҳдуд буданд, ки онҳоро бо тарзи дастӣ дарёфт намудан осон буд.

Аз ҳисоби боло равии Gopher (соли 1991 аз ҷониби Марк МакКаҳилл (Mark McCahill дар донишкадаи Минесотта сохта шудааст) ду низоми ҷустуҷӯии нав, Veronica ва Jughead пайдо шуданд. Монанди Archie, онҳо номи файлҳо ва сарлавҳаҳое, ки дар низоми индексии Gopher нигоҳ дошта мешуданд ҷустуҷӯ мекарданд. Veronica (Very Easy Rodent-Oriented Net-wide Index to Computerized Archives) ҷустуҷӯи аксарият сарлавҳаҳои менюи дар ҳамаи рӯйхатҳои Gopher мавҷуд бударо, бо воситаи калимаҳои калидӣ таъмин мекард. Jughead асбобе буд, ки барои гирифтани маълумотҳо аз серверҳои махсуси Gopher истифода бурда мешуд.

Дар фасли тобистони соли 1993 низоми ҷустуҷӯи барои Web мавҷуд набуд, лекин якчанд каталогҳои махсус бо тарзи дастӣ таъмин карда мешуд. Оскар Нирстраз (Oscar Nierstrasz) дар донишгоҳи Женева якчанд Perl script – ҳоро навишта буд, ки онҳо саҳифаҳоро инъикос мекарданд ва ба формати стандартӣ аз нав менавиштанд. Ин ибтидои W3Catalog, ки аввалин низоми web-ҷустуҷӯ ба ҳисоб меравад. Низоми мазкур 2 сентябри соли 1993 сохта шудааст.

Моҳи июни соли 1993 аз ҷониби Меттю Грей (Matthew Gray) дар Донишкадаи Технологии Массачусеттс (MIT), аввалин web-робот сохта шуда буд, ки дар асоси Perl World Wide Web Wanderer асос дошта, барои генератсияи индексе, ки “Wandex” ном дошт истифода бурда мешуд. Мақсади асосии “Wanderer” инченкунии ҳачми WWW буд, ки то охири соли 1995 кори худро иҷро мекард. Дуюмин низоми web-ҷустуҷӯ “Aliweb” моҳи ноябри соли 1993 пайдо шуд. Aliweb web-роботро истифода намебурд, лекин аз хабари мавҷуд будани файлҳои индексӣ, ки дар формати муайян буданд, аз ҷониби маъмурияти web-сомонаҳо вобаста буд.

Web-браузери “Mosaic” аз ҷониби NCSA, аввалин браузер набуд, лекин аввалин зуд паҳн шуда буд. Моҳи ноябри соли 1993  Mosaic версияи 1.0 аз гурӯҳи браузерҳои мавҷуд буда ҷудо шуд, ки нишонҳо, хатчӯбҳо, интерфейси хубтар ва тасвирҳоро ба худ дохил мекард, ки истифодаи барномаро барои истифодабарандаи оддӣ осон мекард.

JumpStation (моҳи декабри соли 1993 аз ҷониби Ҷонатан Флетчер (Jonathan Fletcher) сохта шудааст) web-роботро барои ёфтани web-саҳифаҳо ва сохтани индекси он истифода мебурд, web-формаро ҳамчун интерфейс барои барномаи қабулкунии дархост истифода мебурд. Ин якумин асбобе, ки барои ҷустуҷӯи маълумот дар шабакаи ҷаҳонӣ бо якҷоягии се функсияҳои асосӣ (crawling, indexing ва searching) истифода мебурд. Аз сабаби маҳдуд будани маълумотҳои дар платформаҳое, ки низоми мазкур кор мекард, индексатсия ва ҷустуҷӯ ҳам ба сарлавҳаҳои саҳифаҳо маҳдуд буд.

Яке аз аввалин низоми ҷустуҷӯии crawler-асос “WebCrawler” буд, ки соли 1994 пайдо шуд. Баръакси пешояндагонаш, низоми мазкур ба истифодабарандагон имконияти ҷустуҷӯи ҳар як калима дар ҳар як саҳифаро пешниҳод мекард. Аз ҳамин замон стандарти аксарият низомҳои ҷустуҷӯӣ гардид. Ҳамҷунин аввалин низоми васеъ паҳн шудатарин буд. Инчунин соли 1994, “Lycos” (дар донишкадаи Carnegie Mellon ибтидо ёфта буд) ба кор монда шуд ва ба кори тиҷоратии азим гашт.

Баъд аз аксарият низомҳои ҷустуҷӯи пайдо шуданд, ва барои машҳурият рақобат мебурданд. Дар қатори онҳо Magellan, Excite, Infoseek, Inktomi, Northern Light, ва AltaVista, буданд. Yahoo! Яке аз машҳуртарин роҳи ҷустуҷӯи саҳифаҳои шавқовар барои истифодабарандагон, ба ҳисоб мерафт, лекин функсияи ҷустуҷӯ дар web—узгир хеш кор мекард, бартар аз нусхаи матни пурраи web-саҳифаҳои. Истифодабарандагон имконият доштанд, ки web-ҷузгирро аз назар гузаронанд, бештар аз навиштани дархости калимаи калидӣ-асос.

Соли 1996 “Netscape” дар ҷустуҷӯи низоми ҷустуҷӯи буд, ки барои як низом шартномаи эксклюзивӣ пешниҳод намояд, ки низоми ҷустуҷӯии муайян гардида ҳамчун низоми ҷустуҷӯии web-браузери Netscape шавад. Дар он вақт шавқи хеле калон буд, ки Netscape ба ҷойи як низоми ҷустуҷӯи бо панҷ низомҳои ҷустуҷӯии калонтарин шартнома баст, ки арзиши шартнома, дар як сол, панҷ миллион доллари ИМА ($5 000 000) буд. Ҳар як низоми ҷустуҷӯи дар саҳифаи ҷустуҷӯии Netscape бо навбат ҷойгир карда мешуданд. Панҷ низомҳои ҷустуҷӯӣ инҳо буданд: Yahoo!, Magellan, Lycos, Infoseek, ва Excite буданд.

Google идеяи фурӯхтани критерияҳои ҷустуҷӯиро соли 1998 аз ҷониби ширкати хурди goto.com  қабул кард. Чунин қадам дар бизнеси Низомҳои Ҷустуҷӯӣ (НҶ) таъсири калон расонид, ки аз мубориза то фоиданоктарин ширкат дар Интернет омада расид.

Низомҳои ҷустуҷӯи ҳамчун ситораҳои дурахшони Интернет инвеститсия буданд, ки охири солҳои 1990-ум пайдо шудаанд. Якчанд ширкатҳо ба бозори НҶ зуд ҷойгир шуданд, ки аз ибтидои пешниҳоди умумӣ даромади калон ба даст оварда буданд. Баъзе аз онҳо низоми ҷустуҷӯии умумии худро маҳкам карда, фақат бо нашрияҳои барои корхона сохта шударо мефурӯшанд, аз он ҷумла ширкати Northern Light. Бисёр ширкатҳои НҶ аз соли 1999 то соли 2001 дар қулла буданду, лекин аз байн рафтанд.

Тақрибан соли 2000-ум низоми ҷустуҷӯии Google, хеле машҳур шуд. Ширкати мазкур натиҷаҳои хубро аз ҳисоби инноватсияи PageRank, ки дар мақолаи “Анатомияи Низоми Ҷустуҷӯӣ”, ки аз ҷониби асосгузорони Google Сергей Брин (Sergey Brin) ва Ларри Пейҷ (Larry Page) навишта шуда буд, ба даст овард. Ин аргоритм дар асоси рақами тартиби ва PageRank-и дигар web-сомонаҳо ва web-саҳифаҳои монанд ва алоқаманд, ба web-саҳифаҳо баҳогузори мекунад, ки web-саҳифаҳои хубу дилхоҳ алоқамандӣ доранд. Инчунин, Google низоми ҷустуҷӯии худро бо интерфейси минималистӣ таъмин карда буд. Баръакси ин аксарияти рақобатпазирон низоми ҷустуҷӯии худро дар web-портал ҷойгир карданд. Ҳақиқатан, низоми ҷустуҷӯии Google машҳур шуд, ки ҳатто низомҳои фиребгарона, монанди Mystery Seeker, пайдо шуданд.

Дар соли 2000-ум, Yahoo! Хизматрасонии ҷустуҷӯии худро, дар асоси низоми ҷустуҷӯии Inktomi, пешниҳод мекард. Yahoo! соли 2002 Inktomi , ва соли 2003 Overture-ро (ки AlltheWeb ва AltaVista-ро дар даст дошт) ба даст овард. Yahoo! ба низоми ҷустуҷӯии Google то соли 2004-ум гузашт, вақте ки онҳо низоми ҷустуҷӯии худро дар асоси технологияҳои ба даст овардаашон ба кор сар доданд.

Microsoft аввалин MSN Search-ро тирамоҳи соли 1998 бо истифодаи нитиҷаҳои ҷустуҷӯии Inktomi, ба кор сар дод. Дар ибтидои соли 1999 сомонаи мазкур, рӯйхатҳоро аз Looksmart ва бо натиҷаҳои Inktomi омехта карда, нишон доданро сар кард. Дар муддати кӯтоҳ дар соли 1999, MSN Search натиҷаҳои ҷустуҷӯии AltaVista –ро истифода мебурд. Дар соли 2004-ум Microsoft ба низоми ҷустуҷӯии худ гузаштанро сар кард, ки ин дар асоси web-crawler, бо номи msnbot буд.

Якуми июни соли 2009, Microsoft низоми ҷустуҷӯии худро бо номи Bing аз нав сар дод. Бисту нуҳуми июли соли 2009, Yahoo! ва Microsoft шартнома бастанд, ки Yahoo! Search дар асоси технологияи Microsoft Bing кор мекунад.

Дар ҷадвали 1 низомҳои ҷустуҷӯӣ, бо соли таъсис ёбӣ ва ҳолати ҷории онҳо оварда шудаанд.

Ҷадвали 1. Рӯйхати низомҳои ҷустуҷӯӣ

Сол Низом Ҳолат ҷорӣ
1993 W3Catalog Ғайри фаъол
Aliweb Ғайри фаъол
JumpStation Ғайри фаъол
WWW Worm Ғайри фаъол
1994 WebCrawler Фаъол, Aggregator
Go.com Ғайри фаъол, redirects to Disney
Lycos Фаъол
Infoseek Ғайри фаъол
1995 AltaVista Ғайри фаъол, redirected to Yahoo!
Daum Фаъол
Magellan Ғайри фаъол
Excite Фаъол
SAPO Фаъол
Yahoo! Фаъол, Launched as a directory
1996 Dogpile Фаъол, Aggregator
Inktomi Ғайри фаъол, acquired by Yahoo!
HotBot Фаъол (lycos.com)
Ask Jeeves Фаъол (rebranded ask.com)
1997 Northern Light Ғайри фаъол
Yandex Фаъол
1998 Google Фаъол
Ixquick Фаъол also as Startpage
MSN Search Фаъол, ҳамчун Bing
empas Ғайри фаъол (merged with NATE)
1999 AlltheWeb Ғайри фаъол (URL redirected to Yahoo!)
GenieKnows Фаъол, rebranded Yellowee.com
Naver Фаъол
Teoma Ғайри фаъол, redirects to Ask.com
Vivisimo Ғайри фаъол
2000 Baidu Фаъол
Exalead Фаъол
Gigablast Фаъол
2001 Kartoo Ғайри фаъол
2003 Info.com Фаъол
Scroogle Ғайри фаъол
2004 Yahoo! Search Фаъол, Launched own web search (see Yahoo! Directory, 1995)
A9.com Ғайри фаъол
Sogou Фаъол
2005 AOL Search Фаъол
GoodSearch Фаъол
2005 SearchMe Ғайри фаъол
2006 Soso Ғайри фаъол, redirects to Sogou
Quaero Ғайри фаъол
Search.com Фаъол
ChaCha Ғайри фаъол
Ask.com Фаъол
Live Search Фаъол, ҳамчун Bing, Launched as

rebranded MSN Search

2007 wikiseek Ғайри фаъол
Sproose Ғайри фаъол
Wikia Search Ғайри фаъол
Blackle.com Фаъол, Google Search
2008 Powerset Ғайри фаъол (redirects to Bing)
Picollator Ғайри фаъол
Viewzi Ғайри фаъол
Boogami Ғайри фаъол
LeapFish Ғайри фаъол
Forestle Ғайри фаъол (redirects to Ecosia)
DuckDuckGo Фаъол
2009 Bing Фаъол, Launched as rebranded Live Search
Yebol Ғайри фаъол
Mugurdy Ғайри фаъол due to a lack of funding
Scout (Goby) Фаъол
NATE Фаъол
2010 Blekko Ғайри фаъол, sold to IBM
Cuil Ғайри фаъол
Yandex (English) Фаъол
2011 YaCy Фаъол, P2P web search engine
2012 Volunia Ғайри фаъол
2013 Qwant Фаъол
Coc Coc Фаъол, Vietnamese search engine
Egerin Фаъол, Kurdish / Sorani search engine
2015 Cliqz Фаъол, Browser integrated search engine

Дар ҷадвали овардашуда, 35 низоми ҷустуҷӯии фаъол ва 37 низоми ҷустуҷӯии ғайри фаъол оварда шудаанд, ки миқдорашон ба 72 расидааст. Мумкин аст, ки рӯйхати овардашуда рӯз аз рӯз, метавонад тағйир ёбад.

Тарзи кори низоми ҷустуҷӯӣ[вироиш | вироиши манбаъ]

Низоми ҷустуҷӯи протсессҳои дар поён оварда шударо, дар вақти воқеъӣ таъмин мекунад.

- сканиронӣ (crawling);

- индексиронӣ (indexing);

- ҷустуҷӯкунӣ (searching).

Низомҳои web-ҷустуҷӯӣ маълумотҳоро бо воситаи web-сканиронӣ аз сомона то сомона, ба даст меоранд. Пеш аз фиристодани маълумоти муайян, “Тортанак” барои файли стандартӣ бо ном robot.txt, ки барои ин омода шудааст, тафтиш мекунад, ки индексиронии маълумотҳо аз якчанд факторҳо иборат аст, чунин факторҳо инҳоянд: сарлавҳаи саҳифа, маълумоти саҳифа, JavaScript (JS), Cascading Style Sheets (CSS), бобҳои стандартии HTML ё мета-маълумоти (metadata) дар HTMLтеги meta мавҷуд буда.

Индексиронӣ маънои онро дорад, ки калимаҳо ва дигар намуди маълумотҳо, ки дар web-саҳифаҳо мавҷуданд, ба номи домении сомона ва майдонҳои HTML-асос иттиҳод менамояд. Иттиҳодияҳо дар базаи маълумоти умумӣ сохта мешаванд, ки барои дархостҳои ҷустуҷӯи Интернетӣ, дастрас шаванд. Дархост, аз ҷониби истифодабаранда, метавонад аз як калима иборат бошад. Индекс барои зуд ёфтани маълумотҳои ба дархост дахл дошта ёри мерасонад.

Баъзе техникаҳои индексиронӣ ва кэширонӣ сирри тиҷоратӣ мебошанд, вале web-сканиронӣ протсесси оддӣ мебошад, ки ҳамаи сомонаҳоро дар асоси систематикӣ аз назар мегузаронад.

Дар байни аз назар гузаронии “Тортонак” версияи саҳифаи кэширонидашудае, ки дар хотираи кории низоми ҷустуҷӯӣ нигоҳ дошта мешавад, зуд ба дархостдиҳанда равона карда мешавад. Агар, аз назар гузаронӣ дер монад, низоми ҷустуҷӯӣ ҳамчун web-прокси фаъолият мебарад. Дар ин ҳолат саҳифа метавонад аз саҳифаи индексиронидашуда фарқ кунад. Дар саҳифаи кэширонидашуда, версияе нишон дода мешавад, ки калимаҳои он индексиронидашуда буданд. Вақте ки саҳифаи асли гум мешавад, версияи кэширонидашудаи саҳифа фоиданок меояд, лекин ин проблема формаи оддии linkrot шуморида мешавад.

Одатан, вақте ки  истифодабаранда дархостро ба низоми ҷустуҷӯӣ ворид мекунад, ин якчанд калимаи калидӣ мебошад. Индекс аллакай номи сомонаҳое, ки калимаҳои калидиро доранд, дар худ нигоҳ медорад ва онҳо аз индекс фавран дастрас мешаванд. Протсесси ҳақиқии сарборӣ ин генератсияи web-саҳифаҳое, ки рӯйхати натиҷаҳои ҷустуҷӯ мебошанд. Ҳар як саҳифа дар рӯйхати умумӣ, вобаста ба маълумоти индексҳо, бояд чен карда шаванд. Дар он вақт элементи натиҷаҳои ҷустуҷӯ, формаи ҷустуҷӯӣ, азнавсозӣ ва ҷойгиршавии фрагментҳое, ки зерматни калимаҳои калидиро нишон медиҳанд, дошта бошад. Он протсессҳо барои ҳар як саҳифаҳои натиҷаҳои ҷустуҷӯ такрор мешаванд.

Ба ғайр аз ҷустуҷӯи оддие, ки бо воситаи калимаи калидӣ иҷро мешавад, низомҳои ҷустуҷӯӣ GUI-и худро ё операторҳои коммандавӣ асос ва параметрҳои ҷустуҷӯие, ки барои аниқ кардани натиҷаҳои ҷустуҷӯ истифода бурда мешаванд, пешниҳод мекунанд.

Саҳм дар бозори ҷаҳонии НҶ[вироиш | вироиши манбаъ]

Google машҳуртарин низоми ҷустуҷӯӣ дар ҷаҳон ба ҳисоб меравад, ки саҳмияи бозориаш дар моҳи июни соли 2017 ба 91.86% расида аст. Дар ҷадвали 2 рӯйхати машҳуртарин НҶ дар ҷаҳон оварда шудаанд.

Ҷадвали 2. Рӯйхати машҳуртарин НҶ дар ҷаҳон

Низоми ҷустуҷӯи Саҳм дар бозор, Июни соли 2017
1 Google 91.86%
2 Bing 2.89%
3 Yahoo! 2.18%
4 Baidu 1.45%
5 Yandex 0.75%
6 Дигарон 0.87%

Чи хеле, ки дар ҷадвали 2 омори оварда шуда, низоми ҷустуҷӯии Google машҳуртарин дар ҷаҳон мебошад. Дар ҷадвали 3 рӯйхати машҳуртарин НҶ дар Ҷумҳурии Тоҷикистон (ҶТ) оварда шудааст.

Ҷадвали 3. Рӯйхати машҳуртарин НҶ дар ҶТ

Низоми ҷустуҷӯи Саҳм дар бозор, Июни соли 2017
1 Google 81.43%
2 Yandex 14.15%
3 Mail.ru 2.2%
4 Yahoo! 0.71%
5 Baidu 0.61%
6 Bing 0.59%
7 Дигарон 0.31%

Дар Ҷумҳурии Тоҷикистон ҷои якум низоми ҷустуҷӯии Google бо 81.43%, ҷои дуюм Yandex бо 14.15% ва ҷои сеюмро Mail.ru бо 2.2% саҳмияи бозор ишғол менамоянд.

По пайдоиши Интернет, одамон тарзи додугирифти нави маълумотҳоро пайдо карданд. Дар ибтидои соли 1990-ум шабакаи умумиҷаҳонӣ (WWW) пайдо шуда буд, ки имконияти гирифтани маълумотҳои ҳуҷҷатҳои дар байни худ алоқаманд ва дар компютерҳои гуногун ҷойгир ва ба Интернет пайваст бударо, пешниҳод мекард. Бо пайдоиши WWW, низомҳои ҷустуҷӯӣ пайдо шуданд, ки ҷустуҷӯи маълумотҳоро дар Интернет хеле осон мекарданд.

Дар ҷадвали 1-и ҳисоботи мазкур рӯйхати низомҳои ҷустуҷӯӣ овардашудаанд, ки аз онҳо 35 низоми ҷустуҷӯии фаъол ва 37 низоми ҷустуҷӯии ғайри фаъол, ки миқдорашон ба 72 расидааст. Мумкин аст, ки рӯйхати овардашуда рӯз аз рӯз, тавонад тағйир ёбад.

Чи хеле, ки дар қисми “Саҳм дар бозори Низомҳои ҷустуҷӯӣ”-и ҳисоботи мазкур оварда шудааст, низоми ҷустуҷӯии Google дар ҷаҳон бо 91.86% ва дар Ҷумҳурии Тоҷикистон бо 81.43%-и саҳми бозор, машҳуртарин низоми ҷустуҷӯӣ ба ҳисоб меравад.