پایان نامه بهینه سازی روش تشخیص اهمیت پیوند در پایگاه پیوند و کاربست آن در معماری موتور های جستجو

word 1 MB 31052 119
1393 کارشناسی ارشد مهندسی کامپیوتر

قیمت قدیم:۵۶,۰۰۰ تومان

قیمت: ۲۶,۰۰۰ تومان

دانلود فایل

بخشی از محتوا
وضعیت فهرست و منابع

پایان نامه کارشناسی ارشد رشته مهندسی کامپیوتر- نرم افزار (M.Sc)

چکیده

در عصر اطلاعات، وب امروزه به یکی از قدرتمند ترین و سریع ترین ابزار های ارتباطات و تعامل میان انسان ها بدل شده است. موتور های جستجو به عنوان برنامه های کاربردی وب به طور خودکار پهنه وب را پیمایش نموده و مجموعه ای از اسناد و مدارک بروز موجود را دریافت می کنند. فرآیند دریافت، ذخیره سازی، رده بندی و شاخص دهی بر اساس الگوریتم های نیمه هوشمند به صورت خودکار انجام می شود. اگر چه بسیاری از حقایق در مورد ساختار این برنامه های کاربردی به عنوان اسرار تجاری پنهان باقی مانده است، ادبیات تحقیق در شاخه ی موتورهای جستجو و ابزارهای بازیابی اطلاعات تلاش در یافتن بهترین راهکارها برای عملکرد بهینه ی هر ماژول در ساختار موتورهای جستجو دارد. با توجه به زمان محدود کاربران وب امروزی، ارائه مرتبط ترین و تازه ترین اسناد به آنها اغلب مهمترین چالشی برای موتورهای جستجو می باشد. برای انجام این مهم، هر ماژول در معماری موتور جستجو باید به گونه ای هوشمند طراحی شود که نه تنها اسناد مرتبط را ارائه دهد بلکه به پاسخگویی در سریع ترین زمان ممکن بپردازد. در میان این ماژول ها بخش حساس و حیاتی به نام خزنده وجود دارد. یکی از مسائل قابل بحث در بهینه سازی عملکرد موتورهای جستجو این است که، سیاست خزیدن پیکربندی مجدد گردد به طریقی که لینک های خارجی مرتبطی که به محتوای مرتبط با صفحات منبع پیوند می خورند دنبال گردد. ماژول خزنده مسئول واکشی صفحات برای ماژول رتبه بندی است. اگر صفحات با کیفیت بالاتر با انحراف موضوع کمتر توسط خزنده نمایه سازی شوند، رتبه بندی سریع تر انجام خواهد شد.

با در نظر گرفتن ساختار وب به صورت گراف، نحوه ی پیمایش وب به صورت روش های جستجوی گرافی می باشد. در این پژوهش، با بکار بردن تجربی روش های مختلف جستجوی گراف و ترکیبات مختلف آنها و با صدور پرس و جوهایی به موتور جستجوی گوگل جهت اندازه گیری کیفیت صفحات دریافتی و با ثابت در نظر گرفتن فاکتور عمق پیمایش به شناسایی بهترین روش با پیچیدگی زمانی و فضایی معقول به منظور بکار گیری در بخش خزنده در معماری موتور جستجو پرداخته خواهد شد.

کلمات کلیدی: خزنده وب، پیمایش گراف، موتورهای جستجو، انحراف موضوع.

فصل اول

کلیات

مقدمه

بدون وجود موتور های جستجوگر تقریباً وب جهان گستر بدون فایده است. اما سؤال این است که موتورهای جستجوگر چگونه در میان این همه وب سایت اطلاعات مورد نیاز ما را پیدا می کنند. اینترنت بسیار وسیع است و کاربران وب در حدود دو میلیارد برآورد می شوند. در این میان حداقل 250 میلیون وب سایت اینترنتی وجود دارد که در مجموع چیزی در حدود 30 میلیارد صفحه وب را در خود جای داده اند. گشتن در محیط وب[1] زمانی که بسیار کوچک و وب سایت ها بسیار کم بودند معمولاً اختصاص به پژوهشگران و اساتید دانشگاه داشت و می توان گفت که کار دشواری نیز به شمار می رفت[9].

با توسعه وب و زیاد شدن حجم اطلاعات و وب سایت ها نیاز به ابزاری جهت یافتن اطلاعات در این اقیانوس اطلاعات بیش از پیش احساس می شد. در همین حال در اوایل دهه نود میلادی بود که اولین موتورهای جستجوگر به نام آرچی[2] پا به عرصه حضور گذاشتند. یک موتور جستجوگر در قدم اول و قبل از آنکه بخواهد نتایجی را به کاربر نمایش دهد بایستی اطلاعات را جمع آوری و طبقه بندی کرده باشد. بنابراین موتورهای جستجو باید تا حد امکان وب سایت ها را مرور کنند و آدرس صفحات را با چکیده ای از محتویات صفحه ذخیره و طبقه بندی کنند. این وظیفه بسیار سنگین است و توسط خزندگان وب[3] انجام می شود[53].

این برنامه ها به صورت خودکار در وب به جستجو پرداخته و محتویات صفحات وب سایت ها را برای تحلیل بعدی ذخیره می کنند. از آنجا که تعداد صفحات و حجم آنها بسیار بالاست از این رو این کار در مقیاس بسیار بزرگی انجام می شود و به زمان و پهنای باند بالایی نیاز دارد. موتورهای جستجوگر معروف مخزن بسیار بزرگی را در صفحات وب ایجاد کرده اند اما خزندگان جدیدتر باید این کار را از صفر شروع کنند. خزنده ها برای شروع معمولاً به سراغ دایرکتوری های معروف می روند چون از طریق آنها می توانند به لیست بزرگی از سایت های مرتبط دسترسی پیدا کنند و با مرور این وب سایت ها خزنده وب هر چه بیشتر در فضای داخلی وب سایت ها فرو می رود و اطلاعات بیشتری بدست می آورد. تمامی این اطلاعات در مخزن ذخیره می شوند تا بعداً مورد تجزیه و تحلیل قرار گیرند[44].

یک خزنده با طراحی خوب می تواند محتوای صفحات وب را با سرعت بالایی مرور کند و در عین حال همگی خزندگان با کمک یک برنامه هماهنگ کننده اقدام به جستجو در وب می کنند تا این عمل دوباره تکرار نشود. این هماهنگ کننده باعث می شود که فاکتور تازگی صفحات حفظ شود تا جدیدترین نسخه آنها در بانک اطلاعاتی موتور جستجو قرار گیرد[46].

پس از آنکه خزندگان اطلاعات را در صفحات وب جمع آوری کردند این اطلاعات باید بر روی سرورهای سایت جستجوکننده ذخیره شوند. ذخیره و ایندکس کردن صفحات فراوان و بی شمار در وب یک چالش بزرگ است اما از آن مهم تر این است که موتور جستجو بداند که کاربرانش به دنبال چه چیزی هستند. هر چه قدر اطلاعات نمایش داده شده توسط یک موتور جستجو با عبارت جستجو شده توسط کاربر منطبق تر باشد، موتور جستجو عملکرد و محبوبیت بهتری دارد.

اما آنچه که یک وب سایت را در نتایج جستجوی یک موتور جستجوگر در رتبه ی بالاتری قرار می دهد در واقع نوع الگوریتم موتور جستجوگر در رتبه بندی صفحات یافت شده است. این الگوریتم مجموعه ای پیچیده از قواعد و ملاحظات گوناگون است که البته مدام در حال بهینه سازی است تا نتایج بهتری را در معرض نمایش کاربران قرار دهد. هر چقدر الگوریتم یک موتور جستجوگر بهتر عمل کند آن وب سایت نیز نتایج بهتری را به کاربران ارائه می دهد و از همین رو ضامن موفقیت یک موتور جستجوگر همان معماری و نوع الگوریتم جستجوی آن است. موتورهای جستجو همگی کل صفحات را بر اساس کلمات موجود در آن مورد ارزیابی قرار می دهند. اهمیت یک وب سایت هم در رتبه آن تاثیر مهمی دارد و اگر سایت های زیادی به یک صفحه خاص لینک دهند، موتور جستجو با وزن دهی[4] متوجه می شود که آن صفحه مهم است و به آن صفحه توجه بیشتری می کند. هر چه تعداد لینک ها از سایت های دیگر به یک سایت بیشتر باشد یعنی آن وب سایت مهمتر و معتبرتر است.

حال اگر وب سایتی که رتبه بالایی دارد به وب سایت دیگری لینک دهد، آن لینک ارزش بیشتری نسبت به چندین لینک خواهد داشت[35].

1-2 بیان مسأله

یک خزنده وب برنامه ای است که صفحات وب را عموماً برای یک موتور جستجوی وب دانلود می کند. خزنده های موتورهای جستجوی بزرگ مانند گوگل، آلتاویستا و ... از بخش قابل توجهی از صفحات وب متنی به منظور ساخت شاخص های محتوا استفاده می کنند. خزنده های دیگر همچنین ممکن است صفحات زیادی را مشاهده کنند و تنها برای نوع خاصی از اطلاعات مانند آدرس ایمیل مورد استفاده قرار گیرند. در انتهای دیگر این طیف، خزنده های شخصی سازی شده وجود دارد که صفحات مورد علاقه یک کاربر خاص را به منظور ساخت یک حافظه نهان در دسترس سریع پیمایش می کنند. طراحی یک خزنده خوب چالش های بسیاری را به دلیل گسترده بودن وب به همراه دارد و به طور دائم باید بروز باشد. بر طبق مطالعات مختلف بیش از یک میلیون صفحه در دسترس در وب وجود دارد و پیش بینی می شود که این نرخ رشد همچنان ادامه یابد. گذشته از این، صفحاتی که به تازگی ایجاد شده اند به طور مداوم در

حال بروز رسانی می باشند[5].

دشواری پیاده سازی خزنده وب کارآمد به روشنی بیان می کند که پهنای باند برای انجام عمل خزیدن نه بی نهایت است و نه آزاد. بنابراین، ضروری است که عمل خزیدن در وب را نه تنها در یک مقیاس، بلکه به صورت یک روش کارآمد انجام دهیم به طوریکه میزان قابل قبولی از کیفیت و یا تازگی صفحات وب حفظ شود پس مجری یک خزنده وب باید رفتارش را تعریف کند. بنابراین خزنده باید مشخص کند که از چه الگوریتمی جهت دانلود صفحات با کیفیت بالاتر استفاده می نماید و چگونه صفحات، جهت بروز رسانی و جلوگیری از ایجاد سربار در وب سایت ها انتخاب می شوند.

با توجه به اندازه فعلی وب، ضروری است که خزنده روی کسری از وب که از کیفیت محتوایی بالاتری برخوردارند عمل خزیدن را انجام دهد. حتی موتورهای جستجوی بزرگ امروزی نیز عمل خزیدن را فقط روی کسری از صفحات موجود در وب انجام می دهند اما خزنده باید عمل خزیدن را روی کسری از صفحات که با موضوع موردنظر مرتبط هستند انجام دهد نه فقط روی صفحات تصادفی یعنی صفحات باید بسته به اهمیتشان انتخاب شوند. اهمیت یک صفحه وب وابسته به تعداد لینک ها یا ملاقات ها آنها می باشد [23].

خزنده وب برای اینکه بتواند صفحات را با توجه به اهمیتشان ملاقات کند باید بتواند از یک استراتژی خوب و قوی جهت تشخیص کیفیت صفحات بهره ببرد. در این پژوهش، برای انتخاب یک استراتژی مناسب، کلیه استراتژی های پیمایش گراف و خزش مورد آزمایش قرار داده شد. این تحقیق ضمن بررسی روش های مختلف موجود در تشخیص اهمیت پیوندها به ارائه ی راهکار و الگوریتمی به منظور بهینه سازی روش های شناخت اهمیت پیوندها پرداخته است.

1-3 اهمیت و ضرورت انجام تحقیق

شبکه اینترنت در سایه وب جهان گستر، به یکی از قدرتمندترین و سریع‌ترین ابزارهای ارتباط و تعامل میان انسانها تبدیل گشته است. اینترنت به عنوان شاخص ترین نماد عصر اطلاعات با سرعتی حیرت انگیز در طی دهه اخیر رشد کرده است. یکی از امکانات وسیع اینترنت که سریع ترین رشد را نسبت به سایر امکانات اینترنت داشته است، وب است که بی تردید یکی از اصلی ترین عوامل رشد این شبکه به شمار می آید.

با توجه به اینکه بهترین موتورهای جستجو دارای پایگاه داده ای حدوداً 50 درصد صفحات موجود در وب هستند از این رو مستقر شدن پیوندهای با اهمیت بیشتر و الگوشناسایی و کشف آنها در کارایی موتورهای

جستجو و تامین رضایت کاربران بسیار حیاتی است[15].

یکی از راه هایی که موتور های جستجو، برای کاهش زمان جستجو به کار می برند، پیش پرداش محتوای وب سایت هاست. به این ترتیب که وقتی کاربر درخواست یک پرس و جو را می دهد. به جای این که این پرس وجو به میلیون ها وب سایت فرستاده شود، با داده از پیش پردازش شده در یک سایت مقایسه می شود و مطابقت صورت می پذیرد. پیش پردازش به کمک برنامه نرم افزاری به نام خزنده انجام می گیرد. خزنده موظف است صفحات وب را برای تحلیل و ایجاد شاخص در یک روال منظم، سریع و جامع استخراج کرده و تحویل انباره صفحات بدهد[10].

با توجه به مطالب ذکر شده، بررسی و بهینه نمودن موتورهای جستجو و به خصوص چگونگی دانلود صفحات و نوسازی آنها و هم چنین کم کردن بار به وجود آمده بر روی وب سایت ها و غیره، همگی مواردی هستند که ضرورت بحث را به طور واضح نشان می دهند.

1-4 ساختار پایان نامه

در این پایان نامه، در فصل دوم به بیان مبانی و مفاهیم پایه ای درباره انواع موتورهای جستجو، معماری و اجزای آن ها، همچنین نحوه ی عملکرد هر یک از اجزا خواهیم پرداخت و در ادامه مراحل کار موتورهای جستجو، الگوریتم های رتبه بندی و دسته بندی موتورهای جستجو از لحاظ کاربرد مورد بررسی قرار خواهند گرفت. در فصل سوم، معماری خزشگرهای وب، سیاست ها و استراتژی های انتخاب صفحات، چالش های اجرای یک خزنده وب بیان خواهد شد و در ادامه استراتژی های خزیدن به همراه الگوریتم های هر یک از آنان به طور کامل تشریح خواهد شد. در فصل چهارم نیز نتایج تجربی که بر روی برخی از الگوریتم های خزش مورد کاربرد در موتورهای جستجوی امروزی صورت گرفته، بیان و نمودارهای هر یک ترسیم و توضیح داده شده است و در آخر در فصل پنجم نیز نتایج حاصل شده بیان می گردد.

Optimization of link Importance detection approach in link database and its

employment in search engines architecture

Abstract

In today's information era, Web becomes one of the most powerful and fastest means of communication and interaction among human beings. Search engines as Web based applications traverse the Web automatically and receive the set of existing fresh and up-to-date documents. The process of receiving, storing, categorizing and indexing is done automatically based on partial smart algorithms. Although many facts about the structure of these applications remains hidden as commercial secrets, the literature tries to find the best approaches for each modules in the structure of search engines. Due to the limited time of today’s Web surfers, providing the most related and freshest documents to them is the most significant challenge for search engines. To do so, every module in search engine architecture should be designed as smart as possible to yield not only the most related documents but also to act in a timely manner. Among these modules is the sensitive part of crawler. One of the open issues in optimization of search engines’ performance is to reconfigure crawling policy in a way that it follows the most promising out-links that carries the content related to the source page. Crawler module has the responsibility to fetch pages for ranking modules. If higher quality pages with less content drift are indexed by the crawlers, the ranking module will perform faster.

According to the graph structure of the Web, the way of traversing the Web is based on the literature on graph search methods. This paper experimentally employs different graph search methods and different combinations of them by issuing some queries to Google engine to measure the quality of received pages with fixing the factor of graph depth to identify the best method with reasonable time and space complexity to be employed in crawler section in search engine architecture.

Keywords: Web Crawler, Graph Traversal approaches, Search Engines Optimization,

                  Content Drift.
فهرست:

چکیده 1

فصل اول: کلیات... 2

1-1 مقدمه. 3

1-2 بیان مسأله. 4

1-3 اهمیت و ضرورت انجام تحقیق.. 5

1-4 ساختار پایان نامه. 6

فصل دوم: مبانی و مفاهیم پایه 7

2-1 مقدمه. 8

2-2 انواع موتورهای جستجو. 13

   2-2-1 موتورهای کلید واژه ای.. 13

   2-2-2 موتورهای جستجو بر اساس فهرست راهنمای موضوعی.. 13

   2-2-3 موتورهای جستجوی مبتنی بر خزنده 15

       2-2-3-1 تفاوت موتورهای دایرکتوری با موتورهای مبتنی بر خزنده 16

   2-2-4 موتورهای جستجوی ترکیبی.. 16

   2-2-5 موتورهای جستجوی متا 17

       2-2-5-1 فهرستی از موتورهای جستجو. 17

   2-2-5-2 جستجوی متوالی.. 17

       2-2-5-3 جستجوی هم زمان. 17

   2-2-6 موتورهای جستجوی هوشمند. 18

   2-2-7 موتورهای جستجوگر مبتنی بر هزینه. 18

2-3 معماری موتورهای جستجو. 20

2-4 اجزای معماری موتورهای جستجو. 22

2-5 استراتژی های روزآمد سازی مخزن. 27

   2-5-1 روش دسته ای یا خزنده دائمی.. 27

   2-5-2 جستجوهای نسبی یا کامل.. 32

2-6 دو نمایه اصلی واحد نمایه ساز. 28

2-7 یک مثال از نحوه عملکرد موتور جستجو. 31

2-8 مراحل کار موتورهای جستجو.................................................................................................. 31

   2-8-1 پیش پردازش دادها 31

   2-8-2 الویت بندی نتایج.. 32

2-9 برچسب ها 33

   2-9-1 برچسب های توصیفی متن.. 33

   2-9-2- بر چسب alt tag. 33

2-10 فایل robots.txt 34

2-11 موقعیت و مسافت... 34

2-12 مشکلات خزنده 35

2-13 روشهای بهینه سازی موتورهای جستجو. 35

2-13-1 شاخص گذاری.. 35

   2-13-2 جلوگیری از خزش و استاندارد خروج روبات ها 35

   2-13-3 افزایش اهمیت... 36

2-14 الگوریتم های رتبه بندی.. 37

   2-14-1 پارامتر های رتبه دهی.. 37

   2-14-2 وزن دهی به کلمات... 37

   2-14-3 ارزیابی کلمات کلیدی.. 37

   2-14-4 پارامتر های وزن دهی.. 38

   2-14-5 بازیابی تحمل پذیر. 38

   2-14-6 الگوریتم کلی غلط یابی املایی در موتور های جستجو. 38

   2-14-7 غلط یابی املایی.. 39

   2-14-8 الگوریتم فاصله ویرایشی.. 39

   2-14-9 الگوریتم مجاورت کی-گرم. 40

   2-14-10 غلط یابی حساس به متن.. 40

   2-14-11 مفهوم ربط.. 41

       2-14-11-1 ربط از نظر کاربر. 42

   2-14-11-2 ربط از نظر سیستم بازیابی.. 42

   2-14-12 نظر خواهی از کاربر در رتبه بندی.. 43

   2-14-13 موتورهای جستجوی اصلی.. 43

   2-14-13-1 Google. 43

   2-14-13-2   Excite. 44

   2-14-13-3 Altavista. 44

   2-14-13-4 Yahoo. 44

   2-14-13-5 Fast 44

       2-14-13-6   Lycos 44

   2-14-14 موتورهای جستجوی خبری.. 45

   2-14-15 متا کراولر. 46

   2-14-16 موتورهای جستجوی منفعتی.. 48

   2-14-17 موتورهای جستجوی لیست پرداخت... 49

   2-14-18 موتورهای جستجوی اختصاصی.. 49

   2-14-19 جستجوی پاسخ.. 50

   2-14-20 موتورهای جستجوی کودکان. 51

   2-14-21 موتورهای جستجوی منطقه ای.. 51

   2-15 نتیجه گیری.. 52

فصل سوم: معماری خزنده وب و استراتژی های خزش... 53

3-1 مقدمه. 54

3-2 معماری خزنده های وب... 54

3-3 انتخاب صفحه. 56

3-4 اهمیت صفحه. 57

3-5 چالش های اجرای یک خزنده 57

3-5-1 انتخاب صفحات برای دانلود. 57

3-5-1 انتخاب صفحات برای دانلود. 57

3-6 پیچیدگی های فرآیند خزیدن. 58

   3-6-1 استرات‍ژی های سنجش انتخاب صفحات... 58

      3-6-1-1 معیار مبتنی بر گرایشات کاربران. 58

      3-6-1-2 معیار مبتنی بر شهرت صفحات... 58

      3-6-1-3 معیار مبتنی بر محل قرار گرفتن صفحات... 58

3-7 چگونگی آغاز و ختم فرآیند استخراج و ذخیره سازی صفحات وب... 59

   3-7-1 خزش و توقف.......................................................................................................... 59

   3-7-2 خزش و توقف مبتنی بر مقدار آستانه........................................................................... 59

3-8 استراتژی های روزآمدسازی صفحات... 60

3-8-1 سیاست روزآمد سازی یکپارچه. 60

   3-8-2 سیاست روزآمد سازی نسبی.. 60

3-9 به حداقل رساندن بار روی وب سایت های بازدید شده 60

3-10 موازی سازی روند خزنده 60

3-11 ساختار وب... 61

3-12 استراتژی های خزش... 62

    3-12-1 جستجوی ناآگاهانه. 62

        3-12-1-1 حرکت اول عمق.. 62

        3-12-1-2 حرکت اول سطح.. 63

       3-12-1-3 جستجو با هزینه یکنواخت... 65

   3-12-2 جستجوی آگاهانه یا اکتشافی.. 66

       3-12-2-1 حرکت بهترین-شروع. 67

       3-12-2-2 جستجوی * A.. 69

   3-12-3 جستجوی محلی.. 69

       3-12-3-1 جستجوی تپه نوردی.. 70

       3-12-3-2 جستجوی پرتو محلی.. 70

       3-12-3-3 جستجوی شبیه سازی حرارت... 71

       3-12-3-4 الگوریتم آستانه پذیرش... 72

       3-12-3-2 جستجوی پرتو محلی.. 70

3-13 نتیجه گیری.. 73

فصل چهارم: تجزیه و تحلیل نتایج حاصل از تحقیق.. 74

4-1 مقدمه. 75

4-2 مرحله اول: بررسی روش اول سطح.. 75

4-3 مرحله دوم: بررسی روش اول عمق.. 80

4-4 مرحله سوم: بررسی روش ترکیبی.. 86

   4-4-1 ترکیب اول: پیمایش اولین سطح به صورت BFS. 86

   4-4-2 ترکیب دوم: پیمایش اولین و دومین سطح به صورت BFS. 86

   4-4-3 ترکیب سوم: پیمایش اولین و دومین و سومین سطح به صورت BFS. 86

4-5 مرحله چهارم: بررسی روش بهترین-شروع. 86

4-6 مرحله پنجم: بررسی روش تپه نوردی.. 87

4-7 نتایج تجربی بدست آمده 88

4-8 تعداد صفحات دانلود شده برای هر پرس و جو. 90

4-9 نتیجه گیری.. 91

فصل پنجم: نتیجه گیری و ارائه پیشنهادات... 97

5-1 نتیجه گیری و جمع بندی نهایی.. 93

5-2 پیشنهادات و کارهای آینده 100

منابع. 101

منبع:

منابع فارسی

ارسطوپور، ش، 1385، "خزنده و ساختواره وب" ، مجله کتابداری و اطلاع رسانی، جلد 9، شماره 2، ص 15-4.

اسماعیلی، م. توکلی، هاشمی مجد، س، 1392، "خزندگان وب"، آزمایشگاه تخصصی آپا در زمینه امنیت فناوری اطلاعات و ارتباطات، شماره سند: APA_FUM_W_WEB_0111، ص 28-5.

انوری، ش، 1390، "بررسی موتورهای جستجوگر و مقایسه الگوریتم Pag Rank با الگوریتم “HITS اولین همایش سیستمهای هوشمند کامپیوتری و کاربردهای آنها. ص 7-2.

منابع لاتین

Ahmadi-Abkenari, F and Selamat, A, 2012, “An Architecture for a Focused Trend Parallel Web Crawler with the Application of Clickstream Analysis”, International Journal of Information Sciences, Elsevier, Vol. 184, pp: 266-281.

Ahmadi-Abkenari, F and Selamat, A, 2013, “Advantages of Employing LogRank Web Page Importance Metric in Domain Specific Web Search Engines”, JDCTA: International Journal of Digital Content Technology and its Applications, Vol. 7, No. 9, pp: 425-432.

Ahmadi-Abkenari, F, and Selamat, A. 2012, “LogRank: A Clickstream-based Web Page Importance Metric for Web Crawlers”, International Journal of Digital Content Technology and its Applications(JDCTA), Vol. 6, No.1, pp: 200-207.

Arasu, A, Cho, J, Garcia-Molina, H, Paepcke, A and Raghavan, S, 2001, “Searching the Web”, ACM Transactions on Internet Technology, Vol. 1, No. 1, pp: 2–43.

Baeza-Yates, R, Castillo, C, Marin, M and Rodriguez, A, 2005, “Crawling a country: Better strategies than breadth-first for Web page ordering”, In Proceedings of the 14th international conference on World Wide Web/ Industrial and Practical Experience Track, Chiba, Japan, ACM Press, pp: 864– 872.

Baeza-Yates, R, Carlos, C and Jean, F.S, 2004, “Web Dynamics, Structure, and Page Quality”, In Mark Levene and Alex Poulovassilis (editors), Web Dynamics Springer Verlag, pp: 93-109.

Brin, S and Page, L, 1998, “The Anatomy of a Large-Scale Hypertextual Web Search Engine”, International Journal of Computer Networks, vol. 30, Issue. 1-7, pp: 107-117.

Brandman, Onn, Cho, J and Garcia-Molina,H, 2000, “Crawler Friendly Servers”, In Proceedings of the Workshop on Performance and Architecture of Web Servers (PAWS), Santa Clara, California, Vol. 28, Issue. 2, pp: 9-14.

Castillo, C, “Effective Web Crawling”,Vol. 39, No. 1, N, SIGIR Forum, ACM Press, pp.9-38.

Castillo, C, Marin, M, R, Andrea and Baeza-Yates, Ricardo, 2004, “Scheduling Algorithms for Web Crawling”, In Latin American Web Conference (Web Media/LA-WEB), pp:10-17.

Chakrabarti, s , Joshi, M.M, Punera, K. and Pennock, D.M, ٢٠٠٢, "The Structure of Broad Topics On the Web". Proceedings of the 11th World Wide Web Conference, New York: ACM

Cho, J, 2002, “Parallel Crawlers”, 11th international conference on World Wide Web, ACM Press, New York, ISBN:1-58113-449-5, pp: 124-135.

Cho, J, Garcia-M, H and Lawrence, 1998, “Efficient Crawling through URL Ordering Page”, In Proceedings of the 7th World-Wide Web Conference, pp: 161-171.

Cho, J, Garcia-Molina, H, 2000, “The Evolution of the Web and Implications for an Incremental Crawler”, 26th International Conference on Very Large Data Bases, Cairo, Egypt, pp: 200-209.

Cho, J, Garcia-Molina, H, 2003, “Estimating Frequency of Change”, In ACM International Conference on Management of Data , Vol. 9, No. 3, pp: 256-290.

Cho, J, Garcia-Molina, H, 2000, “Synchronizing a database to Improve Freshness”, In ACM International Conference on Management of Data ,USA, pp: 117–128.

Cho, J, 2001, “Crawling the web: Discovery and aintenance of large-scale web data, chapter 2, Page Selection”, (P.HD), stanford university, pp: 7-26.

Cothey, Viv, 2004, “Web-Crawling Reliability ”, Journal of the American Society for Information Science and Technology, Vol. 55, Issue. 14, pp: 1228–1238.

Coenen, S.A.M,2012, “Motion Planning for Mobile Robots- A Guide, chapter 5, search algorithms”, Eindhoven University of Technology Department of Mechanical Engineering Control Systems Technology, pp: 43-49.

Gupta, A, Singh, K. B and Singh, R. K, 2013, “Study of WEB CRAWLING Polices”, International Journal of Innovative Technology and Exploring Engineering (IJITEE), ISSN: 2278-3075, Vol. 2, Issue. 6, pp: 65-67.

Hafri,Y and Djeraba, C, 2004, “High performance Crawling system”, In Proceedings of the 6th ACM SIGMM Int, Workshop on Multimedia Information Retrieval, pp: 299–306.

Hoffmann, J, 2000, “A heuristic for Domain Independent Planning, and its Use in an Enforced Hill-Climbing Algorithm”, 12th International Symposium on Methodologies for Intelligent Systems (ISMIS-00), Berlin, Springer, pp: 216–227.

Jensen, R.M, 2008, “Efficient AI: Uninformed Search, chapter 3”, IT University of Copenhagen, available at http://www.itu.dk/courses/IAIP/F2011/2/slides2.pdf.

Janbandhu, R, Dahiwale, p and Raghuwanshi, M.M, 2014, “Analysis of Web Crawling Algorithms”, International Journal on Recent and Innovation Trends in Computing and Communication(IJRITCC), ISSN: 2321-8169, Vol. 2 Issue. 3, pp: 488 – 492

Jiang, Q and Zhang, Y,2007, “Site Rank-Based Crawling Ordering Strategy for Search Engines”, IEEE 7th International Conference on Computer and Information Technology, Aizu-Wakamatsu, Japan, pp: 259-263.

Korf, R.E, 1985, “Depth-first iterative-deepening: An optimal admissible tree search”, Elsevier Science Publishers, Vol. 27, No. 1, pp: 97-109.

Kendall, G, 2014, “AI method: Simulated Annealin”, Training & Courses, Lecture Courses, University of Nottingham, pp: 1-8.

Khurana, D and Kumar, S, “Web Crawler: A Review”, International Journal of Computer Science & Management Studies(IJCSMS), ISSN: 2231 –5268, Vol. 12, Issue. 1, pp: 401-405.

Kumar, G, Duhan, N and Sharma, A.K. 2011, “Page Ranking Based on Number of Visits of Links of Web Page”, International Conference on Computer & Communication Technology (ICCCT), IEEE, pp: 11-14.

Liu, B, 2007, “Web Data Mining, Chapter 8, Web crawling”. ISBN: 3-540-37881-2, Springer Press, pp: 273-320.

Lam,S, 2001, “The Overview of Web Search Engines”, Department of Computer Science University of waterloo, available at https://cs.uwaterloo.ca/~tozsu/courses/cs748t/surveys/sunny.pdf.

Menczer, F and Srinivasan, P, 2004, “Topical Web Crawlers: Evaluating Adaptive Algorithms”, ACM Transactions on Internet Technology, Vol. 4, No. 4, pp: 378–419.

Menczer, F, Pant, G, Ruiz, M, and Srinivasan, P, 2001, “Evaluating topic-driven Web Crawlers”, In Proceedings of the 24th Annual International ACM SIGIR Conference on Research and Development in Information Retrieval, D.H, Kraft, W.B, Croft, D. J, Harper and J.Zobel, Eds, ACM Press, New York, NY, pp: 241–249.

Markopoulou, A, Kurant M and Thiran, P, 2010, “On the bias of BFS (Breadth First Search)”, International Teletraffic Congress(ITC 22), Amsterdam, The Netherlands, pp: 1-8.

Najork, M, Wiener, J.L, 2001, “Breadth-First Search Crawling Yields High-Quality Pages”, In WWW’01, 10th International World Wide Web Conference, pp: 114-118.

Nath, R and Chopra, Khyati, 2013, “Web Crawlers: Taxonomy, Issues & Challenges”, International Journal of Advanced Research in Computer Science and Software Engineering(IJARCSSE)”, ISSN: 2277 128X , Vol. 3, Issue. 4, pp: 944-948.

Naumann, F, 2011, “ Search Engines, Chapter 3:Crawls and Feeds”, Hasso Plattner Institute, IT System Engineering, Universitate Potsdam, pp: 46-64.

Nilsson, nils.j, 2009, “Artificial Intelligence: A new synthesis, chapter 8: uniformed search”, Elsevier, pp: 129-137.

Nilsson, nils.j, 2009, “Artificial Intelligence: A new synthesis, chapter 9: Heurestic Search”, Elsevier, pp: 139-154.

Ntoulas, l, Cho, Junghoo, Olston, C, 2004, “What’s New on the Web? The Evolution of the Web from a Search Engine Perspective”, In Proceedings of the 13th International Conference on World Wide Web, New York, USA, pp: 1-12.

Olston,Ch, and Najork, M, 2010, “Web Crawling’. Foundations and Trends in Information Retrieval”, Vol. 4, No. 3, pp: 175–246.

Pant, G and Menczer, F, 2003, “Topical Crawling for Business Intelligence”, In Proc. 7th European Conference on Research and Advanced Technology for Digital Libraries (ECDL), Norway. Pp:233-244

Pant, G, Srinivasan, P and Menczer, F, 2004, “Exploration versus Exploitation in Topic driven Crawlers”, ACM Transactions on Internet Technology, Vol. V, No. N, pp:1-38.

Pant, G, Srinivasan, P and Menczer, F, 2004, “Crawling the Web”, Web Dynamics, Springer- verlog, pp: 153-178.

Pinkerton, B, 2000, “WebCrawler: Finding What People Want, Chapter 4, The Crawler” (P.HD), University of Washington, pp: 30-40.

Pinkerton, B, 2000, “Web Crawler: Finding What People Want, Chapter 3, An Overview of WebCrawler” (P.HD), University of Washington, pp: 24-29.

Pinkerton, B, 2000, “Web Crawler: Finding What People Want, Chapter 2, Background and Related Work” (P.HD), University of Washington, pp: 8-23.

Pundhir, s and Rafiq , M. Q, 2011, “Performance Evaluation of Web Crawler”, International Journal of Computer Applications® (IJCA)/ International Conference on Emerging Technology Trends (ICETT), Kollam Kerala, pp 43-46.

Reid, M and Korf, R.E, 1998, “Complexity Analysis of Admissible Heuristic Search”, American Association for Artificial Intelligence (AAAI-98), pp: 1-6.

Seymour, T, Frantsvog, D and Kumar, S, 2011, “History Of Search Engines”, International Journal of Management & Information Systems, Vol. 15, No. 4, pp: 47-58.

Stern, R, Kulberis T and Felner, A, 2010, “Using Lookaheads with Optimal Best-First Search”, Proceedings of the Twenty-Fourth AAAI Conference on Artificial Intelligence (AAAI-10). pp: 185-90.

Sun, Y, 2008, “A Comprehensive Study of the Regulation and Behavior of Web Crawlers” (P.HD), The Pennsylvania State University, pp: 1-18.

Tarakeswar , K., Kavitha, D, 2011, “ Search Engines:A Study”, Journal of Computer Applications (JCA), ISSN: 0974-1925, Vol. IV, Issue 1, pp: 29-33.

Tyagi, N and Sharma, S, 2012, “Weighted Page Rank Algorithm Based on Number of Visits of Links of Web Page”, International Journal of Soft Computing and Engineering (IJSCE) , ISSN. 2231-2307, Vol. 2, Issue. 3, PP: 441-446.

Xindong, W, Vipin, K and Quinlan , J.R, 2008, “Top 10 algorithms in data mining”, Journal Knowledge and Information Systems archive, Vol. 14, Issue. 1, pp: 1-37.

Yadav ,D, Sharma, A.K and Gupta, J.P, “Change Detection in Web pages”, IEEE Proceeding of 10th International Conference on IT, ISBN: 0-7695-3068-0, Rourkela (India), pp: 265-270.

Zhengh, SH, Dmitriev, P and Giles, C, 2009, “Graph based Crawler Seed Selection”, 18th international conference on World wide web, USA, ISBN: 978-1-60558-487-4, pp: 1089-1090.

Udapure, T.V, Kale, R.D and Dharmik, R.C,2014, “Study of Web Crawler and its Different Types”, IOSR Journal of Computer Engineering (IOSR-JCE), ISSN: 2278-8727, Vol. 16, Issue. 1, pp: 1-5.

Vinod, A, Mayer, A, Nissimb, K, Pinkas, B and K. Reiter, M,1999, “Onthesecurityofpay-per-click and other Web advertising schemes”, Published by Elsevier Science B.V, pp: 13-22.

کلمات کلیدی: ساختار وب - صفحات وب - معماری موتور های جستجو - موتور جستجو - موتور جستجوگر - موتور های جستجو - وب

دانلود پایان نامه بهینه سازی روش تشخیص اهمیت پیوند در پایگاه پیوند و کاربست آن در معماری موتور های جستجو, پروژه دانشجویی برای پایان نامه بهینه سازی روش تشخیص اهمیت پیوند در پایگاه پیوند و کاربست آن در معماری موتور های جستجو, پروپوزال برای موضوع پایان نامه بهینه سازی روش تشخیص اهمیت پیوند در پایگاه پیوند و کاربست آن در معماری موتور های جستجو, تحقیق در مورد پایان نامه بهینه سازی روش تشخیص اهمیت پیوند در پایگاه پیوند و کاربست آن در معماری موتور های جستجو, مقاله پیرامون پایان نامه بهینه سازی روش تشخیص اهمیت پیوند در پایگاه پیوند و کاربست آن در معماری موتور های جستجو, رساله و تز دکترا با موضوع پایان نامه بهینه سازی روش تشخیص اهمیت پیوند در پایگاه پیوند و کاربست آن در معماری موتور های جستجو, گزارش سمینار پایان نامه بهینه سازی روش تشخیص اهمیت پیوند در پایگاه پیوند و کاربست آن در معماری موتور های جستجو

پایان نامه توسعه ی تکنیک های وب کاوی به منظور شخصی سازی اطلاعات در موتور های جستجو

مهندسی کامپیوتر ۱۹۰

پایان نامه دوره کارشناسی ارشد مهندسی کامپیوتر نرم افزار (M.Sc) چکیده ماهیت پویای شبکه جهانی و ابعاد رو به رشد آن، بازیابی دقیق اطلاعات را دشوار ساخته است. پاسخ های نادرست برگشت داده شده به وسیله ی موتورهای جستجو، خصوصا برای عبارات پرس‌و‌جو با معانی مختلف، باعث نارضایتی کاربران وب شده‌است که نیاز به پاسخ های دقیق برای تقاضاهای اطلاعاتی خود دارند. امروزه موتورهای جستجو تلاش ...

پایان نامه تشخیص هرزنامه وب به کمک تکنیک های داده کاوی

مهندسی کامپیوتر ۹۵

پایان نامه کارشناسی ارشد(M.sc) چکیده: امروزه هرزنامه[1] ها یکی از مشکلات اصلی موتور های جستجو هستند، به این دلیل که کیفیت نتایج جستجو را نامطلوب می سازند. در طول سالهای اخیر پیشرفتهای بسیاری در تشخیص صفحات جعلی وجود داشته است اما در پاسخ تکنیک های هرزنامه جدید نیز پدیدار شده اند. لازم است برای پیشی گرفتن به این حملات، تکنیک های ضد هرزنامه بهبود یابد. یک مساله عادی که ما با آن در ...

پایان نامه بهینه سازی خوشه ها با استفاده از الگوریتم های تکاملی برای شخصی سازی وب

مهندسی کامپیوتر ۷۹

پایان نامه کارشناسی ارشد رشته: مهندسی کامپیوتر گرایش: نرم‌افزار چکیده گرانبار شدن اطلاعات یک مشکل عمده در وب کنونی به شمار میرود. برای مقابله با این مشکل، سیستم‌های شخصیسازی وب ارائه شدهاند که محتوا و سرویسهای یک وبسایت را با افراد براساس علایق و رفتار گردشی آنها سازگار میکنند. یک مؤلفهی اساسی در هر سیستم شخصیسازی وب، مدل کاربر آن است. هدف از شخصی سازی وب، مهیا ساختن ...

پایان نامه بهینه سازی اجرا و پاسخ برنامه های C2C و B2C در فضای ابری با روش های توزیع، تسهیم و پیش پردازش، مطالعه موردی سیستم های انجین ایکس و وارنیش

مهندسی فناوری اطلاعات IT ۱۳۴

پایان نامه دوره کارشناسی ارشد رشته مهندسی فناوری اطلاعات چکیده در دنیای امروز اینترنت و مهم ترین سرویس آن وب، زندگی بشر را دچار تغییر و تحولات فراوانی کرده است. اینترنت تمام نیازهای اشخاص برای برقراری ارتباط با یکدیگر، به دست آوردن اطلاعات در هر زمینه ای، بازی و سرگرمی، آموزش و هر زمینه ای که به ذهن انسان خطور کند را فراهم می کند. اهمیت این سرویس به حدی رسیده است که همه روزه ...

پایان نامه بررسی رابطه استفاده از شبکه‌های اجتماعی مجازی و هویت دینی کاربران

علوم اجتماعی و جامعه شناسی ۱۳۰

پایان‌نامه تحصیلی در مقطع کارشناسی ارشد تبلیغ و ارتباطات فرهنگی چکیده پژوهش حاضر رابطه استفاده از شبکه‌های اجتماعی و هویت دینی کاربران را با هدف شناخت رابطه میان ویژگی‌های فردی کاربران و عوامل سیاسی و اجتماعی با هویت دینی آنها و در پی پاسخ به این پرسش اساسی که شبکه‌های اجتماعی مجازی چه آثار و پیامدهایی بر هویت کاربران دارند با استفاده از روش پیمایشی مورد مطالعه قرار داده است. ...

پایان نامه ارائه مدل مطلوب توسعه زیر ساخت‌ های صنعت چرم

مدیریت ۲۳۴

تحقيق پاياني دوره عالي آزاد تخصصي DBA مديريت استراتژيک تير 1391 چکيده هدف اين پژوهش تعيين مولفه هاي توسعه زير ساخت‌هاي صنعت چرم و تدوين مدل مناسبي براي توسعه زير ساخت‌هاي صنعت چرم

پایان نامه طراحی سایت پروژه دانشجویی

مهندسی کامپیوتر ۶۰

پايان نامه مقطع کارشناسي رشته مهندسي کامپيوتر سال 1386 پيشگفتار وب يکي از مهمترين و در عين حال جوان ترين سرويس هاي اينترنت است که در مدت زماني کوتاه توانسته است در کانون توجه

پایان نامه سیستم های مدیریت محتوا

مهندسی کامپیوتر ۱۲۲

سيستم هاي مديريت محتواچيست؟ سيستم مديريت محتوا ، ترجمه عبارت content management system يا CMS است ، که به معناي سيستم نرم افزاري اي است که به کمک آن محتوا مديريت مي شود و به نرم افزارهايي گف

پایان نامه سیستم های خبره

مهندسی کامپیوتر ۱۵۶

پايان نامه مقطع کارداني رشته کامپيوتر سال 1383 چکيده مؤلف هوش مصنوعي دانش ساخت ماشين ها يا برنامه هاي هوشمند است تعريف ديگري که ازهوش مصنوعي مي توان ارائه داد به قرارزيراست : هوش مصنوع

پایان نامه بررسی موانع بلوغ بکارگیری نظام الکترونیکی در اداره امور مالیاتی استان ایلام و ارائه راهکارهای اجرایی مناسب

مدیریت ۱۲۹

»M.A پایان‌ نامه برای دریافت درجه کارشناسی ارشد مدیریت « گرایش: بازار یابی چکیده: پژوهش حاضر با هدف تعیین موانع بلوغ بکارگیری نظام الکترونیکی در اداره امور مالیاتی استان ایلام انجام گرفت. جامعه آماری این پژوهش تمامی مدیران، کارکنان و سرپرستان واحدهای مختلف درسطوح مختلف سازمانی در اداره امور مالیاتی استان ایلام می باشد. حجم کل جامعه آماری برابر با 230 نفر ( 230= N ) بوده که حجم ...

ثبت سفارش