پایان نامه بهینه سازی روش تشخیص اهمیت پیوند در پایگاه پیوند و کاربست آن در معماری موتور های جستجو

word 1 MB 31052 119
1393 کارشناسی ارشد مهندسی کامپیوتر
قیمت: ۱۵,۴۷۰ تومان
دانلود فایل
  • بخشی از محتوا
  • وضعیت فهرست و منابع
  • پایان نامه کارشناسی ارشد رشته مهندسی کامپیوتر- نرم افزار (M.Sc)

    چکیده

    در عصر اطلاعات، وب امروزه به یکی از قدرتمند ترین و سریع ترین ابزار های ارتباطات و تعامل میان انسان ها بدل شده است. موتور های جستجو به عنوان برنامه های کاربردی وب به طور خودکار پهنه وب را پیمایش نموده و مجموعه ای از اسناد و مدارک بروز موجود را دریافت می کنند. فرآیند دریافت، ذخیره سازی، رده بندی و شاخص دهی بر اساس الگوریتم های نیمه هوشمند به صورت خودکار انجام می شود. اگر چه بسیاری از حقایق در مورد ساختار این برنامه های کاربردی به عنوان اسرار تجاری پنهان باقی مانده است، ادبیات تحقیق در شاخه ی موتورهای جستجو و ابزارهای بازیابی اطلاعات تلاش در یافتن بهترین راهکارها برای عملکرد بهینه ی هر ماژول در ساختار موتورهای جستجو دارد. با توجه به زمان محدود کاربران وب امروزی، ارائه مرتبط ترین و تازه ترین اسناد به آنها اغلب مهمترین چالشی برای موتورهای جستجو می باشد. برای انجام این مهم، هر ماژول در معماری موتور جستجو باید به گونه ای هوشمند طراحی شود که نه تنها اسناد مرتبط را ارائه دهد بلکه به پاسخگویی در سریع ترین زمان ممکن بپردازد. در میان این ماژول ها بخش حساس و حیاتی به نام خزنده وجود دارد. یکی از مسائل قابل بحث در بهینه سازی عملکرد موتورهای جستجو این است که، سیاست خزیدن پیکربندی مجدد گردد به طریقی که لینک های خارجی مرتبطی که به محتوای مرتبط با صفحات منبع پیوند می خورند دنبال گردد. ماژول خزنده مسئول واکشی صفحات برای ماژول رتبه بندی است. اگر صفحات با کیفیت بالاتر با انحراف موضوع کمتر توسط خزنده نمایه سازی شوند، رتبه بندی سریع تر انجام خواهد شد.

    با در نظر گرفتن ساختار وب به صورت گراف، نحوه ی پیمایش وب به صورت روش های جستجوی گرافی می باشد. در این پژوهش، با بکار بردن تجربی روش های مختلف جستجوی گراف و ترکیبات مختلف آنها و با صدور پرس و جوهایی به موتور جستجوی گوگل جهت اندازه گیری کیفیت صفحات دریافتی و با ثابت در نظر گرفتن فاکتور عمق پیمایش به شناسایی بهترین روش با پیچیدگی زمانی و فضایی معقول به منظور بکار گیری در بخش خزنده در معماری موتور جستجو پرداخته خواهد شد.

    کلمات کلیدی: خزنده وب، پیمایش گراف، موتورهای جستجو، انحراف موضوع.

    فصل اول

    کلیات

    مقدمه

    بدون وجود موتور های جستجوگر تقریباً وب جهان گستر بدون فایده است. اما سؤال این است که موتورهای جستجوگر چگونه در میان این همه وب سایت اطلاعات مورد نیاز ما را پیدا می کنند. اینترنت بسیار وسیع است و کاربران وب در حدود دو میلیارد برآورد می شوند. در این میان حداقل 250 میلیون وب سایت اینترنتی وجود دارد که در مجموع چیزی در حدود 30 میلیارد صفحه وب را در خود جای داده اند. گشتن در محیط وب[1] زمانی که بسیار کوچک و وب سایت ها بسیار کم بودند معمولاً اختصاص به پژوهشگران و اساتید دانشگاه داشت و می توان گفت که کار دشواری نیز به شمار می رفت[9].

    با توسعه وب و زیاد شدن حجم اطلاعات و وب سایت ها نیاز به ابزاری جهت یافتن اطلاعات در این اقیانوس اطلاعات بیش از پیش احساس می شد. در همین حال در اوایل دهه نود میلادی بود که اولین موتورهای جستجوگر به نام آرچی[2] پا به عرصه حضور گذاشتند. یک موتور جستجوگر در قدم اول و قبل از آنکه بخواهد نتایجی را به کاربر نمایش دهد بایستی اطلاعات را جمع آوری و طبقه بندی کرده باشد. بنابراین موتورهای جستجو باید تا حد امکان وب سایت ها را مرور کنند و آدرس صفحات را با چکیده ای از محتویات صفحه ذخیره و طبقه بندی کنند. این وظیفه بسیار سنگین است و توسط خزندگان وب[3] انجام می شود[53].

    این برنامه ها به صورت خودکار در وب به جستجو پرداخته و محتویات صفحات وب سایت ها را برای تحلیل بعدی ذخیره می کنند. از آنجا که تعداد صفحات و حجم آنها بسیار بالاست از این رو این کار در مقیاس بسیار بزرگی انجام می شود و به زمان و پهنای باند بالایی نیاز دارد. موتورهای جستجوگر معروف مخزن بسیار بزرگی را در صفحات وب ایجاد کرده اند اما خزندگان جدیدتر باید این کار را از صفر شروع کنند. خزنده ها برای شروع معمولاً به سراغ دایرکتوری های معروف می روند چون از طریق آنها می توانند به لیست بزرگی از سایت های مرتبط دسترسی پیدا کنند و با مرور این وب سایت ها خزنده وب هر چه بیشتر در فضای داخلی وب سایت ها فرو می رود و اطلاعات بیشتری بدست می آورد. تمامی این اطلاعات در مخزن ذخیره می شوند تا بعداً مورد تجزیه و تحلیل قرار گیرند[44].

    یک خزنده با طراحی خوب می تواند محتوای صفحات وب را با سرعت بالایی مرور کند و در عین حال همگی خزندگان با کمک یک برنامه هماهنگ کننده اقدام به جستجو در وب می کنند تا این عمل دوباره تکرار نشود. این هماهنگ کننده باعث می شود که فاکتور تازگی صفحات حفظ شود تا جدیدترین نسخه آنها در بانک اطلاعاتی موتور جستجو قرار گیرد[46].

    پس از آنکه خزندگان اطلاعات را در صفحات وب جمع آوری کردند این اطلاعات باید بر روی سرورهای سایت جستجوکننده ذخیره شوند. ذخیره و ایندکس کردن صفحات فراوان و بی شمار در وب یک چالش بزرگ است اما از آن مهم تر این است که موتور جستجو بداند که کاربرانش به دنبال چه چیزی هستند. هر چه قدر اطلاعات نمایش داده شده توسط یک موتور جستجو با عبارت جستجو شده توسط کاربر منطبق تر باشد، موتور جستجو عملکرد و محبوبیت بهتری دارد.

    اما آنچه که یک وب سایت را در نتایج جستجوی یک موتور جستجوگر در رتبه ی بالاتری قرار می دهد در واقع نوع الگوریتم موتور جستجوگر در رتبه بندی صفحات یافت شده است. این الگوریتم مجموعه ای پیچیده از قواعد و ملاحظات گوناگون است که البته مدام در حال بهینه سازی است تا نتایج بهتری را در معرض نمایش کاربران قرار دهد. هر چقدر الگوریتم یک موتور جستجوگر بهتر عمل کند آن وب سایت نیز نتایج بهتری را به کاربران ارائه می دهد و از همین رو ضامن موفقیت یک موتور جستجوگر همان معماری و نوع الگوریتم جستجوی آن است. موتورهای جستجو همگی کل صفحات را بر اساس کلمات موجود در آن مورد ارزیابی قرار می دهند. اهمیت یک وب سایت هم در رتبه آن تاثیر مهمی دارد و اگر سایت های زیادی به یک صفحه خاص لینک دهند، موتور جستجو با وزن دهی[4] متوجه می شود که آن صفحه مهم است و به آن صفحه توجه بیشتری می کند. هر چه تعداد لینک ها از سایت های دیگر به یک سایت بیشتر باشد یعنی آن وب سایت مهمتر و معتبرتر است.

    حال اگر وب سایتی که رتبه بالایی دارد به وب سایت دیگری لینک دهد، آن لینک ارزش بیشتری نسبت به چندین لینک خواهد داشت[35].

    1-2 بیان مسأله

    یک خزنده وب برنامه ای است که صفحات وب را عموماً برای یک موتور جستجوی وب دانلود می کند. خزنده های موتورهای جستجوی بزرگ مانند گوگل، آلتاویستا و ... از بخش قابل توجهی از صفحات وب متنی به منظور ساخت شاخص های محتوا استفاده می کنند. خزنده های دیگر همچنین ممکن است صفحات زیادی را مشاهده کنند و تنها برای نوع خاصی از اطلاعات مانند آدرس ایمیل مورد استفاده قرار گیرند. در انتهای دیگر این طیف، خزنده های شخصی سازی شده وجود دارد که صفحات مورد علاقه  یک کاربر خاص را به منظور ساخت یک حافظه نهان در دسترس سریع پیمایش می کنند. طراحی یک خزنده خوب چالش های بسیاری را به دلیل گسترده بودن وب به همراه دارد و به طور دائم باید بروز باشد. بر طبق مطالعات مختلف بیش از یک میلیون صفحه در دسترس در وب وجود دارد و پیش بینی می شود که این نرخ رشد همچنان ادامه یابد. گذشته از این، صفحاتی که به تازگی ایجاد شده اند به طور مداوم در

    حال بروز رسانی می باشند[5].

    دشواری پیاده سازی خزنده وب کارآمد به روشنی بیان می کند که پهنای باند برای انجام عمل خزیدن نه بی نهایت است و نه آزاد. بنابراین، ضروری است که عمل خزیدن در وب را نه تنها در یک مقیاس، بلکه به صورت یک روش کارآمد انجام دهیم به طوریکه میزان قابل قبولی از کیفیت و یا تازگی صفحات وب حفظ شود پس مجری یک خزنده وب باید رفتارش را تعریف کند. بنابراین خزنده باید مشخص کند که از چه الگوریتمی جهت دانلود صفحات با کیفیت بالاتر استفاده می نماید و چگونه صفحات، جهت بروز رسانی و جلوگیری از ایجاد سربار در وب سایت ها انتخاب می شوند.

    با توجه به اندازه فعلی وب، ضروری است که خزنده روی کسری از وب که از کیفیت محتوایی بالاتری برخوردارند عمل خزیدن را انجام دهد. حتی موتورهای جستجوی بزرگ امروزی نیز عمل خزیدن را فقط روی کسری از صفحات موجود در وب انجام می دهند اما خزنده باید عمل خزیدن را روی کسری از صفحات که با موضوع موردنظر مرتبط هستند انجام دهد نه فقط روی صفحات تصادفی یعنی صفحات باید بسته به اهمیتشان انتخاب شوند. اهمیت یک صفحه وب وابسته به تعداد  لینک ها یا ملاقات ها آنها می باشد [23].

    خزنده وب برای اینکه بتواند صفحات را با توجه به اهمیتشان ملاقات کند باید بتواند از یک استراتژی خوب و قوی جهت تشخیص کیفیت صفحات بهره ببرد. در این پژوهش، برای انتخاب یک استراتژی مناسب، کلیه استراتژی های پیمایش گراف و خزش مورد آزمایش قرار داده شد. این تحقیق ضمن بررسی روش های مختلف موجود در تشخیص اهمیت پیوندها به ارائه ی راهکار و الگوریتمی به منظور بهینه سازی روش های شناخت اهمیت پیوندها پرداخته است.

    1-3 اهمیت و ضرورت انجام تحقیق

    شبکه اینترنت در سایه وب جهان گستر، به یکی از قدرتمندترین و سریع‌ترین ابزارهای ارتباط و تعامل میان انسانها تبدیل گشته است. اینترنت به عنوان شاخص ترین نماد عصر اطلاعات با سرعتی حیرت انگیز در طی دهه اخیر رشد کرده است. یکی از امکانات وسیع اینترنت که سریع ترین رشد را نسبت به سایر امکانات اینترنت داشته است، وب است که بی تردید یکی از اصلی ترین عوامل رشد این شبکه به شمار می آید.

    با توجه به اینکه بهترین موتورهای جستجو دارای پایگاه داده ای حدوداً 50 درصد صفحات موجود در وب هستند از این رو مستقر شدن پیوندهای با اهمیت بیشتر و الگوشناسایی و کشف آنها در کارایی موتورهای

    جستجو و تامین رضایت کاربران بسیار حیاتی است[15].

    یکی از راه هایی که موتور های جستجو، برای کاهش زمان جستجو به کار می برند، پیش پرداش محتوای وب سایت هاست. به این ترتیب که وقتی کاربر درخواست یک پرس و جو را می دهد. به جای این که این پرس وجو به میلیون ها وب سایت فرستاده شود، با داده از پیش پردازش شده در یک سایت مقایسه می شود و مطابقت صورت می پذیرد. پیش پردازش به کمک برنامه نرم افزاری به نام خزنده انجام می گیرد. خزنده موظف است صفحات وب را برای تحلیل و ایجاد شاخص در یک روال منظم، سریع و جامع استخراج کرده و تحویل انباره صفحات بدهد[10].

    با توجه به مطالب ذکر شده، بررسی و بهینه نمودن موتورهای جستجو و به خصوص چگونگی دانلود صفحات و نوسازی آنها و هم چنین کم کردن بار به وجود آمده بر روی وب سایت ها و غیره، همگی مواردی هستند که ضرورت بحث را به طور واضح نشان می دهند.

    1-4 ساختار پایان نامه      

    در این پایان نامه، در فصل دوم به بیان مبانی و مفاهیم پایه ای درباره انواع موتورهای جستجو، معماری و اجزای آن ها، همچنین نحوه ی عملکرد هر یک از اجزا خواهیم پرداخت و در ادامه مراحل کار موتورهای جستجو، الگوریتم های رتبه بندی و دسته بندی موتورهای جستجو از لحاظ کاربرد مورد بررسی قرار خواهند گرفت. در فصل سوم، معماری خزشگرهای وب، سیاست ها و استراتژی های انتخاب صفحات، چالش های اجرای یک خزنده وب بیان خواهد شد و در ادامه استراتژی های خزیدن به همراه الگوریتم های هر یک از آنان به طور کامل تشریح خواهد شد. در فصل چهارم نیز نتایج تجربی که بر روی برخی از الگوریتم های خزش مورد کاربرد در موتورهای جستجوی امروزی صورت گرفته، بیان و نمودارهای هر یک ترسیم و توضیح داده شده است و در آخر در فصل پنجم نیز نتایج حاصل شده بیان می گردد.

    Optimization of  link Importance detection approach in link database and its  

     employment in search engines architecture

    Abstract

     

    In today's information era, Web becomes one of the most powerful and fastest means of communication and interaction among human beings. Search engines as Web based applications traverse the Web automatically and receive the set of existing fresh and up-to-date documents. The process of receiving, storing, categorizing and indexing is done automatically based on partial smart algorithms. Although many facts about the structure of these applications remains hidden as commercial secrets, the literature tries to find the best approaches for each modules in the structure of search engines. Due to the limited time of today’s Web surfers, providing the most related and freshest documents to them is the most significant challenge for search engines. To do so, every module in search engine architecture should be designed as smart as possible to yield not only the most related documents but also to act in a timely manner. Among these modules is the sensitive part of crawler. One of the open issues in optimization of search engines’ performance is to reconfigure crawling policy in a way that it follows the most promising out-links that carries the content related to the source page. Crawler module has the responsibility to fetch pages for ranking modules. If higher quality pages with less content drift are indexed by the crawlers, the ranking module will perform faster.

    According to the graph structure of the Web, the way of traversing the Web is based on the literature on graph search methods. This paper experimentally employs different graph search methods and different combinations of them by issuing some queries to Google engine to measure the quality of received pages with fixing the factor of graph depth to identify the best method with reasonable time and space complexity to be employed in crawler section in search engine architecture.

    Keywords: Web Crawler, Graph Traversal approaches, Search Engines Optimization,  

                      Content Drift. 

  • فهرست:

    چکیده 1

    فصل اول: کلیات... 2

    1-1 مقدمه. 3

    1-2 بیان مسأله. 4

    1-3 اهمیت و ضرورت انجام تحقیق.. 5

    1-4 ساختار پایان نامه. 6

    فصل دوم: مبانی و مفاهیم پایه 7

    2-1 مقدمه. 8

    2-2 انواع موتورهای جستجو. 13

       2-2-1 موتورهای کلید واژه ای.. 13

       2-2-2 موتورهای جستجو بر اساس فهرست راهنمای موضوعی.. 13

       2-2-3 موتورهای جستجوی مبتنی بر خزنده 15

           2-2-3-1 تفاوت موتورهای دایرکتوری با موتورهای مبتنی بر خزنده 16

       2-2-4  موتورهای جستجوی ترکیبی.. 16

       2-2-5 موتورهای جستجوی متا 17 

           2-2-5-1 فهرستی از موتورهای جستجو. 17

       2-2-5-2 جستجوی متوالی.. 17

           2-2-5-3 جستجوی هم زمان. 17

       2-2-6 موتورهای جستجوی هوشمند. 18

       2-2-7 موتورهای جستجوگر مبتنی بر هزینه. 18

    2-3 معماری موتورهای جستجو. 20

    2-4 اجزای معماری موتورهای جستجو. 22

    2-5 استراتژی های روزآمد سازی مخزن. 27

       2-5-1 روش دسته ای یا خزنده دائمی.. 27

       2-5-2 جستجوهای نسبی یا کامل.. 32

    2-6 دو نمایه اصلی واحد نمایه ساز. 28

    2-7 یک مثال از نحوه عملکرد موتور جستجو. 31

    2-8 مراحل کار موتورهای جستجو.................................................................................................. 31  

       2-8-1 پیش پردازش دادها 31

       2-8-2 الویت بندی نتایج.. 32

    2-9 برچسب ها 33

       2-9-1 برچسب های توصیفی متن.. 33

       2-9-2- بر چسب alt tag. 33

    2-10 فایل robots.txt 34

    2-11 موقعیت و مسافت... 34

    2-12 مشکلات خزنده 35

    2-13 روشهای بهینه سازی موتورهای جستجو. 35

    2-13-1 شاخص گذاری.. 35

       2-13-2 جلوگیری از خزش و استاندارد خروج روبات ها 35  

       2-13-3 افزایش اهمیت... 36

    2-14 الگوریتم های رتبه بندی.. 37

       2-14-1 پارامتر های رتبه دهی.. 37

       2-14-2 وزن دهی به کلمات... 37

       2-14-3  ارزیابی کلمات کلیدی.. 37

       2-14-4 پارامتر های وزن دهی.. 38

       2-14-5 بازیابی تحمل پذیر. 38

       2-14-6 الگوریتم کلی غلط یابی املایی در موتور های جستجو. 38

       2-14-7 غلط یابی املایی.. 39

       2-14-8 الگوریتم فاصله ویرایشی.. 39

       2-14-9 الگوریتم مجاورت کی-گرم. 40

       2-14-10 غلط یابی حساس به متن.. 40

       2-14-11 مفهوم ربط.. 41

           2-14-11-1 ربط از نظر کاربر. 42

       2-14-11-2 ربط از نظر سیستم بازیابی.. 42

       2-14-12 نظر خواهی از کاربر در رتبه بندی.. 43

       2-14-13 موتورهای جستجوی اصلی.. 43

       2-14-13-1 Google. 43

       2-14-13-2   Excite. 44

       2-14-13-3  Altavista. 44

       2-14-13-4 Yahoo. 44

       2-14-13-5  Fast 44

           2-14-13-6   Lycos 44

       2-14-14 موتورهای جستجوی خبری.. 45

       2-14-15 متا کراولر. 46

       2-14-16 موتورهای جستجوی منفعتی.. 48

       2-14-17 موتورهای جستجوی لیست پرداخت... 49

       2-14-18 موتورهای جستجوی اختصاصی.. 49

       2-14-19 جستجوی پاسخ.. 50

       2-14-20 موتورهای جستجوی کودکان. 51    

       2-14-21 موتورهای جستجوی منطقه ای.. 51

       2-15 نتیجه گیری.. 52

    فصل سوم: معماری خزنده وب و استراتژی های خزش... 53

    3-1 مقدمه. 54

    3-2 معماری خزنده های وب... 54

    3-3 انتخاب صفحه. 56

    3-4 اهمیت صفحه. 57

    3-5 چالش های اجرای یک خزنده 57

     

    3-5-1 انتخاب صفحات برای دانلود. 57

    3-5-1 انتخاب صفحات برای دانلود. 57

     

    3-6 پیچیدگی های فرآیند خزیدن. 58

       3-6-1 استرات‍ژی های سنجش انتخاب صفحات... 58

     

          3-6-1-1 معیار مبتنی بر گرایشات کاربران. 58

          3-6-1-2 معیار مبتنی بر شهرت صفحات... 58

     

          3-6-1-3 معیار مبتنی بر محل قرار گرفتن صفحات... 58

    3-7 چگونگی آغاز و ختم فرآیند استخراج و ذخیره سازی صفحات وب... 59

       3-7-1 خزش و توقف.......................................................................................................... 59

       3-7-2 خزش و توقف مبتنی بر مقدار آستانه........................................................................... 59

    3-8 استراتژی های روزآمدسازی صفحات... 60

    3-8-1 سیاست روزآمد سازی یکپارچه. 60

       3-8-2 سیاست روزآمد سازی نسبی.. 60

    3-9 به حداقل رساندن بار روی وب سایت های بازدید شده 60

    3-10 موازی سازی روند خزنده 60

    3-11 ساختار وب... 61

    3-12 استراتژی های خزش... 62

        3-12-1 جستجوی ناآگاهانه. 62

            3-12-1-1 حرکت اول عمق.. 62

            3-12-1-2 حرکت اول سطح.. 63

           3-12-1-3 جستجو با هزینه یکنواخت... 65

       3-12-2 جستجوی آگاهانه یا اکتشافی.. 66

           3-12-2-1 حرکت بهترین-شروع. 67

           3-12-2-2 جستجوی * A.. 69

       3-12-3 جستجوی محلی.. 69

           3-12-3-1 جستجوی تپه نوردی.. 70

           3-12-3-2 جستجوی پرتو محلی.. 70

           3-12-3-3 جستجوی شبیه سازی حرارت... 71 

           3-12-3-4 الگوریتم آستانه پذیرش... 72

           3-12-3-2 جستجوی پرتو محلی.. 70

    3-13 نتیجه گیری.. 73

    فصل چهارم: تجزیه و تحلیل نتایج حاصل از تحقیق.. 74

    4-1 مقدمه. 75

    4-2 مرحله اول: بررسی روش اول سطح.. 75

    4-3 مرحله دوم: بررسی روش اول عمق.. 80

    4-4 مرحله سوم: بررسی روش ترکیبی.. 86

       4-4-1 ترکیب اول: پیمایش اولین سطح به صورت BFS. 86

       4-4-2 ترکیب دوم: پیمایش اولین و دومین سطح به صورت BFS. 86

       4-4-3 ترکیب سوم: پیمایش اولین و دومین و سومین سطح به صورت BFS. 86

    4-5 مرحله چهارم: بررسی روش بهترین-شروع. 86

    4-6 مرحله پنجم: بررسی روش تپه نوردی.. 87

    4-7 نتایج تجربی بدست آمده 88

    4-8 تعداد صفحات دانلود شده برای هر پرس و جو. 90

    4-9 نتیجه گیری.. 91

    فصل پنجم: نتیجه گیری و ارائه پیشنهادات... 97

    5-1 نتیجه گیری و جمع بندی نهایی.. 93

    5-2 پیشنهادات و کارهای آینده 100

    منابع. 101

     

    منبع:

    منابع فارسی

     

    ارسطوپور، ش، 1385، "خزنده و ساختواره وب" ، مجله کتابداری و اطلاع رسانی، جلد 9، شماره 2، ص 15-4.

    اسماعیلی، م. توکلی،  هاشمی مجد، س، 1392، "خزندگان وب"، آزمایشگاه تخصصی آپا در زمینه امنیت فناوری اطلاعات و ارتباطات، شماره سند: APA_FUM_W_WEB_0111، ص 28-5.

    انوری، ش، 1390، "بررسی موتورهای جستجوگر و مقایسه الگوریتم Pag Rank با الگوریتم “HITS اولین همایش سیستمهای هوشمند کامپیوتری و کاربردهای آنها. ص 7-2.

    منابع لاتین

    Ahmadi-Abkenari, F and Selamat, A, 2012, “An Architecture for a Focused Trend Parallel Web Crawler with the Application of Clickstream Analysis”, International Journal of Information Sciences, Elsevier, Vol. 184, pp: 266-281.

    Ahmadi-Abkenari, F and Selamat, A, 2013, “Advantages of Employing LogRank Web Page Importance Metric in Domain Specific Web Search Engines”, JDCTA: International Journal of Digital Content Technology and its Applications, Vol. 7, No. 9, pp: 425-432.

    Ahmadi-Abkenari, F, and Selamat, A. 2012, “LogRank: A Clickstream-based Web Page Importance Metric for Web Crawlers”, International Journal of  Digital Content Technology and its Applications(JDCTA), Vol. 6, No.1, pp: 200-207.

    Arasu, A, Cho, J, Garcia-Molina, H, Paepcke, A and  Raghavan, S, 2001, “Searching the Web”, ACM Transactions on Internet Technology, Vol. 1, No. 1, pp: 2–43.

    Baeza-Yates, R, Castillo, C, Marin, M and Rodriguez, A, 2005, “Crawling a country: Better strategies than breadth-first for Web page ordering”, In Proceedings of the 14th international conference on World Wide Web/ Industrial and Practical Experience Track, Chiba, Japan, ACM Press, pp: 864– 872.

    Baeza-Yates, R, Carlos, C and  Jean, F.S, 2004, “Web Dynamics, Structure, and Page Quality”, In Mark Levene and Alex Poulovassilis (editors), Web Dynamics Springer Verlag, pp: 93-109.

    Brin, S and Page, L, 1998, “The Anatomy of a Large-Scale Hypertextual Web Search Engine”, International Journal of Computer Networks, vol. 30, Issue. 1-7, pp: 107-117.

    Brandman, Onn, Cho, J and Garcia-Molina,H, 2000, “Crawler Friendly Servers”, In Proceedings of the Workshop on Performance and Architecture of Web Servers (PAWS), Santa Clara, California, Vol. 28, Issue. 2, pp: 9-14.

    Castillo, C, “Effective Web Crawling”,Vol. 39, No. 1, N, SIGIR Forum, ACM Press, pp.9-38.

    Castillo, C, Marin, M, R, Andrea and Baeza-Yates, Ricardo, 2004, “Scheduling Algorithms for Web Crawling”, In Latin American Web Conference (Web Media/LA-WEB), pp:10-17.

    Chakrabarti, s ,  Joshi, M.M,  Punera,  K. and  Pennock,  D.M, ٢٠٠٢, "The Structure of  Broad Topics On the Web". Proceedings of  the  11th World  Wide  Web  Conference,  New  York:  ACM

    Cho, J, 2002, “Parallel Crawlers”, 11th international conference on World Wide Web, ACM Press, New York, ISBN:1-58113-449-5, pp: 124-135.

    Cho, J, Garcia-M, H and Lawrence, 1998, “Efficient Crawling through URL Ordering Page”, In Proceedings of the 7th World-Wide Web Conference, pp: 161-171.

    Cho, J, Garcia-Molina, H, 2000, “The Evolution of the Web and Implications for an Incremental Crawler”, 26th International Conference on Very Large Data Bases, Cairo, Egypt, pp: 200-209. 

    Cho, J, Garcia-Molina, H, 2003, “Estimating Frequency of Change”, In ACM  International Conference on Management of  Data , Vol. 9, No. 3,  pp: 256-290.

    Cho, J, Garcia-Molina, H, 2000, “Synchronizing a database to Improve Freshness”, In ACM International Conference on Management of  Data ,USA, pp: 117–128.

    Cho, J, 2001, “Crawling the web: Discovery and aintenance of large-scale web data, chapter 2, Page Selection”, (P.HD), stanford university, pp: 7-26.

    Cothey, Viv, 2004, “Web-Crawling Reliability ”, Journal of the American Society for Information Science and Technology, Vol. 55, Issue. 14, pp: 1228–1238.

    Coenen, S.A.M,2012, “Motion Planning for Mobile Robots- A Guide, chapter 5, search algorithms”, Eindhoven University of Technology Department of Mechanical Engineering Control Systems Technology, pp: 43-49.

    Gupta, A, Singh, K. B and Singh, R. K, 2013, “Study of  WEB CRAWLING Polices”, International Journal of Innovative Technology and Exploring Engineering (IJITEE), ISSN: 2278-3075, Vol. 2, Issue. 6, pp: 65-67.

    Hafri,Y and Djeraba, C, 2004, “High performance Crawling system”, In Proceedings of the 6th ACM SIGMM Int, Workshop on Multimedia Information Retrieval, pp: 299–306.

    Hoffmann, J, 2000, “A heuristic for Domain Independent Planning, and its Use in an Enforced Hill-Climbing Algorithm”, 12th International Symposium on Methodologies for Intelligent Systems (ISMIS-00), Berlin, Springer, pp: 216–227.

    Jensen, R.M, 2008, “Efficient AI: Uninformed Search, chapter 3”, IT University of Copenhagen, available at http://www.itu.dk/courses/IAIP/F2011/2/slides2.pdf.

    Janbandhu, R, Dahiwale, p and Raghuwanshi, M.M, 2014, “Analysis of Web Crawling Algorithms”, International Journal on Recent and Innovation Trends in Computing and Communication(IJRITCC), ISSN: 2321-8169, Vol. 2 Issue. 3, pp: 488 – 492

    Jiang, Q and Zhang, Y,2007, “Site Rank-Based Crawling Ordering Strategy for Search Engines”, IEEE 7th International Conference on Computer and Information Technology, Aizu-Wakamatsu, Japan, pp: 259-263.

    Korf, R.E, 1985, “Depth-first iterative-deepening: An optimal admissible tree search”, Elsevier Science Publishers, Vol. 27,  No. 1,  pp:  97-109.

    Kendall, G, 2014, “AI method: Simulated Annealin”, Training & Courses, Lecture Courses, University of  Nottingham, pp: 1-8.

    Khurana, D and  Kumar, S, “Web Crawler: A Review”, International Journal of Computer Science & Management Studies(IJCSMS), ISSN:  2231 –5268, Vol. 12, Issue. 1, pp: 401-405.                        

    Kumar, G, Duhan, N and Sharma, A.K. 2011, “Page Ranking Based on Number of Visits of Links of Web Page”, International Conference on Computer & Communication Technology (ICCCT), IEEE, pp: 11-14.

    Liu, B, 2007, “Web Data Mining, Chapter 8, Web crawling”. ISBN: 3-540-37881-2, Springer Press, pp: 273-320.

    Lam,S, 2001, “The Overview of Web Search Engines”, Department of Computer Science University of waterloo, available at https://cs.uwaterloo.ca/~tozsu/courses/cs748t/surveys/sunny.pdf.    

    Menczer, F and Srinivasan, P, 2004, “Topical Web Crawlers: Evaluating Adaptive Algorithms”, ACM Transactions on Internet Technology, Vol. 4, No. 4, pp: 378–419.

    Menczer, F, Pant, G, Ruiz, M, and Srinivasan, P, 2001, “Evaluating topic-driven Web Crawlers”, In Proceedings of the 24th Annual International ACM SIGIR Conference on Research and Development in Information Retrieval, D.H, Kraft, W.B, Croft, D. J, Harper and J.Zobel, Eds, ACM Press, New York, NY, pp: 241–249.

    Markopoulou, A, Kurant M and Thiran, P, 2010, “On the bias of  BFS (Breadth First Search)”, International Teletraffic  Congress(ITC 22), Amsterdam, The Netherlands, pp: 1-8.

    Najork, M, Wiener, J.L, 2001, “Breadth-First Search Crawling Yields High-Quality Pages”, In WWW’01, 10th International World Wide Web Conference, pp: 114-118.

    Nath, R and Chopra, Khyati, 2013, “Web Crawlers: Taxonomy, Issues & Challenges”, International Journal of  Advanced Research in Computer Science and Software Engineering(IJARCSSE)”, ISSN: 2277 128X , Vol. 3, Issue. 4, pp: 944-948.

    Naumann, F, 2011, “ Search Engines, Chapter 3:Crawls and Feeds”, Hasso Plattner Institute, IT System Engineering, Universitate Potsdam,  pp: 46-64.

    Nilsson, nils.j, 2009, “Artificial Intelligence: A new synthesis, chapter 8: uniformed search”, Elsevier, pp: 129-137.

    Nilsson, nils.j, 2009, “Artificial Intelligence: A new synthesis, chapter 9: Heurestic Search”, Elsevier, pp: 139-154.

    Ntoulas, l, Cho, Junghoo, Olston, C, 2004, “What’s New on the Web? The Evolution of the Web from a Search Engine Perspective”, In Proceedings of the 13th International Conference on World Wide Web, New York, USA, pp: 1-12.

    Olston,Ch, and Najork, M, 2010, “Web Crawling’. Foundations and Trends in Information Retrieval”, Vol. 4, No. 3, pp: 175–246.

    Pant, G and Menczer, F, 2003, “Topical Crawling for Business Intelligence”, In Proc. 7th European Conference on Research and Advanced Technology for Digital Libraries (ECDL), Norway. Pp:233-244

    Pant, G, Srinivasan, P and Menczer, F, 2004, “Exploration versus Exploitation in Topic driven Crawlers”, ACM Transactions on Internet Technology, Vol. V, No. N, pp:1-38.

    Pant, G, Srinivasan, P and Menczer, F, 2004, “Crawling the Web”, Web Dynamics, Springer- verlog, pp: 153-178.

    Pinkerton, B, 2000, “WebCrawler: Finding What People Want, Chapter 4, The Crawler” (P.HD), University of Washington, pp: 30-40. 

    Pinkerton, B, 2000, “Web Crawler: Finding What People Want, Chapter 3, An Overview of WebCrawler” (P.HD), University of Washington, pp: 24-29.

    Pinkerton, B, 2000, “Web Crawler: Finding What People Want, Chapter 2, Background and Related Work” (P.HD), University of Washington, pp: 8-23.

    Pundhir, s and  Rafiq , M. Q,  2011,  “Performance  Evaluation of  Web Crawler”, International Journal of Computer Applications® (IJCA)/ International Conference on Emerging Technology Trends (ICETT), Kollam Kerala, pp 43-46.

    Reid, M and Korf, R.E, 1998, “Complexity Analysis of Admissible Heuristic Search”, American Association for Artificial Intelligence (AAAI-98), pp: 1-6. 

    Seymour, T, Frantsvog, D and  Kumar, S, 2011, “History Of Search Engines”, International Journal of Management & Information Systems, Vol. 15, No. 4, pp: 47-58.

    Stern, R, Kulberis T and Felner, A, 2010, “Using Lookaheads with Optimal Best-First Search”, Proceedings of the Twenty-Fourth AAAI Conference on Artificial Intelligence (AAAI-10). pp: 185-90.

    Sun, Y, 2008, “A Comprehensive Study of the Regulation and Behavior of Web Crawlers” (P.HD), The Pennsylvania State University, pp: 1-18. 

    Tarakeswar , K., Kavitha, D, 2011, “ Search Engines:A Study”, Journal of Computer Applications (JCA), ISSN: 0974-1925, Vol. IV, Issue 1, pp: 29-33.

    Tyagi, N and Sharma, S, 2012, “Weighted Page Rank Algorithm Based on Number of Visits of Links of Web Page”, International Journal of Soft Computing and Engineering (IJSCE) , ISSN. 2231-2307, Vol. 2, Issue. 3, PP: 441-446.

    Xindong, W, Vipin, K and Quinlan , J.R, 2008, “Top 10 algorithms in data mining”, Journal Knowledge and  Information Systems archive, Vol. 14, Issue. 1, pp: 1-37.

    Yadav ,D, Sharma,  A.K and Gupta,  J.P, “Change Detection in Web pages”, IEEE Proceeding of 10th  International Conference on IT, ISBN: 0-7695-3068-0, Rourkela (India), pp: 265-270.

    Zhengh, SH, Dmitriev, P  and Giles, C, 2009, “Graph based Crawler Seed Selection”, 18th  international  conference  on World wide web, USA, ISBN: 978-1-60558-487-4, pp: 1089-1090.

    Udapure, T.V, Kale, R.D and Dharmik, R.C,2014, “Study of  Web Crawler and  its Different Types”, IOSR Journal of Computer Engineering (IOSR-JCE), ISSN: 2278-8727, Vol. 16, Issue. 1, pp: 1-5.

    Vinod, A, Mayer, A, Nissimb, K, Pinkas, B and K. Reiter, M,1999,  “Onthesecurityofpay-per-click and other Web advertising schemes”, Published by Elsevier Science B.V, pp: 13-22.

     


تحقیق در مورد پایان نامه بهینه سازی روش تشخیص اهمیت پیوند در پایگاه پیوند و کاربست آن در معماری موتور های جستجو, مقاله در مورد پایان نامه بهینه سازی روش تشخیص اهمیت پیوند در پایگاه پیوند و کاربست آن در معماری موتور های جستجو, پروژه دانشجویی در مورد پایان نامه بهینه سازی روش تشخیص اهمیت پیوند در پایگاه پیوند و کاربست آن در معماری موتور های جستجو, پروپوزال در مورد پایان نامه بهینه سازی روش تشخیص اهمیت پیوند در پایگاه پیوند و کاربست آن در معماری موتور های جستجو, تز دکترا در مورد پایان نامه بهینه سازی روش تشخیص اهمیت پیوند در پایگاه پیوند و کاربست آن در معماری موتور های جستجو, تحقیقات دانشجویی درباره پایان نامه بهینه سازی روش تشخیص اهمیت پیوند در پایگاه پیوند و کاربست آن در معماری موتور های جستجو, مقالات دانشجویی درباره پایان نامه بهینه سازی روش تشخیص اهمیت پیوند در پایگاه پیوند و کاربست آن در معماری موتور های جستجو, پروژه درباره پایان نامه بهینه سازی روش تشخیص اهمیت پیوند در پایگاه پیوند و کاربست آن در معماری موتور های جستجو, گزارش سمینار در مورد پایان نامه بهینه سازی روش تشخیص اهمیت پیوند در پایگاه پیوند و کاربست آن در معماری موتور های جستجو, پروژه دانشجویی در مورد پایان نامه بهینه سازی روش تشخیص اهمیت پیوند در پایگاه پیوند و کاربست آن در معماری موتور های جستجو, تحقیق دانش آموزی در مورد پایان نامه بهینه سازی روش تشخیص اهمیت پیوند در پایگاه پیوند و کاربست آن در معماری موتور های جستجو, مقاله دانش آموزی در مورد پایان نامه بهینه سازی روش تشخیص اهمیت پیوند در پایگاه پیوند و کاربست آن در معماری موتور های جستجو, رساله دکترا در مورد پایان نامه بهینه سازی روش تشخیص اهمیت پیوند در پایگاه پیوند و کاربست آن در معماری موتور های جستجو

پایان نامه دوره کارشناسی ارشد مهندسی کامپیوتر نرم افزار (M.Sc) چکیده ماهیت پویای شبکه جهانی و ابعاد رو به رشد آن، بازیابی دقیق اطلاعات را دشوار ساخته است. پاسخ های نادرست برگشت داده شده به وسیله ی موتورهای جستجو، خصوصا برای عبارات پرس‌و‌جو با معانی مختلف، باعث نارضایتی کاربران وب شده‌است که نیاز به پاسخ های دقیق برای تقاضاهای اطلاعاتی خود دارند. امروزه موتورهای جستجو تلاش ...

پایان نامه کارشناسی ارشد(M.sc) چکیده: امروزه هرزنامه[1] ها یکی از مشکلات اصلی موتور های جستجو هستند، به این دلیل که کیفیت نتایج جستجو را نامطلوب می سازند. در طول سالهای اخیر پیشرفتهای بسیاری در تشخیص صفحات جعلی وجود داشته است اما در پاسخ تکنیک های هرزنامه جدید نیز پدیدار شده اند. لازم است برای پیشی گرفتن به این حملات، تکنیک های ضد هرزنامه بهبود یابد. یک مساله عادی که ما با آن در ...

پایان نامه کارشناسی ارشد رشته: مهندسی کامپیوتر گرایش: نرم‌افزار چکیده گرانبار شدن اطلاعات یک مشکل عمده در وب کنونی به شمار می­رود. برای مقابله با این مشکل، سیستم‌های شخصی­سازی وب ارائه شده­اند که محتوا و سرویس­های یک وب­سایت را با افراد براساس علایق و رفتار گردشی آن­ها سازگار می­کنند. یک مؤلفه­ی اساسی در هر سیستم شخصی­سازی وب، مدل کاربر آن است. هدف از شخصی سازی وب، مهیا ساختن ...

پایان نامه دوره کارشناسی ارشد رشته مهندسی فناوری اطلاعات چکیده در دنیای امروز اینترنت و مهم ترین سرویس آن وب، زندگی بشر را دچار تغییر و تحولات فراوانی کرده است. اینترنت تمام نیازهای اشخاص برای برقراری ارتباط با یکدیگر، به دست آوردن اطلاعات در هر زمینه ای، بازی و سرگرمی، آموزش و هر زمینه ای که به ذهن انسان خطور کند را فراهم می کند. اهمیت این سرویس به حدی رسیده است که همه روزه ...

پایان‌نامه تحصیلی در مقطع کارشناسی ارشد تبلیغ و ارتباطات فرهنگی چکیده پژوهش حاضر رابطه استفاده از شبکه‌های اجتماعی و هویت دینی کاربران را با هدف شناخت رابطه میان ویژگی‌های فردی کاربران و عوامل سیاسی و اجتماعی با هویت دینی آنها و در پی پاسخ به این پرسش اساسی که شبکه‌های اجتماعی مجازی چه آثار و پیامدهایی بر هویت کاربران دارند با استفاده از روش پیمایشی مورد مطالعه قرار داده است. ...

تحقيق پاياني دوره عالي آزاد تخصصي DBA مديريت استراتژيک تير 1391 چکيده هدف اين پژوهش تعيين مولفه هاي توسعه زير ساخت‌هاي صنعت چرم و تدوين مدل مناسبي براي توسعه زير ساخت‌هاي صنعت چرم

پايان نامه مقطع کارشناسي رشته مهندسي کامپيوتر سال 1386  پيشگفتار  وب يکي از مهمترين و در عين حال جوان ترين سرويس هاي اينترنت است که در مدت زماني کوتاه توانسته است در کانون توجه

سيستم هاي مديريت محتواچيست؟ سيستم مديريت محتوا ، ترجمه عبارت content management system  يا CMS است ، که به معناي سيستم نرم افزاري اي است که به کمک آن محتوا مديريت مي شود و به نرم افزارهايي گف

پايان نامه مقطع کارداني رشته کامپيوتر سال 1383 چکيده مؤلف هوش مصنوعي دانش ساخت ماشين ها يا برنامه هاي هوشمند است تعريف ديگري که ازهوش مصنوعي مي توان ارائه داد به قرارزيراست : هوش مصنوع

»M.A پایان‌ نامه برای دریافت درجه کارشناسی ارشد مدیریت « گرایش: بازار یابی چکیده: پژوهش حاضر با هدف تعیین موانع بلوغ بکارگیری نظام الکترونیکی در اداره امور مالیاتی استان ایلام انجام گرفت. جامعه آماری این پژوهش تمامی مدیران، کارکنان و سرپرستان واحدهای مختلف درسطوح مختلف سازمانی در اداره امور مالیاتی استان ایلام می باشد. حجم کل جامعه آماری برابر با 230 نفر ( 230= N ) بوده که حجم ...

ثبت سفارش