Google কীভাবে কাজ করে?

পুরোটা পড়ার সময় নেই? ব্লগটি একবারে শুনে নাও!

যেকোন তথ্য জানতে চাইলেই হাতের কাছে রয়েছে গুগল। বর্তমানে গুগল এতটাই জনপ্রিয় যে “google” শব্দটি ডিকশনারিতেও জায়গা করে নিয়েছে! কাউকে কিছু জিজ্ঞেস করলে অনেক সময় উত্তর পাওয়া যায়, “গুগল করো!” কিন্তু গুগল কীভাবে তথ্য খুঁজে বের করার কাজটি করে থাকে সেটি কি জানো?

অন্তর্জাল ব্যবহার করে কিন্তু গুগলের নাম শুনেনি এমন মানুষ খুঁজে পাওয়া কঠিন, তবে তথ্য অন্বেষণে কিন্তু গুগল ছাড়াও বিভিন্ন সার্চ ইঞ্জিন রয়েছে যেমন- Yahoo, bing, duckduckgo ইত্যাদি। এগুলো নিজ নিজ স্বকীয়তার জন্য জনপ্রিয় এবং সার্চ ইঞ্জিন হিসেবে প্রসিদ্ধ। যদিও জনপ্রিয়তার দিক থেকে বর্তমানে গুগলের আশেপাশেও নেই অন্য কোন সার্চ ইঞ্জিন

দারুণ সব লেখা পড়তে ও নানা বিষয় সম্পর্কে জানতে ঘুরে এসো আমাদের ব্লগের নতুন পেইজ থেকে!

“Search Engine” কী জিনিস?

প্রথমেই জেনে নেওয়া ভাল, সার্চ ইঞ্জিন কী?  আমরা সবাই প্রতিনিয়ত বিভিন্ন কাজে সার্চ ইঞ্জিন ব্যবহার করে অভ্যস্ত, তবুও জিনিসটি কী সে ব্যাপারে অনেকেরই পরিষ্কার ধারণা নেই। সহজ ভাষায় বলতে গেলে, সার্চ ইঞ্জিন হল এক ধরনের সফটওয়্যার সিস্টেম যা World Wide Web (WWW)-এর অন্তর্ভুক্ত সাইটগুলো থেকে তথ্য খুঁজে বের করতে সাহায্য করে আমাদের সার্চ ইঞ্জিনের মাধ্যমে কোন ঠিকানা না জেনেই অনেক সহজে প্রয়োজনীয় তথ্য বা ওয়েবসাইট খুঁজে পাওয়া যায়। এজন্যই ইন্টারনেট ব্যবহারকারী এবং ওয়েব ডেভেলপারদের কাছে সার্চ ইঞ্জিনের গুরুত্ব অপরিসীম

Search Engine” এর যত কেরামতি!

গুগল ও বিভিন্ন সার্চ ইঞ্জিন প্রসারের ফলে চমৎকার একটি ব্যাপার ঘটেছে- আমাদের আর কষ্ট করে অপ্রয়োজনীয় সব তথ্য দিয়ে মাথা বোঝাই করে রাখতে হয় না। যেকোন কিছু জানার প্রয়োজন হলে গুগল ওপেন করে সার্চ করলেই মুহূর্তের ভেতর লক্ষ লক্ষ ফলাফল এসে হাজির হয়ে যায়!

সেখানেও আরেক মজা, সার্চ করতে গিয়ে টাইপিং এ ভুল করলে গুগল সেটাকে ঠিকঠাক শুদ্ধ করে রেজাল্ট দেখিয়ে দেয়। আবার একটি বিষয়ের উপর হয়তো ভাল ধারণা নেই, আন্দাজের উপর কিছু একটা লিখে সার্চ দিলেও সাথে সাথে গুগল তোমার মনের কথা বুঝে নিয়ে প্রয়োজনীয় তথ্য তোমার সামনে হাজির করে দেবে!

এসব ফলাফল বের করতে বা মনের কথা বুঝে নিতে গুগলের সময় লাগে ১ সেকেন্ডের কম! গোটা ওয়ার্ল্ড ওয়াইড ওয়েবের শত শত কোটি সাইট ঘেঁটে ১ সেকেন্ডের কম সময়ে তথ্য বের করে দেওয়া নিশ্চয়ই সহজ কথা নয়! আপাতদৃষ্টিতে অসম্ভব এই কাজটি সার্চ ইঞ্জিনগুলো কীভাবে করে থাকে চলো সেটি দেখে নেওয়া যাক।

তথ্য খোঁজার ৩টি ধাপ

প্রত্যেকটি সার্চ ইঞ্জিনের বিশাল বিশাল হার্ড ডিস্কের সমন্বয়ে তৈরি করা সার্ভার রয়েছে। ইন্টারনেটের সব তথ্য সার্চ ইঞ্জিনগুলো তাদের সেই হার্ড ডিস্কগুলোয় মজুদ রাখে এবং সেখান থেকে সবার কাছে প্রয়োজন অনুযায়ী তথ্য প্রদান করে। প্রশ্ন হচ্ছে, সার্চ ইঞ্জিন কীভাবে এসব তথ্য সংগ্রহ করে?

আগেই বলেছি, প্রত্যেকটি সার্চ ইঞ্জিনের কিছু নিজস্ব সুবিধাবলী রয়েছে। তারা নিজস্ব ফিচারস অনুযায়ী তাদের ব্যবহারকারীদের সেবা দিয়ে থাকে। তাই সার্চ ইঞ্জিনগুলোর কাজের ধারা একে অপরের সাথে কখনোই সম্পূর্ণ না মিললেও প্রতিটি সার্চ ইঞ্জিনই ৩টি ধাপ অনুসরণ করে:

১. ওয়েবে তথ্য অনুসন্ধান করে গুরুত্বপূর্ণ শব্দ বা কি-ওয়ার্ড এর উপর ভিত্তি করে অনেকগুলো ভাগ করা।

২. অনুসন্ধানে প্রাপ্ত শব্দগুলোকে নিয়ে একটি ইনডেক্স তৈরি করা।

৩. ব্যবহারকারী যেই তথ্য অনুসন্ধান করে সেটিকে তাদের ইনডেক্সের সাথে মিলিয়ে দেখা।

ওয়েবসাইট ভিজিট, ইনডেক্স তৈরি করা, সার্চ কোয়্যারি মিলিয়ে দেখা- এই জটিল কাজগুলো করা হয় কিছু কৌশলের মাধ্যমে।

বেড়িয়ে আসুন নিজের খোলস থেকে!

কর্পোরেট জগতে চাকরির ক্ষেত্রে কিছু জিনিস ঠিকঠাক রাখা অত্যন্ত জরুরি।

বিস্তারিত জানতে ঘুরে আসুন ১০ মিনিট স্কুলের এক্সক্লুসিভ এই প্লে-লিস্টটি থেকে। 😀

১০ মিনিট স্কুলের Presentation Skills সিরিজ

ওয়েব ক্রলিং (Web Crawling)

তুমি গুগলে কিছু সার্চ করলে গুগল তোমাকে ফলাফল দেখায়, কিন্তু সেজন্য গুগলকে নিজে আগে ফলাফল বের করতে হয়। এই কাজটি করার জন্য প্রত্যেক সার্চ ইঞ্জিনের বিশেষ সফটওয়্যার রোবট রয়েছে। পুরো ওয়েবে ঘুরে বেড়ানো আর সবকিছু লিপিবদ্ধ করাটাই তাদের কাজ।

প্রতিটি সার্চ ইঞ্জিনের প্রযুক্তি ভিন্ন, ইনডেক্স তৈরির কৌশলও ভিন্ন

সার্চ ইঞ্জিনের ভাষায় এদের স্পাইডার বলা হয়। এরা  ইন্টারনেটে যত ওয়েবসাইট রয়েছে সেগুলির প্রত্যেকটি লিংক প্রতিনিয়ত ভিজিট করে। প্রতিবার একটি সাইট ভিজিট করার সময় সাইটটির নতুন লিংকগুলি সংগ্রহ করে এবং নষ্ট বা ডেড লিঙ্কগুলো সার্ভার থেকে মুছে দেয়।

প্রথমে স্পাইডার বিভিন্ন জনপ্রিয় পেইজ থেকে শব্দ বা কি-ওয়ার্ড সংগ্রহ করে। তারপর ঐ সাইটে অন্যান্য যেসব পেইজের লিংক রয়েছে সেগুলো অনুসরণ করে। ঐসব পেজে গিয়ে সেখানে থাকা অন্যান্য লিংকও অনুসরণ করে। এভাবে প্রতিনিয়ত চলতে থাকে স্পাইডারের ভ্রমণ। স্পাইডার একটা নির্দিষ্ট সময় পরপর সাইটগুলোতে ঢুকে দেখে নতুন কোন পরিবর্তন এসেছে কিনা।

যেমন টেন মিনিট স্কুল ব্লগে প্রতিদিন যে নতুন নতুন লেখা প্রকাশিত হচ্ছে তা কিন্তু কেউ গুগলের স্পাইডারকে জানায়নি। কিন্তু লেখাগুলোর শিরোনাম দিয়ে গুগলে সার্চ করলে দেখা যাবে ঠিকঠাক টেন মিনিট স্কুলের লেখাগুলোই চলে এসেছে ফলাফলে! কারণ স্পাইডার নতুন লেখাগুলোর ব্যপারে না জানলেও টেন মিনিট স্কুলকে কিন্তু ঠিকই চেনে! তাই সে প্রতিনিয়ত টেন মিনিট স্কুলের ওয়েবসাইটে ঢুকে সবগুলো লিংক অনুসরণ করে তার তথ্য ভাণ্ডার সমৃদ্ধ করে, আর সেই ফাঁকে এই নতুন লেখাগুলোকেও ক্রল (Crawl) করে নিয়েছে।

মেটা ট্যাগস

HTML ট্যাগের কথা নিশ্চয়ই শুনেছো? মেটা ট্যাগস হচ্ছে একরকম বিশেষ HTML ট্যাগ যেটি খুব সংক্ষেপে একটি পেইজের কী কী জিনিস রয়েছে সে ব্যাপারে ধারণা দেয়। যেমন টেন মিনিট স্কুল ব্লগের লেখাগুলোয় নানারকম ট্যাগ থাকে, কোনটি হয়তো “পড়াশোনার টিপস”, কোনটি “স্কিল ডেভেলপমেন্ট” আবার কোনটি হয়তো “অনুপ্রেরণামূলক গল্পের ঝুলি” তে অন্তর্ভুক্ত, সেটি দেখে আমরা ধারণা পাই লেখার বিষয়বস্তু সম্পর্কে। মেটা ট্যাগও সেরকম ধারণা দেওয়ার কাজ করে, কিন্তু সেই ধারণা আমাদের নয়, সার্চ ইঞ্জিনকে দেয়!

মেটা ট্যাগ ব্যবহারে অবশ্য কিছু সমস্যাও রয়েছে। যেমন ইউটিউবে অনেকসময় দেখবে ভিডিওর ট্যাগে এমন সব লেখা থাকে যেগুলোর সাথে ভিডিওর বিষয়বস্তুর বিন্দুমাত্র সম্পর্ক নেই! এরকম বিভিন্ন জটিলতা দূর করতে সার্চ ইঞ্জিনের স্পাইডাররা নানারকম কৌশলের মাধ্যমে মেটা ট্যাগের সাথে পেইজের অভ্যন্তরীণ বিষয়বস্তুর সামঞ্জস্য রয়েছে কিনা সেটি মিলিয়ে দেখে।

আমরা প্রায়ই টেনশনে পড়ে যাই আমাদের ক্যারিয়ার নিয়ে, ভবিষ্যত নিয়ে। এই টেনশন থেকে মুক্তি পেতে চাইলে ঝটপট ঘুরে এসো ১০ মিনিট স্কুলের এই এক্সক্লুসিভ প্লে-লিস্ট থেকে!

ইনডেক্স

আগেই জেনেছো, স্পাইডার ইন্টারনেট থেকে তথ্য সংগ্রহ করে এবং পরে সেগুলোকে সংরক্ষণ করা হয়। যেহেতু বিশ্বজুড়ে কোটি কোটি ওয়েবসাইটে প্রতিমুহূর্তেই অগণিত তথ্য যুক্ত হচ্ছে, সেজন্য স্পাইডার সারাক্ষণই ক্রলিং করতে থাকে, ইনডেক্সও প্রতিনিয়ত আপডেট হতে থাকে। স্পাইডারের সংগ্রহ করা তথ্য ব্যবহার করেই একটি সার্চ ইঞ্জিন তার ইনডেক্স বা তথ্যভাণ্ডার তৈরি করে। একটি ইনডেক্সে নানারকম শব্দ ও তার URL গুলোর তালিকা থাকে।

প্রতিটি সার্চ ইঞ্জিনের প্রযুক্তি ভিন্ন, ইনডেক্স তৈরির কৌশলও ভিন্ন। কোন পেইজের কোন শব্দটিতে কতটুকু গুরুত্ব দেওয়া হবে, সেটি সার্চ ইঞ্জিনগুলো ঠিক করে দেয়। এই কাজটি সম্পন্ন করার জন্য একেকটি সার্চ ইঞ্জিন একেকরকম মাপকাঠি ব্যবহার করে থাকে, সেজন্যই গুগলে একটি শব্দ লিখে সার্চ করলে যেটি প্রথমে আসবে অন্য একটি সার্চ ইঞ্জিনে হয়তো সেটি প্রথম দশেও আসবে না!


১০ মিনিট স্কুলের লাইভ এডমিশন কোচিং ক্লাসগুলো অনুসরণ করতে সরাসরি চলে যেতে পারো এই লিঙ্কে: www.10minuteschool.com/admissions/live/

১০ মিনিট স্কুলের ব্লগের জন্য কোনো লেখা পাঠাতে চাইলে, সরাসরি তোমার লেখাটি ই-মেইল কর এই ঠিকানায়: write@10minuteschool.com

লেখাটি ভালো লেগে থাকলে বন্ধুদের সঙ্গে শেয়ার করতে ভুলবেন না!
Author

Tashfikal Sami

Tashfikal Sami is a diehard wrestling & horror movie fan. Passionately loves bodybuilding, writing, drawing cartoons & a wannabe horror film director. He's currently studying at the Institute of Business Administration (IBA), University of Dhaka.
Tashfikal Sami
এই লেখকের অন্যান্য লেখাগুলো পড়তে এখানে ক্লিক করুন
What are you thinking?