استخدم robots.txt لـ bots الذكاء الاصطناعي عشان تفصل وصول الاقتباس عن وصول التدريب. في 2026، أغلب مواقع WordPress المفروض تسمح لـ bots البحث/الاقتباس زي OAI-SearchBot و PerplexityBot و Claude-SearchBot، وتمنع bots التدريب زي GPTBot و ClaudeBot و Google-Extended، إلا لو فيه سبب ترخيص أو ظهور يخليك تسمح بكتابة الأول.
في الدليل ده هتعرف الفرق بين كل bot، إزاي تكتب القاعدة لكل سيناريو، وإزاي تتعامل مع لخبطة Cloudflare و Yoast/Rank Math.
القرار: تسمح ولا تمنع كل bot
القاعدة الذهنية بسيطة: اسمح لزواحف البحث والاقتباس، وقرّر بوعي بخصوص زواحف التدريب. زواحف البحث بتخلّي موقعك يظهر كمصدر في إجابات الـ AI، ده ظهور مجاني. زواحف التدريب بتاخد محتواك لتدريب النماذج، ده قرار ملكية فكرية شخصي.
مفيش إجابة واحدة صح للكل. لو الظهور أهم عندك من قلق التدريب، اسمح للكل. لو قلقان من استخدام محتواك في التدريب، اسمح للبحث وامنع التدريب. المهم تاخد القرار بوعي، مش بالصدفة بسبب إعداد firewall نسيته.
الـ 4 مصادر bots اللي بتهم في 2026
| المزوّد | زاحف البحث/الاقتباس (اسمح عادةً) | زاحف التدريب (قرار) |
|---|---|---|
| OpenAI (ChatGPT) | OAI-SearchBot | GPTBot |
| Anthropic (Claude) | Claude-SearchBot | ClaudeBot |
| Perplexity | PerplexityBot | – |
| Google (Gemini/AI) | فهرس بحث جوجل العادي | Google-Extended |
ملاحظتين مهمتين: منع Google-Extended مابيأثرش على ترتيبك في بحث جوجل (توكن منفصل تماماً). وOpenAI عندها كمان Claude-User/OAI fetchers بتشتغل لحظة ما المستخدم يطلب صفحة، دول مختلفين عن زواحف التدريب.
إزاي كل bot بيُستخدم (اقتباس مقابل تدريب)
الفرق الجوهري: زاحف الاقتباس بيزور صفحتك عشان يجاوب سؤال مستخدم دلوقتي ويستشهد بيك. زاحف التدريب بياخد المحتوى عشان يدرّب نموذج مستقبلي. الأول بيديك ظهور فوري ومنسوب؛ التاني استخدام لمحتواك من غير نسبة مباشرة.
عشان كده الفصل بينهم منطقي: تسمح للاقتباس (ظهور) وتقرّر للتدريب (ملكية). معظم المواقع التجارية بتكسب من الاقتباس، فمنع التدريب مابيضرّش ظهورها في إجابات الـ AI.
حظر Cloudflare المُدار للـ AI، إزاي تطفيه لو عايز citations
لو موقعك على Cloudflare، فيه إعداد ممكن يمنع زواحف الـ AI كلها من غير ما تدري (Bot Fight Mode أو AI Scrapers & Crawlers block). ده بيتجاوز robots.txt تماماً، الـ bot بياخد 403 قبل ما يوصل للملف أصلاً.
لو عايز ظهور في إجابات الـ AI، روح Cloudflare dashboard → Security → Bots، وطفّي الحظر المُدار لزواحف الـ AI (أو اعمل استثناء لزواحف البحث). من غير الخطوة دي، أي قاعدة “اسمح” في robots.txt مش هتفرق، لأن الطلب مش بيوصل للموقع.
معيار Content-Signals المقترح
فيه معيار جديد مقترح اسمه Content Signals بيحاول يضيف طبقة تعبير عن النيّة جوّه robots.txt (يعني “اسمح بالبحث بس مش التدريب” بشكل صريح). لسه مقترح ومش متبنّى من الكل، فمتعتمدش عليه لوحده، بس كويس تتابعه لأنه ممكن يبقى الطريقة القياسية للتفرقة بين الاستخدامات مستقبلاً.
نماذج robots.txt لكل سيناريو
سيناريو 1: اسمح لكل bots الـ AI
User-agent: GPTBot
Allow: /
User-agent: OAI-SearchBot
Allow: /
User-agent: ClaudeBot
Allow: /
User-agent: Claude-SearchBot
Allow: /
User-agent: PerplexityBot
Allow: /
User-agent: Google-Extended
Allow: /
سيناريو 2: اسمح بالاقتباس، امنع التدريب (الأكثر توصية)
# زواحف البحث/الاقتباس، مسموح
User-agent: OAI-SearchBot
Allow: /
User-agent: Claude-SearchBot
Allow: /
User-agent: PerplexityBot
Allow: /
# زواحف التدريب، ممنوع
User-agent: GPTBot
Disallow: /
User-agent: ClaudeBot
Disallow: /
User-agent: Google-Extended
Disallow: /
سيناريو 3: امنع كل bots الـ AI المسمّاة
User-agent: GPTBot
Disallow: /
User-agent: OAI-SearchBot
Disallow: /
User-agent: ClaudeBot
Disallow: /
User-agent: Claude-SearchBot
Disallow: /
User-agent: PerplexityBot
Disallow: /
User-agent: Google-Extended
Disallow: /
سيناريو 4: امنع كل حاجة ماعدا بحث جوجل العادي
امنع كل زواحف الـ AI المسمّاة (زي سيناريو 3) وسيب Googlebot العادي مسموح (مش هتكتبله قاعدة منع). كده تفضل في بحث جوجل بس تطلع من تدريب/اقتباس الـ AI.
خاص بـ WordPress، لما Yoast/Rank Math يتعاركوا مع قواعدك
في WordPress، robots.txt ممكن يكون افتراضي (virtual) بيولّده WordPress، أو ملف فعلي على السيرفر. ودي بتعمل لخبطة: لو Yoast أو Rank Math بيولّد نسخة افتراضية، أي قواعد كتبتها يدوي في ملف فعلي ممكن تتجاهل أو العكس.
الحل: قرّر مصدر واحد للحقيقة. لو هتستخدم Yoast/Rank Math لإدارة robots.txt، عدّله من جوّه الإضافة. لو هتحطّ ملف فعلي، اتأكد إن الإضافة مش بتتجاوزه بنسخة افتراضية. وبعد أي تعديل، افتح https://yoursite.com/robots.txt بنفسك واتأكد إن اللي بيظهر هو اللي كتبته فعلاً، ده الفحص الوحيد اللي بيكشف اللخبطة دي.
وافتكر: robots.txt تعليمات، مش قفل. للحماية الحقيقية من زواحف مش محترمة، استخدم WAF أو مصادقة. ولو عايز تتأكد إن زواحف الذكاء الاصطناعي اللي عايزها بتوصل فعلاً، شغّل الفحص المجاني. والصورة الأكبر في دليل تجهيز ووردبريس للظهور في الذكاء الاصطناعي.
أسئلة شائعة
أمنع GPTBot؟
امنعه لو مش عايز OpenAI تستخدم محتواك في تدريب النماذج. اسمح بيه لو مرتاح للاستخدام ده أو عايز أقصى ظهور.
إزاي أسمح لـ ChatGPT يزحف موقعي؟
اسمح لـ OAI-SearchBot واتأكد إن الـ CDN/firewall مش بيمنع نطاقات OpenAI. ده الزاحف المرتبط ببحث ChatGPT، غير GPTBot (التدريب).
أسمح لـ ClaudeBot ولا Claude-SearchBot؟
اسمح لـ Claude-SearchBot للظهور في بحث Claude. امنع ClaudeBot لو مش عايز استخدام للتدريب.
منع Google-Extended بيشيلني من بحث جوجل؟
لأ. توكن مستقل، مابيأثرش على الترتيب أو التضمين في البحث.
robots.txt بيجبر شركات الـ AI تلتزم؟
لأ، تعليمات مش تحكّم. الزواحف المحترمة بتلتزم عادةً؛ للحماية القوية استخدم WAF/مصادقة.
robots.txt يتحطّ فين في WordPress؟
في الجذر /robots.txt. WordPress بيولّد نسخة افتراضية، وYoast/Rank Math بيقدروا يعدّلوا حسب وجود ملف فعلي.