انتل ايتانيوم2
هذه المقالة يتيمة حيث أن عددًا قليلاً من المقالات أو لا مقالات إطلاقًا تصل إليها. ساعد من فضلك بإضافة وصلات في المقالات ذات العلاقة. |
إنتل ايتانيوم2 (Intel Itanium 2)
ال Itanium 2 هو الوكيل لعائلة معالجات Intel's IA-64 64-bit وهو من الجيل الثاني. أول معالج ايتانيوم ظهر في 2001 ولكنه لم يتشر بشكل واسع.. أولا" لأن الايتانيوم 2 يستطيع أن يعمل بسرعات هي أضعاف لسابقه من معالجات الايتانيوم..، مما يحقق تطوراً كبيراً في الأداء. -أول تطبيق للمعالج itanium2 عمل على السرعة 0.8-1.0 GHz، ثم ألحق بتقنية التقليص (shrink) وحاليا" يعمل الايتانيوم2 على تردد ساعة بين (1.3 و 1.66)GHz. في الوقت الذي نكتب فيه هذا التقرير سيكون الجيل الجديد صالحا ".. نواة المعالج تقريبا" غير معدلة فيما يتعلق بمعالج الMadison لكنها الآن مبنية من 90 nm حجم الميزة بدلا" من 130 nm ونواتين موضوعتين على شريحة تعمل بتردد ساعة يبلغ 1.8 GHz إذن فالمعالج الجديد ,اسمه Montecito ,i, هو معالج dual core اي مزدوج النواة مثل معالجات الـ AMD Opteron الجديد و the IBM POWER5و ++SUN SPARC4. هناك تغير هايل في القائمة ليس واضحا" فورا" في كتلة المخطط هوdual- threaded المجاري المزدوجة... بسبب تقلص التقنية متطلبات الطاقة هي أقل من متطلبات معالجات Madison فقط 100W، حتى إن كان هناك نواتا معالجين على الرقاقة. عائلة معالجات الايتانيوم تملك خاصية تختلف عنن رقاقات الRISC. مخطط كتلة معالج الايتانيوم2 موضح في الرسمة أدناه..
المخطط يعرض كمية كبيرة من وحدات المهام التي يجب أن تبقى مشغولة.وهذا يفعل من قبل عددد كبير من كلمات التعليمات حوالي 128 بيت تتضمن 341 بيت تعليمات و 5 بيت للقالب الذي يزود يوجه ويفكك التعليمات. هذه الفكرة موروثة من الألات التي تسمى (عدد كبير من كلمات التعليمات (VLIW)) والتي تم تسويقها منذ زمن حوالي 10 سنين مضت. كلتا الوحدتين (تحميل / تخزين) تجلب كلمتي تعليمات بالدورة(النبضة) إذن ترسل 6 تعليمات في الدور والايتانيوم أيضا" يتشارك بالمضمون مع تلك الأنظمة التي تجدول التعليمات على عكس معالجات الـ RISC لا يتم ذلك أوتوماتيكيا" في وقت التنفيذ ولكن عبر المترجم أي الCompiler. ال VLIW مثل العمليات معززة بتنفيذ تنبؤي مما يجعل تنفيذ التعليمات بشكل متوازي ممكنا" والذي بشكل طبيعي عليه أن ينتظر نتيجة اختبار التفريع. انتل تدعو هذا نظام VLIW المحدث لعمليات الEPIC، تدعوه معالجة ظاهرية متوازية صريحة. أبعد من ذلك، تعلميات التحميل ممكن أن تنقل والمتحول المحمل يستعمل قبل التفريع أو يخزن عبر استبدال جزء من الكود عبر عبر تجربة على المكان الأصلي الذي أتى منه وذلك لنرى إذا كانت العمليات شرعية أي صالحة للاستعمال في هذا المكان الذي نقلت إليه.. وللاحتفاظ بتسلسل التحميلات الحديثة يوجد جدول عناوين التحميلات ALATيسجل هذه التحديثات ويوجد اثنان منه. عندما يحصل تحقق الصلاحية هذا لعملية تعتمد على تحميل متقدم، يتم البحث في جدول عناوين التحميلاتALAT وعندما لا توجد الentry سلسلة العمليات توصلنا إلى أن نتيجة الفحص غير صالح والكود المعدل الملائم قد نفذ. لاحظ أن الكود قد تولد وقت الترجمة لذا لا حاجة لوحدة تخمين عتادية من أجل هذه الأنواع من التنفيذ التخميني. ربما أصبح هذا معقدا" جدا" للعديد من وحدات المهام التي ربما تكون معا" في عملية في أي وقت..
كما يتبين من الشكل 9 هناك أربع وحدات نقطة عائمة قادرة على أداء عمليات ضرب تراكمية مدموجة (FMAC). ومع ذلك، اثنين من هذه الأعمال بكامل دقة 82 بت الذي هو المعيار الداخلي على معالجات إيتانيوم، في حين ان اثنين اخرين لا يمكن استخدامه إلا لعمليات ذات الدقة 32 بت. العمل امتعارف عليه بدقة 64 بت في إيتانيوم لديه نظرية ذروة أداء 6 Gflop / s على تردد على مدار الساعة من 1.5 غيغاهيرتز. باستخدام 32 بت حسابية عائمة، فإن الذروة تتضاعف.
في الجيل الأول إيتانيوم كان هناك 4 وحدات حسابية لعدد صحيح وغيرها من الأعداد الصحيحة أو تلاعب المحارف.
لأن أداء الصحيح من هذا المعالج كان متواضعا، لقد تم إضافة وحدتين صحيحتين ت لتحسين هذا. بالإضافة أربع وحدات MMX موجودة لاستيعاب تعليمات لعمليات متعددة الوسائط، موروثة من عائلة معالجات انتل بنتيوم. من أجل التوافق مع هذه العائلة بنتيوم هناك IA-32 مفكك ووحدة التحكم. كما سبق أن لاحظت من قبل، فإن مونتستو هو مزدوج الخيوط.Multi-threading. لذلك، عندما يكون منطق التحكم (الموجود في أعلى اليسار في الشكل (9)) يقرر أن لا يتم إحراز تقدم في مجرى واحد مع ما أرسل الترابط الأخرى للحد من مراحل الخمول في التعليمات التي يتم تنفيذها. هذا لن يحدث في أغلب الأحيان مع الكثير من أنماط وصول البيانات غير النظامية، حيث أنه من المستحيل لتحميل جميع البيانات ذات الصلة في مخابئ مسبقا. التبديل بين المواضيع التي تستند إلى "مستوى الاستعجال" تتراوح من 0—7. عند الحاجة الملحة للمجرى نشيط فعال يندرج تحت ذلك فيصبح الخامل فعالا",والعكس بالعكس.
لأن الآن نواتي موجودة على رقاقة بعض الأحكام قد تضاف إلى السماح لهم تتعاون من دون مشاكل. و الــ synchronisers تغذي معلوماتهم عن طلبات القراءة والكتابة وصلاحية سطر الكاش arbiter للحكم (انظر الشكل 10). arbiter filters المرشحات الحكم من الطلبات لا لزوم لها، ويجمع المعلومات من التطفل سواء من كلا النواتين قبل تسليم الطلبات إلى أكثر من واجهة نظام.
بالإضافة إلى ذلك، فإن الحكم arbiter يؤكد على فرص وصول عادلة لكل من النوى إلى واجهة النظام.
المقدمة إلى ايتانيوم 1 قد تأجلت وقتا" ومرة أخرى تغلبت على أهمية استعمال الأنظمة العالية الأداء. و مع متاحية الايتانيوم 2 في النصف الثاني من 2002 تسرع القرار. جزء من HP وأيضا" Bull, Fujitsu, Hitachi, NEC, SGI, Unisysتعرض الآن أنظمة متعددة المعالجة مع تلك المهالجات مستبدلة معالجات Alpha, PA-RISC, SPARC, MIPS التي كانت موظفة من قبل HP, Fujitsu, SGI
مصدر المقال : [١]
تقييد تدفق الكود ونواة التوارد Code Flow Restrictions and the Core Pipeline
توارد النواة ينظم التعليمات والبيانات وبهذا تستطيع أن تصدر لوحدات المهام في شكل متزامن. التوارد ذو الدرجات ال8 مقسم إلى قطعتين. مرحلتين أماميتين وست مراحل خلفية ومتصلين عبر بافر(عازل) التعليمات كما ترى في المخطط التالي. النهايات الأمامية والخلفية للتوارد تشتغل بتزامن مع احترام كل منها للآخر. نواة التوارد
النهاية الخلفية تستنهلك التعليمات من الIB وتنظم البيانات المطلوبة في السجلات الملائمة وتصدر التعليمات لوحدات المهام في 6 مراحل معالجة.
المرحلة الأولى (EXP):
في المرحلة الأولى قوالب التعليمات تتوسع وتنتثر تنظم وتصدر.
المرحلة الثانية (REN): المرحلة الثانية تتولى إعادة تسمية السجلات من أجل سجل المكدس والتلاعب بتدوير السجل. فك التعليمات أيضا" يتم في هذه المرحلة.
المرحلة الثالثة (REG): هذه المرحلة تسلم البيانات لوحدات المهام بدلا" من السجلات عبر استعمال مجرى جانبي للبيانات المولدة عبر وحدات المهام لاستهلاكها في تعليمات متعاقبة. هذه المرحلة أيضا" تولد تعليمات متدفقة أو محشوة المطلوبة من محرك مكدس السجلات
المرحلة الرابعة (EXD) التنفيذ : هذه المرحلة تشحن التعليمات والبيانات لوحدات المهام المطلوبة من قبل قوالب التعليمات. أيضا" تقوم باستدعاء المجرى الجانبي لتزويد خرج بيانات من دورة وحدة الحساب والمنطق وحيدة إلى مرحلة REG المطلوبة للتعليمات القادمة.
المرحلة الخامسة (DET) : تستكشف الاستثناءات وعدم التنبؤات بالتفريع. هنا المكان الذي يتدفق فيه التوارد بسبب الاستثناءات وعدم التنبؤات بالتفريع المولدة. مسببة التأجيل العالي لأولوية التوارد. كل الاستثناءات الممكنة تستكشف في هذه المرحلة في وقت لتمنع الكتابة خلفا" للحالة المعمارية. هذا يؤكد الصيانة للحالة البنيانية الصحيحة (لأجل المثال، محتويات السجل). التأخير في تسليم البيانات والميكرو توارد للفاصلة العائمة والذي يستطيع أن ينتج في تأخير توارد أيضا" يستكشف في هذه المرحلة.
المرحلة السادسة (WRB) : و أخيرا"، مرحلة الكتابة خلفا"... تكتب الخرج (الناتج) في السجلات الملائمة.
مصدر المقال : software optimization.pdf
توصيف الخابية في معالج أيتانيوم2 :
- أعلى سرعة جزء من ذاكرة النظام هو مخبأ(كاش)L1. - هناك مستوى مخابئ (ذواكر كاش) أول منفصل لتعليمات (L1I) وللبيانات (L1D) وكلاهما في حجم 16KB مع64 بايت خطوط مخبأ (كاش) ولديها دورة تلبث واحدة. - وهي ذاكرة تجميعية في أربع مجموعات لذا فال 12 بت السفلية (11:0)تستخدم لفهرسة الخابية. - مخبأ L1 للبيانات تستخدم فقط للبيانات الصحيحة. - وقد أظهرت الدراسات أن التطبيقات المكثفة للنقطة العائمة في حاجة إلى عينات البيانات التي تكون كبيرة جدا يمكن وضعها في شيء يمكن أن يبنى مع هذه السرعة - في الأساس ليس هناك تعارض (المصرف / ميناء) مرتبط بالوصل لبيانات الخابية L1. - إنها خابية تستخدم طريقة الكتابة معا في الخابية والرئيسية في نفس الوقت عند التعديل لضمان تداول وانتشار البيانات جميع الأحمال الصحيحة (أي :أي أحمال السجلات العامة) تذهب عبر هذه الخابية باستثناء إذا تم تحميلهم من ذاكرة uncacheable لا تحتوي على خوابي. - طلبات الوصول للبيانات بدأت بالترتيب لكن البيانات التي يمكن أن تصبح واضحة خارج الترتيب، وهذا يعني أن يتم تخزين غير مؤمن، والإخفاق المبكر في الخابية لا يمنع تسليم البيانات من إصابة تالية في الخابية. - هناك 2 تحميل و 2 تخزين من المنافذ التي تربط هذه الخابية بملف السجلات، مما يسمح بزيادة 2 لتحميل و 2 مخازن في دورة الساعة الواحدة. - هي 256 كيلو بايت وتجميعية 8-way في ثمان مجموعات وسطر خابية بحجم 128بايت. وهذا يعني L2 مخبأ ما مجموعه (256KB/8X128 بايت)256 مجموعات تجميعية أو صفوف معروضة في الشكل المبين 2 - تجميعية و128 بايت حجم خط التخزين المؤقت. - وهكذا الخابية L2 لديه دورة عنوان 32KB. إنها مصنوعة من 16 بنكا. كل بنك منهم عرضه 16 بايت. وهذه ال 16 بنك هي تجميعية في 8 مجموعات - موضحة في الرسم البياني التالي.:
- بيانات النقطة العائمة يتم تحميلها من هذه الخابية مباشرة إلى السجلات العائمة ولا يتم تحميلها إلى الخابية
- كما هو الحال مع L1، طلبات الوصول للبيانات بدأت بالترتيب لكن البيانات التي يمكن أن تصبح واضحة خارج الترتيب.
- هذا يختلف عن معالجات إيتانيوم حيث كان الوصول من خلال FIFOqueue
- الحد الأدنى لعدد صحيح L2 الكمون والأحمال نقطة عائمة هي 5 و 6.
- التلبث الأصغري ل L2 لأحمال الصحيح والفاصلة العائمة هو 5 و6 دورات بسبب الطرق المختلفة في تسليم بيانات الصحيح والفاصلة العائمة.
- الوضع في الرتل المعقد وتركيب المجرى الجانبي لهذه الخابية يسبب تلبثا" أعظم من تلك القيم الصغيرة.
- يمكن لجميع منافذ الذاكرة الأربعة أن تستخدم لتحميل بيانات نقطة عائمة من ذاكرة التخزين المؤقت L2.
- هذه الخابية المصنوعة من 16 بنكا. كل بنك منهم عرضه 16 بايت وهناك شروط ممكن أن تسبب تعارض وصول بنكي.
-
مصدر المقال : [٢]
واسم الكتاب
Introduction to Microarchitectural Optimization for Itanium® 2 Processors
يختلف هذا المعالج عن سابقه (المسمى Montecito) اختلافات بسيطة، فالسابق كان يعمل على مسرى رئيسي يعمل بتردد 533 MHz في حين هذا الجديد يعمل على مسرى تردده يصل إلى 667 MHz، في حين في المعالجات الجديدة التي ما زالت قيد التطوير من عائلة itanium مثل المعالج المسمى Tukwila يتوقع أن تعمل على مسرى رئيسي من نوع Quickpath Interface والذي تصل سعته إلى 25.6GB/s.
يحوي المعالج السابق على ذواكر خابية من ثلاث مستويات:
1) المستوى الأول يحوي خابيتين، الأولى من أجل البيانات Data cache والأخرى من أجل التعليمات Instruction cache، وكلاهما من النوع 4-way تجميعية في مجموعات (set associative)، وكل منهما ذات حجم 16KB، ويتمتع المستوى الأول للخابيات بسرعة كبيرة جداً، فعملية تبادل البيانات بين هذه الخابية وملف السجلات تتم في كل نبضة ساعة. 2) المستوى الثاني للخابيات في هذا المعالج أيضاً ينقسم إلى جزئين، حيث يحوي ذاكرة خابية من أجل البيانات Data cache بحجم 256 كيلو بايت (بدلاً من أن يكون خابية مشتركة للبيانات والتعليمات معاً بحجم 256 كيلو بايت كما في الجيل الأول للـitanium)، والقسم الآخر للمستوى الثاني هو خابية من أجل التعليمات بحجم 1MB، وهذا التطوير جيد جداً مقارنة بمقابلاته من الخابيات في معالجات الـRISC وذلك لأن الكلمة الواحدة لمعالجات الـEPIC هنا تتكون من 128 بت، كل خابية من السابقتين في هذا المستوى الثاني هي تجميعية في مجموعات وتتكون من ثمانية مجموعات (8-way). 3) يتكون المستوى الثالث من خابية واحدة في كل نواة، حجم كل خابية منها يصل إلى 24 ميغابايت، وتتصل بالنواة باستخدام مسرى بعرض 128 بت للكلمة، ويعمل على تردد ساعة يصل لـ667MHz.
قائمة معالجات إنتل | قائمة مقابس و منافذ معالجات إنتل |
---|
معالجات إنتل 4004 | 4040 | 8008 | 8080 | 8085 | 8086 | 8088 | iAPX 432 | 80186 | 80188 | 80286 | 80386 | 80486 | i860 | i960 | بنتيوم | بنتيوم برو | بنتيوم II | سيليرون | بنتيوم III | إكس-سكيل | بنتيوم 4 | بنتيوم M | بنتيوم D | بنتيوم إكستريم إديشن | زيون | نواة | إيتانيوم | إيتانيوم 2 (الخط المائل يشير إلى بنية معالجات غير-x86 ) |
مشاريع شقيقة | هناك المزيد من الصور والملفات في ويكيميديا كومنز حول: انتل ايتانيوم2 |