Xlera8

Google's TransformerFAM: پیشرفتی در پردازش با زمینه طولانی

محققان گوگل از TransformerFAM رونمایی کردند، معماری جدیدی که قرار است پردازش با زمینه طولانی را در مدل‌های زبان بزرگ (LLM) متحول کند. TransformerFAM با ادغام یک مکانیسم حلقه بازخورد، قول می‌دهد که توانایی شبکه را برای مدیریت توالی‌های بی‌نهایت طولانی افزایش دهد. این به محدودیت های ناشی از پیچیدگی توجه درجه دوم می پردازد.

همچنین خواندن: TorchTune PyTorch: انقلابی در تنظیم دقیق LLM

Google's TransformerFAM: پیشرفتی در پردازش طولانی مدت در LLM

درک محدودیت ها

مکانیسم های توجه سنتی در ترانسفورماتور پیچیدگی درجه دوم را در مورد طول زمینه نشان می‌دهند و کارایی آنها را در پردازش توالی‌های طولانی محدود می‌کنند. در حالی که تلاش هایی مانند توجه به پنجره کشویی و تقریب های پراکنده یا خطی انجام شده است، آنها اغلب کوتاهی می کنند، به خصوص در مقیاس های بزرگتر.

راه حل: TransformerFAM

در پاسخ به این چالش ها، TransformerFAM گوگل بازخوردی را معرفی می کند مکانیسم توجه، با الهام از مفهوم حافظه فعال در مغز انسان. این مکانیسم به مدل اجازه می دهد تا به بازنمایی های نهفته خود توجه کند و ظهور حافظه کاری در معماری ترانسفورماتور را تقویت می کند.

همچنین خواندن: مایکروسافت AllHands: LLM Framework را برای تجزیه و تحلیل بازخورد در مقیاس بزرگ معرفی می کند

معماری TransformerFAM گوگل

ویژگی های کلیدی و نوآوری ها

TransformerFAM دارای یک ماژول Block Sliding Window Attention (BSWA) است که توجه کارآمد را به وابستگی های محلی و دوربرد در توالی های ورودی و خروجی امکان پذیر می کند. با ادغام فعال‌سازی‌های بازخورد در هر بلوک، معماری انتشار پویا اطلاعات متنی جهانی را در بین بلوک‌ها تسهیل می‌کند.

عملکرد و پتانسیل

نتایج تجربی در اندازه‌های مختلف مدل، پیشرفت‌های قابل‌توجهی را در وظایف با زمینه طولانی نشان می‌دهد، که از پیکربندی‌های دیگر پیشی می‌گیرد. ادغام یکپارچه TransformerFAM با مدل های از پیش آموزش دیده و کمترین تأثیر بر کارایی آموزش، آن را به یک راه حل امیدوارکننده برای توانمندسازی LLM ها برای پردازش دنباله هایی با طول نامحدود تبدیل می کند.

همچنین خواندن: Databricks DBRX: LLM منبع باز که غول‌ها را می‌پذیرد

حرف ما

TransformerFAM یک پیشرفت قابل توجه در زمینه است یادگیری عمیق. این یک راه حل امیدوار کننده برای چالش طولانی مدت پردازش دنباله های بی نهایت طولانی ارائه می دهد. Google با به کارگیری توجه بازخورد و توجه به پنجره کشویی بلوک، راه را برای پردازش با زمینه طولانی کارآمدتر و مؤثرتر در LLM هموار کرده است. این پیامدهای گسترده ای برای درک زبان طبیعی و وظایف استدلال دارد.

ما را دنبال در اخبار گوگل برای به روز ماندن با آخرین نوآوری ها در دنیای هوش مصنوعی، علم داده، و ژن.

چت با ما

سلام! چگونه می توانم به شما کمک کنم؟