آزمایشگاه پردازش هوشمند صدا

سرپرست:
آقای دکتر یاسر شکفته  (عضو هیات‌علمی گروه هوش مصنوعی، رباتیک و رایانش شناختی)
محل فعلی:
 اتاق 27 – ساختمان مجموعه آزمایشگاه‌های تخصصی دانشکده مهندسی و علوم کامپیوتر

فعالیت های اصلی:

  • پردازش، تحلیل و تولید سیگنال‌های صدا، صوت و گفتار
  • پردازش و تحلیل سیگنال‌های حیاتی و داده‌های پزشکی
  • پردازش داده و زبان طبیعی مبتنی بر مدل‌های یادگیری ماشین و یادگیری عمیق
  • آشوب و سامانه‌های پویا در کاربردهای مهندسی (مانند: مدل‌سازی و تخمین پارامتر – طراحی روش‌های استخراج ویژگی)

زمینه‌های تحقیقاتی:

  • Spoofing Speech Detection (Audio Deepfake)
  • Automatic Speaker Identification (SID) & Automatic Speaker Verification (ASV)
  • Automatic Spoken Language Identification (LID) & Automatic Spoken Gender Identification (GID)
  • Automatic Spoken Keyword Spotting (KWS) & Spoken Term Detection (STD)
  • Automatic Spoken Emotion Recognition (SER)
  • Voice Activity Detection (VAD) & Speech Activity Detection (SAD)
  • Automatic Speaker Diarization (Speaker Segmentation)
  • Automatic Speech Recognition (ASR) & Speech-to-Text (STT)
  • Persian/Farsi Text-to-Speech (TTS) & Voice Synthesizer
  • Voice Pathology Detection and Classification From Spontaneous/Read Speech or Phones
  • Automatic Audio Scene Recognition
  • Audio Source Separation & Speech Enhancement
  • Anomalous Sound Detection (ASD)
  • English-to-Persian Voice Actor Recommender System
  • Diagnosis of Depression from Speech Signals of Conversations
  • Alzheimer’s Dementia Recognition From Spontaneous Speech
  • Imagined Speech Classification using EEG signals
  • ElectroMagnetic Articulography (EMA Signals) to measure the position of parts of the mouth
  • Heart Sound Signal Classification using PCG signals (phonocardiogram)
  • Music genre classification

نمونه پروژه‌های صنعتی:

  • آوانشان (نسخه 1.0): نرم افزار تشخیص کلیدواژه گفتار فارسی
  • صدایم (نسخه 1.0Sedayam_v1.0 - ): نرم افزار تشخیص بیماریهای گفتاری




برخی از دادگان کاربردی:
  • PAVID-CVs: A Persian Audio-Visual Database of CV syllables
  • SBU-KWS: A Persian Spoken Dataset for Evaluation of Keyword Spotting Systems
  • E2PCast: An English To Persian Voice Casting Dataset
  • Robat-e-Beheshti: A Persian Wake Word Detection Dataset for Robotic Purposes

نمونه دادگان عملیاتی:

  • PAVID-CVs: A Persian Audio-Visual Database of CV syllables
  • SBU-KWS: A Persian Spoken Dataset for Evaluation of Keyword Spotting Systems
  • E2PCast: An English To Persian Voice Casting Dataset
  • Robat-e-Beheshti: A Persian Wake Word Detection Dataset for Robotic Purposes

نمونه پایان‌نامه‌های تحصیلات تکمیلی:

  • شناسایی احساس در گفتار فارسی با استفاده از اطلاعات صوتی و زبانی
  • ارائه سیستم پیشنهاد صدا پیشه انگلیسی به فارسی با استفاده از ویژگی‌های صوتی
  • بهبود کارایی سامانه تشخیص کلیدواژه گفتاری به‌ وسیله پس‌پردازش کلیدواژه‌های کاندید شده مبتنی بر مدل‌سازی واحدهای زیرکلمه
  • دسته‌بندی سیگنال‌های صدای قلب بوسیله مدل‌سازی در فضای فاز بازسازی شده
  • بهبود کارایی سامانه شناسایی زبان گفتاری توسط هم‌جوشی اطلاعات آکوستیک و آوایی مبتنی ‌بر روش‌های یادگیری
  • تشخیص سیلاب‌های دو آوایی (CV) از روی تصاویر ویدیویی لب
  • معماری متن‌آگاه بهبود گفتار
  • شناسایی تصورات گفتاری در کاربرد BCI با استفاده از تحلیل پویای غیرخطی سیگنال EEG
  • تشخیص و شناسایی بیماری‌های گفتاری با استفاده از مدل‌سازی جاذب‌های گفتاری در فضای بازسازی شده فاز
  • جداسازی سیگنال گفتار از پس زمینه با استفاده از شبکه‌های عصبی عمیق در کاربرد شناسایی گفتار
مشخصات آزمایشگاه:
وب سایت
ارتباط با آزمایشگاه:
رزومه سرپرست آزمایشگاه
29904106
y_shekofteh[at]sbu.ac.ir