آزمایشگاه پردازش هوشمند صدا
سرپرست:
آقای دکتر یاسر شکفته (عضو هیاتعلمی گروه هوش مصنوعی، رباتیک و رایانش شناختی)
آقای دکتر یاسر شکفته (عضو هیاتعلمی گروه هوش مصنوعی، رباتیک و رایانش شناختی)
محل فعلی:
اتاق 27 – ساختمان مجموعه آزمایشگاههای تخصصی دانشکده مهندسی و علوم کامپیوتر
اتاق 27 – ساختمان مجموعه آزمایشگاههای تخصصی دانشکده مهندسی و علوم کامپیوتر
فعالیت های اصلی:
- • پردازش، تحلیل و تولید سیگنالهای صدا، صوت و گفتار
- • پردازش و تحلیل سیگنالهای حیاتی و دادههای پزشکی
- • پردازش داده و زبان طبیعی مبتنی بر مدلهای یادگیری ماشین و یادگیری عمیق
- • آشوب و سامانههای پویا در کاربردهای مهندسی (مانند: مدلسازی و تخمین پارامتر – طراحی روشهای استخراج ویژگی)
زمینههای تحقیقاتی:
- • Spoofing Speech Detection (Audio Deepfake)
- • Automatic Speaker Identification (SID) & Automatic Speaker Verification (ASV)
- • Automatic Spoken Language Identification (LID) & Automatic Spoken Gender Identification (GID)
- • Automatic Spoken Keyword Spotting (KWS) & Spoken Term Detection (STD)
- • Automatic Spoken Emotion Recognition (SER)
- • Voice Activity Detection (VAD) & Speech Activity Detection (SAD)
- • Automatic Speaker Diarization (Speaker Segmentation)
- • Automatic Speech Recognition (ASR) & Speech-to-Text (STT)
- • Persian/Farsi Text-to-Speech (TTS) & Voice Synthesizer
- • Voice Pathology Detection and Classification From Spontaneous/Read Speech or Phones
- • Automatic Audio Scene Recognition
- • Audio Source Separation & Speech Enhancement
- • Anomalous Sound Detection (ASD)
- • English-to-Persian Voice Actor Recommender System
- • Diagnosis of Depression from Speech Signals of Conversations
- • Alzheimer’s Dementia Recognition From Spontaneous Speech
- • Imagined Speech Classification using EEG signals
- • ElectroMagnetic Articulography (EMA Signals) to measure the position of parts of the mouth
- • Heart Sound Signal Classification using PCG signals (phonocardiogram)
- • Music genre classification
نمونه پروژههای صنعتی:
- • آوانشان (نسخه 1.0): نرم افزار تشخیص کلیدواژه گفتار فارسی
- • صدایم (نسخه 1.0Sedayam_v1.0 - ): نرم افزار تشخیص بیماریهای گفتاری
برخی از دادگان کاربردی:
- • PAVID-CVs: A Persian Audio-Visual Database of CV syllables
- • SBU-KWS: A Persian Spoken Dataset for Evaluation of Keyword Spotting Systems
- • E2PCast: An English To Persian Voice Casting Dataset
- • Robat-e-Beheshti: A Persian Wake Word Detection Dataset for Robotic Purposes
نمونه دادگان عملیاتی:
- • PAVID-CVs: A Persian Audio-Visual Database of CV syllables
- • SBU-KWS: A Persian Spoken Dataset for Evaluation of Keyword Spotting Systems
- • E2PCast: An English To Persian Voice Casting Dataset
- • Robat-e-Beheshti: A Persian Wake Word Detection Dataset for Robotic Purposes
نمونه پایاننامههای تحصیلات تکمیلی:
- • شناسایی احساس در گفتار فارسی با استفاده از اطلاعات صوتی و زبانی
- • ارائه سیستم پیشنهاد صدا پیشه انگلیسی به فارسی با استفاده از ویژگیهای صوتی
- • بهبود کارایی سامانه تشخیص کلیدواژه گفتاری به وسیله پسپردازش کلیدواژههای کاندید شده مبتنی بر مدلسازی واحدهای زیرکلمه
- • دستهبندی سیگنالهای صدای قلب بوسیله مدلسازی در فضای فاز بازسازی شده
- • بهبود کارایی سامانه شناسایی زبان گفتاری توسط همجوشی اطلاعات آکوستیک و آوایی مبتنی بر روشهای یادگیری
- • تشخیص سیلابهای دو آوایی (CV) از روی تصاویر ویدیویی لب
- • معماری متنآگاه بهبود گفتار
- • شناسایی تصورات گفتاری در کاربرد BCI با استفاده از تحلیل پویای غیرخطی سیگنال EEG
- • تشخیص و شناسایی بیماریهای گفتاری با استفاده از مدلسازی جاذبهای گفتاری در فضای بازسازی شده فاز
- • جداسازی سیگنال گفتار از پس زمینه با استفاده از شبکههای عصبی عمیق در کاربرد شناسایی گفتار