Papers

What follows is a list of 1394 papers that mention Freesound or use Freesound data for research. This list is created automatically by finding articles that cite one of the main Freesound reference papers. Some entries have also been added manually. Papers are sorted by year of publication and alphabetically by first author surname.

If you have a paper which should be on the list and is not, please send us an email at freesound@freesound.org.

2026 (84)

A. Li, Linping Xu, Z. Han, Lingling Dai, Yiqing Guo, Hua-Jing Gao, Xiaodong Li, C. Zheng. Nanocodec: Towards Low Bitrate And Low Complexity Real-Time Neural Audio Codec. IEEE International Conference on Acoustics, Speech, and Signal Processing (2026).
Anshuman Agrahri, Chandresh Kumar Maurya, Ravi Shekhar Tiwari, Shashwat Tripathi. Acoustic Sentinel: Hierarchical Classification Of Footstep Sound Using Fine And Coarse-Grain Acoustic Feature Representations For Tactical Surveillance. Scientific Reports (2026).
Artem Dementyev, W. Zulfikar, Sinan Hersek, Pascal Getreuer, Anurag Kumar, Vivek Kumar. Phasecoder: Microphone Geometry-Agnostic Spatial Audio Understanding For Multimodal Llms. arXiv.org (2026).
Asmitha J S, D. R, N. V. Infernofusion: An Edge-Optimized Audio-Visual Deep Learning Framework For Early Fire Smoke Detection. 2026 International Conference on Visual Analytics and Data Visualization (ICVADV) (2026).
Ayush Barik, S. Stoica, Nikhil Sarda, Arnav Kethana, A. Khanduja, Mucheng Xu, Fan Lai. Soundweaver: Semantic Warm-Starting For Text-To-Audio Diffusion Serving (2026).
Chen Chen, Jia Zhou, Yong Chen, Ao Li, Fengwei Gu, Liang Xi. Fine-Tuned Whisper-Based Semantic-Temporal Aggregation Networks For Sound Event Classification. Pattern Recognition (2026).
Chenda Li, Wei Wang, Marvin Sach, Wangyou Zhang, Kohei Saijo, Samuele Cornell, Yihui Fu, Zhaoheng Ni, Tim Fingscheidt, Shinji Watanabe, Yanmin Qian. Icassp 2026 Urgent Speech Enhancement Challenge. IEEE International Conference on Acoustics, Speech, and Signal Processing (2026).
Cheng Yu, Vahid Ahmadi Kalkhorani, Buye Xu, DeLiang Wang. Audiovisual Speech Enhancement And Voice Activity Detection Using Generative And Regressive Visual Features. Computer Speech and Language (2026).
Chenggang Chen, Zhiyu Yang, Xiaoqin Wang. What And Where Manifolds Emerge And Align With Perception In Deep Neural Network Models Of Sound Localization. bioRxiv (2026).
Christiaan M. Geldenhuys, T. Niesler. From Birdsong To Rumbles: Classifying Elephant Calls With Out-Of-Species Embeddings (2026).
Chun-wei Ho, Sabato Marco Siniscalchi, Kai Li, Chin-Hui Lee. A Knowledge-Driven Approach To Music Segmentation, Music Source Separation And Cinematic Audio Source Separation. arXiv.org (2026).
Chun-wei Ho, Sabato Marco Siniscalchi, Kai Li, Chin-Hui Lee. A Knowledge-Driven Approach To Target Speech Extraction In The Presence Of Background Sound Effects For Cinematic Audio Source Separation (Cass) (2026).
Cristian Cioflan, Lukas Cavigelli, Manuele Rusci, Miguel de Prado, Luca Benini. Efficient On-Device Domain Learning For Keyword Spotting On Ultra-Low-Power Platforms. IEEE Internet of Things Journal (2026).
Cyril Allauzen, Tom Bagby, G. Heigold, Ehsan Variani, Ke Wu. Benchmarking Llms On The Massive Sound Embedding Benchmark (Mseb) (2026).
Dan Stowell, E. Vidaña-Vila, I. Nolasco, Ben McEwen, Lucie Jean-Labadye, Yasmine Benhamadi, G. Dubus, Benjamin Hoffman, P. Linhart, Ilaria Morandi, Dorian Cazau, Brian S. Miller, Elena Schall, Clea Parcerisas, Anatole Gros-Martial, Ilyass Moummad, Pierre-Yves Raumer, E. White, Paul White, P. V. N. Duc, Vincent Lostanlen. Biodcase: Using Data Challenges To Make Community Advances In Computational Bioacoustics. bioRxiv (2026).
Donghang Wu, Tianyu Zhang, Yuxin Li, Hexin Liu, Chen Chen, E. Chng, Y. Bengio. The Silent Thought: Modeling Internal Cognition In Full-Duplex Spoken Dialogue Models Via Latent Reasoning (2026).
Fei Liu, Yang Ai, Hui-Peng Du, Yunping Shi, Zhenhua Ling. Latentflowsr: High-Fidelity Audio Super-Resolution Via Noise-Robust Latent Flow Matching (2026).
Feiyu Zhao, Yiming Chen, Wenhuan Lu, Dai Zhang, Xianghu Yue, Jianguo Wei. Halluaudio: A Comprehensive Benchmark For Hallucination Detection In Large Audio-Language Models (2026).
G. Heigold, Ehsan Variani, Tom Bagby, Cyril Allauzen, Ji Ma, Shankar Kumar, M. Riley. Massive Sound Embedding Benchmark (Mseb). arXiv.org (2026).
Gaëtan Hadjeres, Marc Ferras, Khaled Koutini, Benno Weck, Alexandre Bittar, Thomas Hummel, Zineb Lahrici, Hakim Missoum, Joan Serrà, Yuki Mitsufuji. Woosh: A Sound Effects Foundation Model (2026).
Georgii Aparin, Tasnima Sadekova, Alexey Rukhovich, Assel Yermekova, Laida Kushnareva, Vadim Popov, Kristian Kuznetsov, Irina Piontkovskaya. Audiosae: Towards Understanding Of Audio-Processing Models With Sparse Autoencoders. Conference of the European Chapter of the Association for Computational Linguistics (2026).
Giries Abu Ayoub, Morad Tukan, Loay Mualem. Spuraudio: A Benchmark For Studying Shortcut Learning In Few-Shot Audio Classification (2026).
Giuseppe Ciaburro, Virginia Puyana-Romero. Sound Event Detection In Smart Cities: A Systematic Review Of Methods, Datasets, And Applications. Big Data and Cognitive Computing (2026).
H. Su, Weijian Qin, Wenjie Zhang, Zhenhua Chen, Hongzhi Hu, Cuifeng Xu, Yi Tao. Variable Step-Size Active Sound Quality Control Based On Auditory Temporal Coherence. Applied Acoustics (2026).
Haejun Yoo, Yong-Joo Shin, Insung Lee, M. Koo, Du-Seong Chang. Omni-Embed-Audio: Leveraging Multimodal Llms For Robust Audio-Text Retrieval (2026).
Haina Zhu, Yao Xiao, Xiquan Li, Ziyang Ma, Jianwei Yu, Bowen Zhang, Mingqi Yang, Xie Chen. Audio Controlnet For Fine-Grained Audio Generation And Editing. arXiv.org (2026).
Han Yin, Yang Xiao, Younghoo Kwon, Ting Dang, Jung-Woo Choi. Focus Then Listen: Exploring Plug-And-Play Audio Enhancer For Noise-Robust Large Audio Language Models (2026).
Haoxu Wang, Biao Tian, Yiheng Jiang, Zexu Pan, Shengkui Zhao, Bin Ma, Daren Chen, Xiangang Li. Flowse-Grpo: Training Flow Matching Speech Enhancement Via Online Reinforcement Learning. IEEE International Conference on Acoustics, Speech, and Signal Processing (2026).
Heinrich Dinkel, Jiahao Zhou, Guan-Bo Wang, Yadong Niu, Junbo Zhang, Yufeng Hao, Ying Liu, Kehan Li, Wenwu Wang, Zhiyong Wu, Jian Luan. The Interspeech 2026 Audio Encoder Capability Challenge For Large Audio Language Models (2026).
Heinrich Dinkel, Xing Sun, Gang Li, Jiahao Mei, Yadong Niu, Jizhong Liu, Xiyang Li, Yi-Hsiu Liao, Jiahao Zhou, Junbo Zhang, Jian Luan. Dashengtokenizer: One Layer Is Enough For Unified Audio Understanding And Generation. arXiv.org (2026).
Heitor R. Guimarães, Abhishek Tiwari, Mahsa Abdollahi, Anderson R. Avila, Tiago H. Falk. Biome: A Resource-Efficient Bioacoustic Foundational Model For Iot Applications. arXiv.org (2026).
Hilde I. Hummel, S. Bhulai, R. D. van der Mei, Burooj Ghani. Linear Probing Enables Ship-Radiated Noise Recognition With Pretrained Audio Embeddings. Ecological Informatics (2026).
Hilde I. Hummel, S. Bhulai, R. V. D. Mei, Burooj Ghani. Decodable But Not Structured: Linear Probing Enables Underwater Acoustic Target Recognition With Pretrained Audio Embeddings. arXiv.org (2026).
Honglei Zhang, Yuting Chen, Chenpeng Hu, Siyue Zhang, Yilei Shi. Reasonaudio: A Benchmark For Evaluating Reasoning Beyond Matching In Text-Audio Retrieval (2026).
Hua Qiao, Zixin Chen, Chengming Ji, Jianfeng Gao, Xiaoyang Xue, Shouchang Zhou, Huanliang Xu, Junxian Huang. Smartears: A Practical Framework For Poultry Respiratory Monitoring Via Spectrogram-Based Audio Classification And Ai-Assisted Labeling. Computers and Electronics in Agriculture (2026).
Ian McLoughlin, L. Pham, Yan Song, Xiaoxiao Miao, Huy Phan, Pengfei Cai, Qing Gu, Jiang Nan, Haoyu Song, D. Soh. Spectrogram Features For Audio And Speech Analysis. Applied Sciences (2026).
Iwona Christop, Mateusz Czy.znikiewicz, Pawel Sk'orzewski, Lukasz Bondaruk, Jakub Kubiak, Marcin Lewandowski, Marek Kubis. A Benchmark For Audio Reasoning Capabilities Of Multimodal Large Language Models. Conference of the European Chapter of the Association for Computational Linguistics (2026).
Jiayu Xiong, Jing Wang, Wanlong Wang, Xiao Lyu, J. Kwan, Jun Xue. Masked Autoencoders For Spatio-Temporal Audio Representations: Theory And Optimization. Pattern Recognition (2026).
Jie Wang, Yazhe Niu, Dexuan Xu, Zhongyu Wei. Listen, Pause, And Reason: Toward Perception-Grounded Hybrid Reasoning For Audio Understanding (2026).
Jilan Xu, Carl Thom'e, Danijela Horak, Weidi Xie, A. Zisserman. Scaling Audio-Text Retrieval With Multimodal Large Language Models. arXiv.org (2026).
José M. Gil Panal, Aurélien David, Ga¨el Richard. The Hi-Audio Online Platform For Recording And Distributing Multi-Track Music Datasets. Journal on Audio, Speech, and Music Processing (2026).
Jucheng Hu, Zhangquan Chen, Yulin Chen, C. Hong, Liang Zhou, Tairan Wang, Sifei Li, Giulio Zhu, Fengtao Zhou, Yiheng Zeng, Suorong Yang, Dongzhan Zhou. Meow-Omni 1: A Multimodal Large Language Model For Feline Ethology (2026).
Kai Li, Jintao Cheng, Chang Zeng, Zijun Yan, Helin Wang, Zixiong Su, Bo Zheng, Xiaolin Hu. A Semantically Consistent Dataset For Data-Efficient Query-Based Universal Sound Separation. arXiv.org (2026).
Kohei Asai, Wataru Nakata, Yuki Saito, Hiroshi Saruwatari. Geneses: Unified Generative Speech Enhancement And Separation. IEEE International Conference on Acoustics, Speech, and Signal Processing (2026).
Kunlin Wu, Yanning Wang, Haofeng Tan, Bo Chen, Teng Fei, Xianping Ma, Yang Yue, Zan Zhou, Xiaofeng Liu. Geo2Sound: A Scalable Geo-Aligned Framework For Soundscape Generation From Satellite Imagery (2026).
Kurumi Sashida, Gouhei Tanaka. Misophonia Trigger Sound Detection On Synthetic Soundscapes Using A Hybrid Model With A Frozen Pre-Trained Cnn And A Time-Series Module. arXiv.org (2026).
Ladislav Mošner, Oldrich Plchot, Lukáš Burget, Chunlei Zhang, J. Černocký, Meng Yu. Trainable Multi-Channel Front-Ends For Joint Beamforming And Speaker Embedding Extraction. Computer Speech and Language (2026).
Leying Zhang, Bowen Shi, Haibin Wu, Bach Viet Do, Yanmin Qian. Jastin: Aligning Llms For Zero-Shot Audio And Speech Evaluation Via Natural Language Instructions (2026).
Manu Harju, F. Font, A. Mesaros. Self-Labeling Sounds Using Optimal Transport. IEEE Open Journal of Signal Processing (2026).
Masahiro Yasuda, B. T. Nguyen, Noboru Harada, Romain Serizel, Mayank Mishra, Marc Delcroix, Carlos Hernandez-Olivan, Shoko Araki, Daiki Takeuchi, Tomohiro Nakatani, Nobutaka Ono. Description And Discussion On Dcase 2026 Challenge Task 4: Spatial Semantic Segmentation Of Sound Scenes (2026).
Mateo Cámara, Fernando Marcos, A. R. Bargum, C. Erkut, Joshua D. Reiss, José Luis Blanco. Neural Audio Synthesis For Sound Effects: A Scope Review. IEEE Transactions on Audio, Speech, and Language Processing (2026).
Meizhu Liu, M. Rowe, Amit Agarwal, M. Avendi, Yassi Abbasi, Hitesh Laxmichand Patel, Paul Li, Kyu J. Han, Tao Sheng, Sujith Ravi, Dan Roth. Robust Audio-Text Retrieval Via Cross-Modal Attention And Hybrid Loss (2026).
Mohammed Ali El Adlouni, Aurian Quelennec, Pierre Chouteau, Geoffroy Peeters, S. Essid. S-Sondo: Self-Supervised Knowledge Distillation For General Audio Foundation Models. IEEE International Conference on Acoustics, Speech, and Signal Processing (2026).
N. Tomashenko, Xiaoxiao Miao, Pierre Champion, S. Meyer, M. Panariello, Xin Wang, Nicholas W. D. Evans, Emmanuel Vincent, Junichi Yamagishi, Massimiliano Todisco. The Third Voiceprivacy Challenge: Preserving Emotional Expressiveness And Linguistic Content In Voice Anonymization. Computer Speech & Language (2026).
Naveen Vakada, K. Hegde, A. Sridhar, Yinyi Guo, Erik Visser. Longaudio-Rag: Event-Grounded Question Answering Over Multi-Hour Long Audio. arXiv.org (2026).
Ningyuan Yang, Sile Yin, Li-Chia Yang, Bryce Irvin, Xiao Quan, Marko Stamenovic, Shuo Zhang. Fsd50K-Solo: Automated Curation Of Single-Source Sound Events (2026).
Parampreet Singh, Akshay Raina, S. I. Sheikh, Vipul Arora. Learning From Limited Labels: Transductive Graph Label Propagation For Indian Music Analysis. arXiv.org (2026).
Petr Grinberg, Hassan Shahmohammadi. Alarm: Audio-Language Alignment For Reasoning Models (2026).
Philippe Gonzalez. Absorbing Discrete Diffusion For Speech Enhancement. arXiv.org (2026).
Philippe Gonzalez, Vera Frederiksen, Torsten Dau, Tobias May. End-To-End Multi-Task Learning For Adjustable Joint Noise Reduction And Hearing Loss Compensation (2026).
Raphael Schwinger, Paria Vali Zadeh, Lukas Rauch, Mats Kurz, Tom Hauschild, Sam Lapp, Sven Tomforde. Foundation Models For Bioacoustics – A Comparative Review. Ecological Informatics (2026).
Robert Sutherland, Jason Clarke, Hend Elghazaly, Thomas Kuebert, Marko Lugger, Stefan Petrausch, Juan Azcarreta Ortiz, Buye Xu, Stefan Goetze, Jon Barker. Descriptor: Enhancing Conversations For The Hearing Impaired In The 9Th Computational Hearing In Multisource Environments Challenge (Chime9 Echi). IEEE Data Descriptions (2026).
Ronit Dahiya, Suresh Kumar. Noise-Robust Speech Recognition With Latency-Aware Performance Trade-Offs. 2026 2nd International Conference on Cognitive Computing in Engineering, Communications, Sciences and Biomedical Health Informatics (IC3ECSBHI) (2026).
Seung-myoung Oh, Malek Itani, Aseem Gauri, Shyamnath Gollakota. Fine-Grained Soundscape Control For Augmented Hearing. arXiv.org (2026).
Sheng Long, Atsuya Kobayashi, Kei Tateno. Looplens: Supporting Search As Creation In Loop-Based Music Composition (2026).
Shiqi Wang, Hongbing Qiu, Xiyu Song, Mei Wang, Fangzhi Yao. Speech Enhancement For Ambisonics Input-Output Systems: Spatio-Temporal Reverberation Shaping And A Neural Filtering Framework. Journal of the Acoustical Society of America (2026).
Sofía Callejas, Nahuel Gomez, Catherine Pelachaud, Brian Ravenet, Valentin Barrière. Multilinguahah : A New Unsupervised Multilingual Acoustic Laughter Segmentation Method (2026).
T. Chowdhury, Ta Duc Huy, Siqi Pan, Jeremy Stoddard, Zhibin Liao. Ar&D: A Framework For Retrieving And Describing Concepts For Interpreting Audiollms. IEEE International Conference on Acoustics, Speech, and Signal Processing (2026).
Tao Yu, Yiming Ding, Shenghua Chai, Minghui Zhang, Zhongtian Luo, Xinming Wang, Xinlong Chen, Zhaolu Kang, Junhao Gong, Yuxuan Zhou, Haopeng Jin, Zhiqing Cui, Jiabing Yang, YiFan Zhang, Hongzhu Yi, Zheqi He, Xi Yang, Yan Huang, Liang Wang. Omni-Deepsearch: A Benchmark For Audio-Driven Omni-Modal Deep Search (2026).
Tasnim Kabir, Dmytro Kurdydyk, Aadi Palnitkar, Liam Dorn, Ahmed Haj Ahmed, Jordan Boyd-Graber. Audita: A New Dataset To Audit Humans Vs. Ai Skill At Audio Qa (2026).
Wataru Nakata, Yuki Saito, Kazuki Yamauchi, E. Tsunoo, Hiroshi Saruwatari. Dialoguesidon: Recovering Full-Duplex Dialogue Tracks From In-The-Wild Dialogue Audio (2026).
Won-Ryeol Jeong. Optimal Transport Audio Distance With Learned Riemannian Ground Metrics (2026).
Wonjun Park, Tuan M. Dang, Kenny Q. Zhu. Towards Distance-Aware Synthetic Audio Mixtures For Universal Sound Separation. IEEE International Conference on Acoustics, Speech, and Signal Processing (2026).
Xiao-Ying Zhao, Qiushi Zhu, Yuchen Hu, Lirong Dai. Serv: A Speech Enhancement Framework Based On Noise-Augmented Self-Supervised Representations And Vocoders. IEEE Transactions on Audio, Speech, and Language Processing (2026).
Xiaobin Rong, Jun Gao, Zhengjia Wang, Mansur Yesilbursa, Kamil Wojcicki, Jing Lu. Stupase: Towards Low-Hallucination Studio-Quality Generative Speech Enhancement (2026).
Xiaobin Rong, Zheng Wang, Yushi Wang, Jun Gao, Jing Lu. Unipase: A Generative Model For Universal Speech Enhancement With High Fidelity And Low Hallucinations (2026).
Xiquan Li, Xuenan Xu, Ziyang Ma, Wenxi Chen, Haolin He, Qiuqiang Kong, Xie Chen. Finelap: Taming Heterogeneous Supervision For Fine-Grained Language-Audio Pretraining (2026).
Xuanhao Zhang, Chang Li. Stage-Adaptive Audio Diffusion Modeling (2026).
Xuanru Zhou, Yiwen Shao, Wei-Cheng Tseng, Dong Yu. Unlocking Strong Supervision: A Data-Centric Study Of General-Purpose Audio Pre-Training Methods (2026).
Yanxi Shen, Anran Li. St-Former: A Transformer-Based Temporal-Scene Fusion-Driven Auditory Experience Analysis Model. Alexandria Engineering Journal (2026).
Yuanbo Hou, Yanru Wu, Qiaoqiao Ren, Shengchen Li, Stephen Roberts, D. Botteldooren. Geo-Atbench: A Benchmark For Geospatial Audio Tagging With Geospatial Semantic Context (2026).
Yuhuan You, Lai Wei, Xihong Wu, T. Qu. The World Is Not Mono: Enabling Spatial Understanding In Large Audio-Language Models. arXiv.org (2026).
Yusheng Dai, Zehua Chen, Yuxuan Jiang, Baolong Gao, Qiuhong Ke, Jun Zhu, Jianfei Cai. Omni2Sound: Towards Unified Video-Text-To-Audio Generation. arXiv.org (2026).
Yuxiang Wang, Hongyu Liu, Dekun Chen, Xueyao Zhang, Zhizheng Wu. Voxprivacy: A Benchmark For Evaluating Interactional Privacy Of Speech Language Models. arXiv.org (2026).

2025 (259)

A. Soto-Vergel, D. Ramírez-Ríos, J. C. Velez, R. Amaya-Mier. An Industry 4.0 Geolocation System For Last Mile Ground Disasters Survivor Detection: Tests And Results. Socio-Economic Planning Sciences (2025).
Aarish Shah Mohsin, Mohammad Nadeem, S. Sohail, Tughrul Arslan, M. Gogate, Nasir Saleem, Amir Hussain. Investigating Gender Bias In Text-To-Audio Generation Models. Interspeech (2025).
Abdinabi Mukhamadiyev, Ilyos Khujayarov, Dilorom Nabieva, Jinsoo Cho. An Ensemble Of Convolutional Neural Networks For Sound Event Detection. Mathematics (2025).
Adrian S. Roman, Irán R. Román, J. Bello. Latent Acoustic Mapping For Direction Of Arrival Estimation: A Self-Supervised Approach. IEEE Workshop on Applications of Signal Processing to Audio and Acoustics (2025).
Ahmed Adel Attia, Jing Liu, C. Wilson. Realclass: A Framework For Classroom Speech Simulation With Public Datasets And Game Engines. arXiv.org (2025).
Ahmed Adel Attia, Jing Liu, Carl Espy-Wilson. Simclass: A Classroom Speech Dataset Generated Via Game Engine Simulation For Automatic Speech Recognition Research. arXiv.org (2025).
Alexandra Popescu, R. Frost, Milos Cernak. Low-Latency Assistive Audio Enhancement For Neurodivergent People (2025).
Alexandros Koumparoulis, G. Potamianos. Resource-Efficient And Noise-Robust Modality Fusion For Audio-Visual Speech Recognition. IEEE International Conference on Acoustics, Speech, and Signal Processing (2025).
Alice Zhang, Edison Thomaz, Lie Lu. Transformation Of Audio Embeddings Into Interpretable, Concept-Based Representations. ArXiv (2025).
Alkis Koudounas, Moreno La Quatra, Marco Sabato Siniscalchi, Elena Baralis. Voc2Vec: A Foundation Model For Non-Verbal Vocalization. ICASSP 2025 - 2025 IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP) (2025).
Amlan Basu, Pranav Chaudhari, G. D. Caterina. Fundamental Survey On Neuromorphic Based Audio Classification. ArXiv (2025).
Anaswara Antony, Wolfgang Theimer, Giovanni Grossetti, Christoph M. Friedrich. Acoustic Event Detection In Vehicles: A Multi-Label Classification Approach. Sensors (2025).
Andong Li, Tong Lei, Rilin Chen, Kai Li, Meng Yu, Xiaodong Li, Dong Yu, C. Zheng. Bridgevoc: Revitalizing Neural Vocoder From A Restoration Perspective. arXiv.org (2025).
André Luiz Florentino, Eva Laussac Diniz, Plinio Thomaz Aquino-Jr. A Dataset For Environmental Sound Recognition In Embedded Systems For Autonomous Vehicles. Scientific Data (2025).
Angelo Soto-Vergel, Prashant Sankaran, J. C. Velez, René Amaya-Mier, D. R. Ríos. Atomicvad: A Tiny Voice Activity Detection Model For Efficient Inference In Intelligent Iot Systems. Internet of Things (2025).
Anil Pudasaini, M. Al-Hawawreh, Mohamed Reda Bouadjenek, Hakim Hacid, Sunil Aryal. A Comprehensive Study Of Audio Profiling: Methods, Applications, Challenges, And Future Directions. Neurocomputing (2025).
Arjun Prasaath Anbazhagan, Parteek Kumar, Ujjwal Kaur, Aslihan Akalin, Kevin Zhu, Sean O'Brien. Probing Audio-Generation Capabilities Of Text-Based Language Models. arXiv.org (2025).
Aurian Quelennec, Pierre Chouteau, Geoffroy Peeters, S. Essid. Masked Latent Prediction And Classification For Self-Supervised Audio Representation Learning. ICASSP 2025 - 2025 IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP) (2025).
Aurian Quelennec, Pierre Chouteau, Geoffroy Peeters, S. Essid. Matpac++: Enhanced Masked Latent Prediction For Self-Supervised Audio Representation Learning. arXiv.org (2025).
Avishkar Behera, Riya Ann Easow, Venkatesh Parvathala, K. Sri, Rama Murty. Test-Time Training For Speech Enhancement. Interspeech (2025).
B. Hayes, C. Saitis, Gyorgy Fazekas. Audio Synthesizer Inversion In Symmetric Parameter Spaces With Approximately Equivariant Flow Matching. International Society for Music Information Retrieval Conference (2025).
B. T. Nguyen, Daiki Takeuchi, Masahiro Yasuda, Daisuke Niizumi, Noboru Harada. Collision-Less And Balanced Sampling For Language-Queried Audio Source Separation. IEEE International Conference on Acoustics, Speech, and Signal Processing (2025).
B. V. Merrienboer, Vincent Dumoulin, Jenny Hamer, Lauren Harrell, Andrea Burns, Tom Denton. Perch 2.0: The Bittern Lesson For Bioacoustics. arXiv.org (2025).
Bastian Estay Zamorano, Ali Dehghan Firoozabadi, A. Brutti, Pablo Adasme, David Zabala-Blanco, Palacios Játiva Palacios Játiva, César A. Azurdia-Meza. Sound Source Localization Using Hybrid Convolutional Recurrent Neural Networks In Undesirable Conditions. Electronics (2025).
Ben Williams, Bart van Merriënboer, Vincent Dumoulin, Jenny Hamer, A. Fleishman, Matthew McKown, Jill Munger, Aaron N. Rice, Ashlee Lillis, Clemency E. White, Catherine A. D. Hobbs, Tries B. Razak, David J. Curnick, Kate E. Jones, Tom Denton. Using Tropical Reef, Bird And Unrelated Sounds For Superior Transfer Learning In Marine Bioacoustics. Philosophical transactions of the Royal Society of London. Series B, Biological sciences (2025).
Binh Thien Nguyen, Masahiro Yasuda, Daiki Takeuchi, Daisuke Niizumi, Yasunori Ohishi, Noboru Harada. Baseline Systems And Evaluation Metrics For Spatial Semantic Segmentation Of Sound Scenes (2025).
Byeong Hyeon Kim, Hyungseob Lim, Inseon Jang, Hong-Goo Kang. Towards An Ultra-Low-Delay Neural Audio Coding With Computational Efficiency. Interspeech (2025).
C. Templin, Yanda Zhu, Hao Wang. Generating Moving 3D Soundscapes With Latent Diffusion Models. IEEE International Conference on Acoustics, Speech, and Signal Processing (2025).
CH. V. N. Vaibhav Simha, Ramesh Kumar Bhukya. Exploring Human Non-Speech Sound Recognition: Insights From The Nonspeech7K Dataset. 2025 International Conference on Innovation in Computing and Engineering (ICE) (2025).
Chang Li, Zehua Chen, Liyuan Wang, Jun Zhu. Audio Super-Resolution With Latent Bridge Models. arXiv.org (2025).
Chen-An Li, Tzu-Han Lin, Hung-yi Lee. When Silence Matters: The Impact Of Irrelevant Audio On Text Reasoning In Large Audio-Language Models. IEEE International Conference on Acoustics, Speech, and Signal Processing (2025).
Chengwei Liu, Haoyin Yan, Shaofei Xue, Xiaotao Liang, Xiaofu Chen, Bin Gong, Zheng Xue, Gang Song. Quarkaudio Technical Report. arXiv.org (2025).
Chengwei Liu, Haoyin Yan, Shaofei Xue, Xiaotao Liang, Yinghao Liu, Zheng Xue, Gang Song, Boyang Zhou. Unitok-Audio: A Unified Audio Generation Framework Via Generative Modeling On Discrete Codec Tokens. arXiv.org (2025).
Chengyu Tang, Sanjeev Baskiyar. State Space Models For Bioacoustics: A Comparative Evaluation With Transformers. arXiv.org (2025).
Chien-Chun Wang, En-Lun Yu, J. Hung, Shih-Chieh Huang, Berlin Chen. Sincqdr-Vad: A Noise-Robust Voice Activity Detection Framework Leveraging Learnable Filters And Ranking-Aware Optimization. Automatic Speech Recognition & Understanding (2025).
Chitralekha Gupta, Soundarya Ramesh, Praveen Sasikumar, Kian Peen Yeo, Suranga Nanayakkara. Droneaudioset: An Audio Dataset For Drone-Based Search And Rescue. arXiv.org (2025).
Chuan Wang, Qinghua Huang. Fa3-Net: Feature Aggregation And Augmentation With Attention Network For Sound Event Localization And Detection. Applied intelligence (Boston) (2025).
Chuan Wen, G. Torfs, Sarah Verhulst. Dconnear: An Artifact-Free Neural Network Architecture For Closed-Loop Audio Signal Processing. IEEE Transactions on Audio, Speech, and Language Processing (2025).
Chuan Wen, G. Torfs, Sarah Verhulst. Artifact-Free Sound Quality In Dnn-Based Closed-Loop Systems For Audio Processing. ArXiv (2025).
Chuan Wen, Sarah Verhulst. Individualized Speech Enhancement For Hearing-Impaired Listeners. Interspeech (2025).
Chuan Wen, Sarah Verhulst. Low-Complexity Individualized Noise Reduction For Real-Time Processing. IEEE Workshop on Applications of Signal Processing to Audio and Acoustics (2025).
Chun-Yi Kuan, Hung-yi Lee. From Alignment To Advancement: Bootstrapping Audio-Language Alignment With Synthetic Data (2025).
Chun-Yi Kuan, Hung-yi Lee. Teaching Audio-Aware Large Language Models What Does Not Hear: Mitigating Hallucinations Through Synthesized Negative Samples (2025).
Daisuke Niizumi, Daiki Takeuchi, Masahiro Yasuda, Binh Thien Nguyen, Yasunori Ohishi, Noboru Harada. M2D-Clap: Exploring General-Purpose Audio-Language Representations Beyond Clap. IEEE Access (2025).
Daisuke Niizumi, Daiki Takeuchi, Masahiro Yasuda, Binh Thien Nguyen, Yasunori Ohishi, Noboru Harada. M2D2: Exploring General-Purpose Audio-Language Representations Beyond Clap (2025).
Daniel Jimon, M. Vaida, Adriana Stan. Adnac: Audio Denoiser Using Neural Audio Codec. International Conference on Speech Technology and Human-Computer Dialogue (2025).
Daniel P. W. Ellis, Eduardo Fonseca, Ron J. Weiss, Kevin Wilson, Scott Wisdom, Hakan Erdogan, J. Hershey, A. Jansen, R. C. Moore, M. Plakal. Recomposer: Event-Roll-Guided Generative Audio Editing. arXiv.org (2025).
Daniel Rika, Nino Sapir, Ido Gus. Dpdfnet: Boosting Deepfilternet2 Via Dual-Path Rnn. arXiv.org (2025).
David Genova, P. Esling, Tom Hurlin. Keep What You Need : Extracting Efficient Subnetworks From Large Audio Representation Models. ICASSP 2025 - 2025 IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP) (2025).
Davide Berghi, Philip J. B. Jackson. Integrating Spatial And Semantic Embeddings For Stereo Sound Event Localization In Videos. arXiv.org (2025).
Davide Berghi, Philip J. B. Jackson. Spatial And Semantic Embedding Integration For Stereo Sound Event Localization And Detection In Regular Videos. arXiv.org (2025).
Eklavya Sarkar, Mathew Magimai.-Doss. Comparing Self-Supervised Learning Models Pre-Trained On Human Speech And Animal Vocalizations For Bioacoustics Processing. ICASSP 2025 - 2025 IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP) (2025).
Emiliano Acevedo, Maria Noel Espinosa, Ilana Stolovas, Martín Rocamora, Leonardo Steinfeld. Enhancing The Recording And Analysis Of Antarctic Soundscapes. 2025 IEEE Latin Conference on IoT (LCIoT) (2025).
Esteban Guti'errez, F. Font, Xavier Serra, L. Wyse. A Statistics-Driven Differentiable Approach For Sound Texture Synthesis And Analysis. arXiv.org (2025).
Fei Yuan, Junxi Kang, Jiao Yin, Jinli Cao. An Auditory-Visual Cooperative Perception Method For Honking Vehicle Localization. PLoS ONE (2025).
Francesco Paissan, G. Wichern, Yoshiki Masuyama, Ryo Aihara, François G. Germain, Kohei Saijo, Jonathan Le Roux. Fastuss: Faster Task-Aware Unified Source Separation. IEEE Workshop on Applications of Signal Processing to Audio and Acoustics (2025).
Francisco Messina, Francesca Ronchini, Luca Comanducci, P. Bestagini, Fabio Antonacci. Mitigating Data Replication In Text-To-Audio Generative Diffusion Models Through Anti-Memorization Guidance. IEEE International Conference on Acoustics, Speech, and Signal Processing (2025).
Friedrich Wolf-Monheim. Spectral And Rhythm Feature Performance Evaluation For Category And Class Level Audio Classification With Deep Convolutional Neural Networks. arXiv.org (2025).
G. Zucatelli, R. Barioni, G. Dantas. Acoustic Non-Stationarity Objective Assessment With Hard Label Criteria For Supervised Learning Models. IEEE International Conference on Acoustics, Speech, and Signal Processing (2025).
Gijs Wijngaard, Elia Formisano, Michele Esposito, M. Dumontier. Audsemthinker: Enhancing Audio-Language Models Through Reasoning Over Semantics Of Sound. arXiv.org (2025).
Giuseppe De Simone, Antonio Greco, Francesco Rosa, Alessia Saggese, Mario Vento. Context-Aware Data Augmentation For Enhanced Speech Command Recognition In Industrial Environments. Scientific reports (2025).
Goksenin Yuksel, M. Gerven, Kiki van der Heijden. Gram: Spatial General-Purpose Audio Representations For Real-World Environments. arXiv.org (2025).
Goksenin Yuksel, Pierre Guetschel, Michael Tangermann, M. Gerven, Kiki van der Heijden. Wavjepa: Semantic Learning Unlocks Robust Audio Foundation Models For Raw Waveforms. arXiv.org (2025).
Gokul Karthik Kumar, Rishabh Saraf, Ludovick Lepauloux, A. Muneer, Billel Mokeddem, Hakim Hacid. Competitive Audio-Language Models With Data-Efficient Single-Stage Training On Public Data. Automatic Speech Recognition & Understanding (2025).
Guillem Cortès-Sebastià, Marius Miron, Emilio Molina, Alex Ciurana, Xavier Serra. Enhanced Television Broadcast Monitoring With Source Separation-Assisted Audio Fingerprinting: A Case Study. Multimedia tools and applications (2025).
Hailey Hyosun Yoo, Majid Sarvi, S. A. Bagloee. High-Accuracy Audio-Based Vehicle Detection: Deep Learning Vs Machine Learning. 2025 IEEE 28th International Conference on Intelligent Transportation Systems (ITSC) (2025).
Haiyan Yang, Jun Wang, Sheng Li, Di Zhou, Xingwei Chen, Juncheng Li, Yufeng Hua, Jun Shi. Collaborative Transformer Prototype Network With Pretrained Contrastive Language-Audio Encoder For Open Set Audio Recognition. IEEE Transactions on Signal Processing (2025).
Hamed Jafarzadeh Asl, Mahsa Ghazvini Nejad, Amin Edraki, M. Asgharian, Vahid Partovi Nia. Tiny Noise-Robust Voice Activity Detector For Voice Assistants. International Workshop on Machine Learning for Signal Processing (2025).
Han Yin, Yang Xiao, Rohan Kumar Das, Jisheng Bai, Haohe Liu, Wenwu Wang, Mark D. Plumbley. Envsdd: Benchmarking Environmental Sound Deepfake Detection (2025).
Hanrong Ye, Chao-Han Huck Yang, Arushi Goel, Wei Huang, Ligeng Zhu, Yu Su, Sean Lin, An-Chieh Cheng, Zhen Wan, Jinchuan Tian, Yuming Lou, Dong Yang, Zhijian Liu, Yukang Chen, Ambrish Dantrey, Ehsan Jahangiri, Sreyan Ghosh, Da-fu Xu, Ehsan Hosseini-Asl, Danial Mohseni Taheri, Vidya Murali, Sifei Liu, Jason Lu, O. Olabiyi, Franklin Wang, Rafael Valle, Bryan Catanzaro, Andrew Tao, Song Han, Jan Kautz, Hongxu Yin, Pavlo Molchanov. Omnivinci: Enhancing Architecture And Data For Omni-Modal Understanding Llm. arXiv.org (2025).
Hao Zhou, Xiaobao Guo, Yuzhe Zhu, A. Kong. Macs: Multi-Source Audio-To-Image Generation With Contextual Significance And Semantic Alignment (2025).
Haohe Liu, Thomas Deacon, Wenwu Wang, Matt Paradis, Mark D. Plumbley. Exploring The User Experience Of Ai-Assisted Sound Searching Systems For Creative Workflows (2025).
Haoyin Yan, Chengwei Liu, Shaofei Xue, Xiaotao Liang, Zheng Xue. Unise: A Unified Framework For Decoder-Only Autoregressive Lm-Based Speech Enhancement. arXiv.org (2025).
Hee-Seok Oh. Multidimensional Analysis And Visualization Of Audio Data. Journal of Digital Contents Society (2025).
Heinrich Dinkel, Gang Li, Jizhong Liu, Jian Luan, Yadong Niu, Xingwei Sun, Tianzi Wang, Qiyang Xiao, Junbo Zhang, Jiahao Zhou. Midashenglm: Efficient Audio Understanding With General Audio Captions. arXiv.org (2025).
Heitor R. Guimarães, Mahsa Abdollahi, Yi Zhu, Ségolène Maucourt, Nico Coallier, Pierre Giovenazzo, Tiago H. Falk. Benchmarking Self-Supervised Audio Representations For Iot-Enabled Acoustic Beehive Monitoring. IEEE Internet of Things Journal (2025).
Ho-Young Choi, Jae-Heung Cho, Pil Moo Byun, Won-Gook Choi, Joon-Hyuk Chang. Temp4Cap: Temporally-Aligned Automated Audio Captioning. Interspeech (2025).
Hong Liang, Man-Wai Mak, K. Lee. Subband Architecture Aided Selective Fixed-Filter Active Noise Control (2025).
Hossein Parineh, Majid Sarvi, S. A. Bagloee. Acoustic Sensors And Audio Signal Processing In Intelligent Transportation Systems: A Survey. IEEE Transactions on Intelligent Vehicles (2025).
Huadai Liu, Jialei Wang, Kaicheng Luo, Wen Wang, Qian Chen, Zhou Zhao, Wei Xue. Thinksound: Chain-Of-Thought Reasoning In Multimodal Large Language Models For Audio Generation And Editing. arXiv.org (2025).
Huadai Liu, Tianyi Luo, Qikai Jiang, Kaicheng Luo, Peiwen Sun, Jialei Wan, Rongjie Huang, Qian Chen, Wen Wang, Xiangtai Li, Shiliang Zhang, Zhijie Yan, Zhou Zhao, Wei Xue. Omniaudio: Generating Spatial Audio From 360-Degree Video. ArXiv (2025).
Huang Xie, Khazar Khorrami, O. Räsänen, Tuomas Virtanen. Text-Based Audio Retrieval By Learning From Similarities Between Audio Captions. IEEE Signal Processing Letters (2025).
Iosif Tsangko, Andreas Triantafyllopoulos, Michael Müller, Hendrik Schröter, Bjorn W. Schuller. Dfingernet: Noise-Adaptive Speech Enhancement For Hearing Aids. IEEE International Conference on Acoustics, Speech, and Signal Processing (2025).
Iryna Yurchuk, T. Semenchenko. Audio-Based Feature Extraction For Uav Detection. 2025 IEEE 8th International Conference on Methods and Systems of Navigation and Motion Control (MSNMC) (2025).
J. Cauzinille, Marius Miron, Olivier Pietquin, Masato Hagiwara, Ricard Marxer, Arnaud Rey, Benoît Favre. Crossing The Species Divide: Transfer Learning From Speech To Animal Sounds. arXiv.org (2025).
J. Yeow, Ee-Leng Tan, Santi Peksi, Zhen-Ting Ong, Woon-seng Gan. Enhancing Situational Awareness In Wearable Audio Devices Using A Lightweight Sound Event Localization And Detection System (2025).
Jae-Sung Bae, Anastasia Kuznetsova, Dinesh Manocha, John Hershey, T. Kristjansson, Minje Kim. Generative Data Augmentation Challenge: Zero-Shot Speech Synthesis For Personalized Speech Enhancement. 2025 IEEE International Conference on Acoustics, Speech, and Signal Processing Workshops (ICASSPW) (2025).
Jaesung Huh, Jacob Chalk, E. Kazakos, D. Damen, A. Zisserman. Epic-Sounds: A Large-Scale Dataset Of Actions That Sound. IEEE Transactions on Pattern Analysis and Machine Intelligence (2025).
Jaeyeon Kim, Heeseung Yun, Sang Hoon Woo, C. Yang, Gunhee Kim. Wow-Bench: Evaluating Fine-Grained Acoustic Perception In Audio-Language Models Via Marine Mammal Vocalizations. arXiv.org (2025).
James Taylor, Wolfgang Mack. Improving Audio Classification By Transitioning From Zero- To Few-Shot. Interspeech (2025).
Jianyuan Feng, Guangzheng Li, Yangfei Xu. Hybrid-Sep: Language-Queried Audio Source Separation Via Pre-Trained Model Fusion And Adversarial Diffusion Training. arXiv.org (2025).
Jianyuan Feng, Guangzheng Li, Yangfei Xu. Hybrid-Sep: Language-Queried Audio Source Separation Via Pre-Trained Model Fusion And Adversarial Consistent Training. IEEE Workshop on Applications of Signal Processing to Audio and Acoustics (2025).
Jiarui Hai, Mounya Elhilali. Synsonic: Augmenting Sound Event Detection Through Text-To-Audio Diffusion Controlnet And Effective Sample Filtering. IEEE Workshop on Applications of Signal Processing to Audio and Acoustics (2025).
Jiatong Shi, Haoran Wang, William Chen, Chenda Li, Wangyou Zhang, Jinchuan Tian, Shinji Watanabe. Pure Codec: Progressive Unfolding Of Residual Entropy For Speech Codec Learning. Automatic Speech Recognition & Understanding (2025).
Jiatong Shi, Yifan Cheng, Bo-Hao Su, Hye-jin Shim, Jinchuan Tian, Samuele Cornell, Yiwen Zhao, Siddhant Arora, Shinji Watanabe. Arecho: Autoregressive Evaluation Via Chain-Based Hypothesis Optimization For Speech Multi-Metric Estimation. arXiv.org (2025).
Jiawei Liu, Enis Berk Çoban, Zarina Schevchenko, Hao Tang, Zhigang Zhu, Michael I. Mandel, Johanna Devaney. An Evaluation Of Interleaved Instruction Tuning On Semantic Reasoning Performance In An Audio Mllm. arXiv.org (2025).
Jin Sob Kim, Hyun Joon Park, Wooseok Shin, Sung Won Han. A Robust Framework For Sound Event Localization And Detection On Real Recordings. arXiv.org (2025).
Jinbo Hu, Yin Cao, Ming Wu, Feiran Yang, Jun Yang. Salm: Spatial Audio Language Model With Structured Embeddings For Understanding And Editing. arXiv.org (2025).
Jing Yang, Sirui Wang, Chao Wu, Fan Fan. Schrödinger Bridge Mamba For One-Step Speech Enhancement. arXiv.org (2025).
Jing-Tong Tzeng, Carlos Busso, Chi-Chun Lee. Joint Learning Using Mixture-Of-Expert-Based Representation For Speech Enhancement And Robust Emotion Recognition (2025).
Jing-Tong Tzeng, Carlos Busso, Chi-Chun Lee. Joint Learning Using Mixture-Of-Expert-Based Representation For Enhanced Speech Generation And Robust Emotion Recognition. arXiv.org (2025).
Jing-Tong Tzeng, Seong-Gyun Leem, Ali N. Salman, Chi-Chun Lee, Carlos Busso. Noise-Robust Speech Emotion Recognition Using Shared Self-Supervised Representations With Integrated Speech Enhancement. IEEE International Conference on Acoustics, Speech, and Signal Processing (2025).
Jingjing Yu, Lirui Wu, Chi Yang, Ranran Liu, A. Manikas. Graph-Guided Spatial-Temporal Diffusion Model For Speech Enhancement With Microphone Array. International Conference on Digital Signal Processing (2025).
Jinzheng Zhao, Yong Xu, Haohe Liu, Davide Berghi, Xinyuan Qian, Qiuqiang Kong, Junqi Zhao, Mark D. Plumbley, Wenwu Wang. Region-Specific Audio Tagging For Spatial Sound. arXiv.org (2025).
Jionghao Han, Jiatong Shi, Zhuoyan Tao, Yuxun Tang, Yiwen Zhao, G. Xia, Shinji Watanabe. Cartoonsing: Unifying Human And Nonhuman Timbres In Singing Generation. arXiv.org (2025).
Joanna Luberadzka, Enric Gusó Muñoz, Umut Sayin Saraç, Adan Garriga. Audio Technology For Improving Social Interaction In Extended Reality. Frontiers Virtual Real. (2025).
Joanna Luberadzka, Enric Gusó, Umut Sayin, Adan Garriga. Using Virtual Reality To Raise Awareness Of Communication Challenges Faced By Individuals With Hearing Loss. 2025 IEEE Conference on Virtual Reality and 3D User Interfaces Abstracts and Workshops (VRW) (2025).
Jongyeon Park, Joonhee Lee, Do H Lim, Hongkook Kim, Hyeongcheol Geum, J. Lim. Performance Improvement Of Spatial Semantic Segmentation With Enriched Audio Features And Agent-Based Error Correction For Dcase 2025 Challenge Task 4. arXiv.org (2025).
Joonhwi Kim, Jungyu Choi, Sungbin Im. Dual-Res: A Phase-Aware Lightweight Framework For Real-Time Denoising And Emergency-Caller Detection. IEEE Access (2025).
Joonyong Park, Shinnosuke Takamichi, David M. Chan, Shunsuke Kando, Yuki Saito, Hiroshi Saruwatari. Analysing The Language Of Neural Audio Codecs. Automatic Speech Recognition & Understanding (2025).
Junan Zhang, Jing Yang, Zihao Fang, Yuancheng Wang, Ze-bao Zhang, Zhuo Wang, Fan Fan, Zhizheng Wu. Anyenhance: A Unified Generative Model With Prompt-Guidance And Self-Critic For Voice Enhancement. ArXiv (2025).
Junan Zhang, Mengyao Zhu, Xin Xu, Hui Bu, Zhenhua Ling, Zhizheng Wu. The Ccf Aatc 2025 Speech Restoration Challenge: A Retrospective (2025).
Junbo Zhang, Heinrich Dinkel, Yadong Niu, Chenyu Liu, Si Cheng, Anbei Zhao, Jian Luan. X-Ares: A Comprehensive Framework For Assessing Audio Encoder Performance (2025).
Juncheng Wang, Chao Xu, Cheng Yu, Zhe Hu, Haoyu Xie, Guoqi Yu, Lei Shang, Shujun Wang. Language Model Based Text-To-Audio Generation: Anti-Causally Aligned Collaborative Residual Transformers. Conference on Empirical Methods in Natural Language Processing (2025).
Junyi Ao, Dekun Chen, Xiaohai Tian, Wenjie Feng, Jun Zhang, Lu Lu, Yuxuan Wang, Haizhou Li, Zhizheng Wu. Solla: Towards A Speech-Oriented Llm That Hears Acoustic Context. ArXiv (2025).
Junyou Wang, Zehua Chen, Binjie Yuan, Kaiwen Zheng, Chang Li, Yuxuan Jiang, Jun Zhu. Audiomog: Guiding Audio Generation With Mixture-Of-Guidance. arXiv.org (2025).
Justina Ramonaitė, Faustas Žiliajevas, Gražina Korvel, Gintautas Tamulevičius. Loud – Labeled Noise Audio Dataset. 2025 IEEE 12th Workshop on Advances in Information, Electronic and Electrical Engineering (AIEEE) (2025).
Jérémy Rouch, M. Ducrettet, S. Haupert, R. Emonet, F. Sèbe. Acoustic Evaluation Of A Neural Network Dedicated To The Detection Of Animal Vocalisations. arXiv.org (2025).
Kai Li, Kejun Gao, Xiaolin Hu. Efficient Audio-Visual Speech Separation With Discrete Lip Semantics And Multi-Scale Global-Local Attention. arXiv.org (2025).
Kamil Wojcicki, Yusuf Ziya Isik, Laura Lechler, Mansur Yesilbursa, Ivana Bali'c, Wolfgang Mack, Rafal Laganowski, Guoqing Zhang, Yossi Adi, Minje Kim, Shinji Watanabe. Low-Resource Audio Codec (Lrac): 2025 Challenge Description. IEEE International Conference on Acoustics, Speech, and Signal Processing (2025).
Kan Jen Cheng, Tingle Li, G. Anumanchipalli. Audio Texture Manipulation By Exemplar-Based Analogy. ICASSP 2025 - 2025 IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP) (2025).
Kangdi Wang, Zhiyue Wu, Dinghao Zhou, Rui Lin, Junyu Dai, Tao Jiang. Back To Ear: Perceptually Driven High Fidelity Music Reconstruction. arXiv.org (2025).
Kazuki Shimada, A. Politis, Irán R. Román, Parthasaarathy Sudarsanam, David Díaz-Guerra, Ruchi Pandey, Kengo Uchida, Yuichiro Koyama, Naoya Takahashi, Takashi Shibuya, Shusuke Takahashi, Tuomas Virtanen, Yuki Mitsufuji. Stereo Sound Event Localization And Detection With Onscreen/Offscreen Classification. arXiv.org (2025).
Ke-Han Lu, Zhehuai Chen, Szu-Wei Fu, Chao-Han Huck Yang, Sung-Feng Huang, Chih-Kai Yang, Chee-En Yu, C. Chen, Wei-Chih Chen, Chien-yu Huang, Yi-Cheng Lin, Yu-Xiang Lin, C. Fu, Chun-Yi Kuan, Wenze Ren, Xuanjun Chen, Wei-Ping Huang, En-Pei Hu, Tzu-Quan Lin, Yuan-Kuei Wu, Kuan-Po Huang, Hsiao-Ying Huang, Huang-Cheng Chou, Kai-Wei Chang, Cheng-Han Chiang, Boris Ginsburg, Y. Wang, Hung-yi Lee. Desta2.5-Audio: Toward General-Purpose Large Audio Language Model With Self-Generated Cross-Modal Alignment. IEEE Transactions on Audio, Speech, and Language Processing (2025).
Kenny Olsen, Mads Østergaard, Karl Ulbæk, S. F. V. Nielsen, Rasmus Malik Hoegh Lindrup, Bjørn Sand Jensen, Morten Mørup. Knowing When To Quit: Probabilistic Early Exits For Speech Separation. arXiv.org (2025).
KimiTeam, Ding Ding, Zeqian Ju, Yichong Leng, Songxiang Liu, Tong Liu, Zeyu Shang, Kai Shen, Wei Song, Xu Tan, Heyi Tang, Zhengtao Wang, Chu Wei, Yifei Xin, Xinran Xu, Jian-Xiu Yu, Yutao Zhang, Xinyu Zhou, Y. Charles, Jun Chen, Yanru Chen, Yulun Du, Weiran He, Zhenxing Hu, Guo-Rong Lai, Qingcheng Li, Yangyang Liu, Weidong Sun, Jianzhou Wang, Yuzhi Wang, Yue Wu, Yuxin Wu, Dongchao Yang, Haodong Yang, Yingbo Yang, Zhilin Yang, Aoxiong Yin, Rui Yuan, Yutong Zhang, Zaida Zhou. Kimi-Audio Technical Report. ArXiv (2025).
Kohei Saijo, Wangyou Zhang, Samuele Cornell, Robin Scheibler, Chenda Li, Zhaoheng Ni, Anurag Kumar, Marvin Sach, Yihui Fu, Wei Wang, Tim Fingscheidt, Shinji Watanabe. Interspeech 2025 Urgent Speech Enhancement Challenge. Interspeech (2025).
Lars Engeln, Rainer Groh. Sonic Scribbles – Constructing Sketch Classes From Visual Associations Of The Mental Model For Audio. Audio Mostly Conference (2025).
Laurie M Heller, Urszula Oszczapinska, Jessica M. Smith, Megan M Julien. Reassigning Sources Of Misophonic Trigger Sounds To Change Their Unpleasantness: Testing Alternative Mechanisms With A New Set Of Movies, Paintings, And Words. PloS one (2025).
Lei Zhao, Sizhou Chen, Linfeng Feng, Xiao-Lei Zhang, Xuelong Li. Dualspec: Text-To-Spatial-Audio Generation Via Dual-Spectrogram Guided Diffusion Model. ArXiv (2025).
Leonardo Pepino, P. Riera, J. Kamienkowski, Luciana Ferrer. Better Audio Representations Are More Brain-Like: Linking Model-Brain Alignment With Performance In Downstream Auditory Tasks. arXiv.org (2025).
Linfeng Feng, Chi Zhang, Xiao-Lei Zhang. Towards A Flexible And Unified Architecture For Speech Enhancement. Vicinagearth (2025).
Linfeng Feng, Lei Zhao, Boyu Zhu, Xiao-Lei Zhang, Xuelong Li. Audiospa: Spatializing Sound Events With Text. ArXiv (2025).
Linwei Zhai, H. Ding, Cui Zhao, Fei Wang, Ge Wang, Wang Zhi, Wei Xi. One Quantizer Is Enough: Toward A Lightweight Audio Codec (2025).
Linwei Zhai, H. Ding, Cui Zhao, Fei Wang, Ge Wang, Wang Zhi, Wei Xi. L3Ac: Towards A Lightweight And Lossless Audio Codec (2025).
Liumeng Xue, Ziya Zhou, Jiahao Pan, Zixuan Li, Shuai Fan, Ying-Hong Ma, Sitong Cheng, Dongchao Yang, Haohan Guo, Yujia Xiao, Xinsheng Wang, Zixuan Shen, Chuanbo Zhu, Xinshen Zhang, Tianchi Liu, Ruibin Yuan, Zeyue Tian, Haohe Liu, Emmanouil Benetos, Ge Zhang, Yi-Ting Guo, Wei Xue. Audio-Flan: A Preliminary Release. ArXiv (2025).
Lixing He, Yunqi Guo, Haozheng Hou, Zhenyu Yan. Vibomni: Towards Scalable Bone-Conduction Speech Enhancement On Earables. arXiv.org (2025).
Luca Fredianelli, Francesco Artuso, Geremia Pompei, Gaetano Licitra, G. Iannace, Andac Akbaba. Environmental Noise Dataset For Sound Event Classification And Detection. Scientific Data (2025).
Luca-Sebastian Pătraşcu, Muhammad Khurram Zahur Bajwa, Cătălin Negru, Bogdan-Costel Mocanu, Florin Pop. Cloud-Edge Architecture For Audio Signal Classification Based On Mel Spectrograms. International Conference on Networking in Education and Research (2025).
Ludovic Tuncay, Etienne Labbé, Emmanouil Benetos, Thomas Pellegrini. Audio-Jepa: Joint-Embedding Predictive Architecture For Audio Representation Learning. arXiv.org (2025).
Ludovic Tuncay, Étienne Labbé, Thomas Pellegrini. Hierarchical Label Propagation: A Model-Size-Dependent Performance Booster For Audioset Tagging. ICASSP 2025 - 2025 IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP) (2025).
Luis-Carlos Quiñonez-Baca, Graciela María de Jesús Ramírez Alonso, A. Guzmán-Pando, J. Camarillo-Cisneros, D. López-Flores. Advances In Meta-Learning And Zero-Shot Learning For Multi-Label Classification: A Review. Digit. Signal Process. (2025).
Lukas Rauch, René Heinrich, Houtan Ghaffari, Lukas Miklautz, Ilyass Moummad, Bernhard Sick, Christoph Scholz. Unmute The Patch Tokens: Rethinking Probing In Multi-Label Audio Classification. arXiv.org (2025).
M. Barański, J. Jasinski, Julitta Bartolewska, Stanisław Kacprzak, Marcin Witkowski, Konrad Kowalczyk. Investigation Of Whisper Asr Hallucinations Induced By Non-Speech Audio. IEEE International Conference on Acoustics, Speech, and Signal Processing (2025).
Marco Giordano, S. Giacomelli, C. Rinaldi, Fabio Graziosi. Real-Time Emergency Vehicle Siren Detection With Efficient Cnns On Embedded Hardware. 2025 IEEE 6th International Symposium on the Internet of Sounds (IS2) (2025).
Masahiro Yasuda, B. T. Nguyen, Noboru Harada, Romain Serizel, Mayank Mishra, Marc Delcroix, Shoko Araki, Daiki Takeuchi, Daisuke Niizumi, Yasunori Ohishi, Tomohiro Nakatani, T. Kawamura, Nobutaka Ono. Description And Discussion On Dcase 2025 Challenge Task 4: Spatial Semantic Segmentation Of Sound Scenes. arXiv.org (2025).
Masahiro Yasuda, Noboru Harada, Shoichiro Saito, Nobutaka Ono. Spatial Annotation-Free Sound Event Localization And Detection Via Spatial Instance Classification. IEEE Access (2025).
Mateusz Guzik, Giulio Cengarle, Daniel Arteaga. Deep Learning Based Spatial Aliasing Reduction In Beamforming For Audio Capture (2025).
Mattson Ogg. Self-Supervised Convolutional Audio Models Are Flexible Acoustic Feature Learners: A Domain Specificity And Transfer-Learning Study (2025).
Mattson Ogg, C. Bishop, Han Yi, S. Robinson. Self-Supervised Speech Quality Assessment (S3Qa): Leveraging Speech Foundation Models For A Scalable Speech Quality Metric. Journal of the Acoustical Society of America (2025).
Mayank Mishra, Paul Magron, Romain Serizel. Metric Analysis For Spatial Semantic Segmentation Of Sound Scenes. arXiv.org (2025).
Michael Clemens, Ana Marasovi'c. Mixassist: An Audio-Language Dataset For Co-Creative Ai Assistance In Music Mixing. arXiv.org (2025).
Mikhail Rumiantcev. Transformer-Based Multimodal Framework For Music Similarity Analysis And Recommendation Systems. 2025 37th Conference of Open Innovations Association (FRUCT) (2025).
Mingjie Wang, Song Yuan, Xian-Feng Han, Zili Yi. Draw What You Hear: High-Fidelity Image Generation And Manipulation Via Soundadapter. IEEE Transactions on Neural Networks and Learning Systems (2025).
Moulik Choraria, Xinbo Wu, Akhil Bhimaraju, Nitesh Sekhar, Yue Wu, Xu Zhang, Prateek Singhal, L. Varshney. Deepinsert: Early Layer Bypass For Efficient And Performant Multimodal Understanding. Conference of the European Chapter of the Association for Computational Linguistics (2025).
Neta Glazer, Aviv Navon, Yael Segal, Aviv Shamsian, Hilit Segev, Asaf Buchnick, Menachem Pirchi, Gil Hetz, Joseph Keshet. Umbratts: Adapting Text-To-Speech To Environmental Contexts With Flow Matching. arXiv.org (2025).
Neta Glazer, Yael Segal-Feldman, Hilit Segev, Aviv Shamsian, Asaf Buchnick, Gil Hetz, Ethan Fetaya, Joseph Keshet, Aviv Navon. Beyond Transcription: Mechanistic Interpretability In Asr. AAAI Conference on Artificial Intelligence (2025).
Nikolai Makarov, Andrey Savchenko, Iuliia Zemtsova, Maxim Novopoltsev, A. Poyarkov, A. Viricheva, Maria Chistopolova, A. Nikol’skii, J. Hernandez-Blanco. Automated Detection Of Wolf Howls Using Audio Spectrogram Transformers. Scientific Reports (2025).
Orr Paradise, Pranav Muralikrishnan, Liangyu Chen, H. F. García, Bryan Pardo, Roee Diamant, David F. Gruber, Shane Gero, S. Goldwasser. Wham: Towards A Translative Model Of Sperm Whale Vocalization. arXiv.org (2025).
Parthasaarathy Sudarsanam, Irene Mart'in-Morat'o, Tuomas Virtanen. Representation Learning For Semantic Alignment Of Language, Audio, And Visual Modalities. European Signal Processing Conference (2025).
Parthasaarathy Sudarsanam, Irene Martín-Morató, Aapo Hakala, Tuomas Virtanen. Avcaps: An Audio-Visual Dataset With Modality-Specific Captions. IEEE Open Journal of Signal Processing (2025).
Parthasaarathy Sudarsanam, Sebastian Braun, Hannes Gamper. Foa Tokenizer: Low-Bitrate Neural Codec For First Order Ambisonics With Spatial Consistency Loss. arXiv.org (2025).
Paul Primus, Florian Schmid, Gerhard Widmer. Tacos: Temporally-Aligned Audio Captions For Language-Audio Pretraining (2025).
Peize He, Zichen Wen, Yubo Wang, Yuxuan Wang, Xiaoqian Liu, Jiaji Huang, Zehui Lei, Zhuangcheng Gu, Xiangqi Jin, Jiabing Yang, Kai Li, Zhifei Liu, Weijia Li, Cunxiang Wang, Conghui He, Linfeng Zhang. Audiomarathon: A Comprehensive Benchmark For Long-Context Audio Understanding And Efficiency In Audio Llms. arXiv.org (2025).
Philippe Gonzalez, Torsten Dau, Tobias May. Controllable Joint Noise Reduction And Hearing Loss Compensation Using A Differentiable Auditory Model. The 6th Clarity Workshop on Improving Speech-in-Noise for Hearing Devices (Clarity-2025) (2025).
Prateek Verma, Mert Pilanci. Large Language Models Implicitly Learn To See And Hear Just By Reading (2025).
Prateek Verma, Mert Pilanci. Thinking While Listening: Simple Test Time Scaling For Audio Classification. IEEE International Conference on Acoustics, Speech, and Signal Processing (2025).
R. Pari, P. Amareshwaran. Automated Playback Of Music For Blind People Using Hand Claps. 2025 International Conference on Emerging Technologies in Electronics and Green Energy (ICETEG) (2025).
Rajapantula Kranthi, Vasundhara. Modified Andrew'S Sine With Erf Function In Recursive Adaptive Exponential Fln Distributed Anc For Incremental Strategy. Signal Image Video Process. (2025).
Raphael Schwinger, Paria Vali Zadeh, Lukas Rauch, Mats Kurz, Tom Hauschild, Sam Lapp, Sven Tomforde. Foundation Models For Bioacoustics - A Comparative Review. arXiv.org (2025).
René Heinrich, Lukas Rauch, Bernhard Sick, Christoph Scholz. Adversarial Training Improves Generalization Under Distribution Shifts In Bioacoustics. arXiv.org (2025).
Riccardo Passoni, Francesca Ronchini, Luca Comanducci, Romain Serizel, Fabio Antonacci. Diffused Responsibility: Analyzing The Energy Consumption Of Generative Text-To-Audio Diffusion Models (2025).
Rim Boukri, A. Farrouki. A New Hybrid Vad Model Using Machine Learning System And Gfcc Acoustic Features In Challenging Noisy Environment. Circuits, systems, and signal processing (2025).
Robert-Nicolae Boştinaru, N. Bizon, S. Drǎguşin, Gabriel V. Iana, Denis Toma. Dimensionality Reduction With Principal Component Analysis For Fire And Non-Fire Audio Classification: A New Approach. European Conference on Artificial Intelligence (2025).
Robin Burchard, Kristof Van Laerhoven. Enhancing Wearable Tap Water Audio Detection Through Subclass Annotation In The Hd-Epic Dataset (2025).
Rui Lin, Zhiyue Wu, Jiahe Le, Kangdi Wang, Weixiong Chen, Junyu Dai, Tao Jiang. Duotok: Source-Aware Dual-Track Tokenization For Multi-Track Music Language Modeling (2025).
Ruikang Zhan, Yuanjun Zhao, Pengcheng Gong, Yuntao Wu. Spatially-Aware Multi-Channel Speaker Anti-Spoofing With Lora-Adapted Self-Supervised Models. International Conferences on Vision, Image and Signal Processing (2025).
Ruofan Hu, Yan Xia, Minjie Hong, Jieming Zhu, Boxing Chen, Xiaoda Yang, Minghui Fang, Tao Jin. Vela: Scalable Embeddings With Voice Large Language Models For Multimodal Retrieval. Interspeech (2025).
S. Ganguly, H. Mukherjee, A. Dhar, M. Marciano, K. Roy. Spoldb: An Audio Dataset For Artificial Intelligence-Based Identification Of Noise Pollutants. International Journal of Environmental Science and Technology (2025).
S. Giacomelli, Marco Giordano, C. Rinaldi, Fabio Graziosi. Audioset-Tools: A Python Framework For Taxonomy-Aware Audioset Curation And Reproducible Audio Research. EURASIP Journal on Audio, Speech, and Music Processing (2025).
S. Giacomelli, Marco Giordano, C. Rinaldi, Fabio Graziosi. From Large-Scale Audio Tagging To Real-Time Explainable Emergency Vehicle Sirens Detection. arXiv.org (2025).
S.Padmaja, Dr. N. Sharmila Banu. A Systematic Literature Review On Sound Event Detection And Classification. 2025 5th International Conference on Trends in Material Science and Inventive Materials (ICTMIM) (2025).
Samuel Rey, Luca Martino, Roberto San Millan, Eduardo Morgado. Feature Selection Via Graph Topology Inference For Soundscape Emotion Recognition. arXiv.org (2025).
Samuele Cornell, Christoph Boeddeker, Taejin Park, He Huang, Desh Raj, Matthew Wiesner, Yoshiki Masuyama, Xuankai Chang, Zhong-Qiu Wang, Stefano Squartini, Paola Garcia, Shinji Watanabe. Recent Trends In Distant Conversational Speech Recognition: A Review Of Chime-7 And 8 Dasr Challenges. Computer Speech and Language (2025).
Sarthak Yadav, S. Theodoridis, Zheng-Hua Tan. An Overview Of Neural Architectures For Self-Supervised Audio Representation Learning From Masked Spectrograms. arXiv.org (2025).
Sebastian Braun, Hannes Gamper, Dimitra Emmanouilidou. Salad-Vae: Semantic Audio Compression With Language-Audio Distillation. IEEE International Conference on Acoustics, Speech, and Signal Processing (2025).
Sergio Oramas, Fabien Gouyon, Steve Hogan, Camilo Landau, Andreas F. Ehmann. Mgphot: A Dataset Of Musicological Annotations For Popular Music (1958-2022). Transactions of the International Society for Music Information Retrieval (2025).
Shameer Faziludeen, A. M. S., P. de Leon, U. Roedig. Limitations Of Watermarking Ai-Generated Speech Using Audioseal. International Conference on Trust, Privacy and Security in Intelligent Systems and Applications (2025).
Shaowen Wang, Xinyuan Chen, Yao Xu. Self-Improvement For Audio Large Language Model Using Unlabeled Speech. Interspeech (2025).
Shikhar Bharadwaj, Samuele Cornell, Kwanghee Choi, Satoru Fukayama, Hye-jin Shim, Soham Deshmukh, Shinji Watanabe. Openbeats: A Fully Open-Source General-Purpose Audio Encoder. IEEE Workshop on Applications of Signal Processing to Audio and Acoustics (2025).
Shivam Mehta, Nebojsa Jojic, Hannes Gamper. Make Some Noise: Towards Llm Audio Reasoning And Generation Using Sound Tokens. ICASSP 2025 - 2025 IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP) (2025).
Shouwei Gao, Xingyang Deng, Xiangyu Fan, Pengliang Yu, Hao Zhou, Zihao Zhu. Satrn: Spiking Audio Tagging Robust Network. Electronics (2025).
Shu-Wen Yang, Byeonggeun Kim, Kuan-Po Huang, Qingming Tang, Huy Phan, Bo-Ru Lu, Harshavardhan Sundar, Shalini Ghosh, Hung-yi Lee, Chieh-Chi Kao, Chao Wang. Generative Audio Language Modeling With Continuous-Valued Tokens And Masked Next-Token Prediction. International Conference on Machine Learning (2025).
Shuai Tao, Kaixuan Yang, Stijn Kindt, Jesper Rindom Jensen, M. G. Christensen, Nilesh Madhu. Array Agnostic Multi-Channel Speech Presence Probability Estimation. European Signal Processing Conference (2025).
Shuai Tao, Pejman Mowlaee, Jesper Rindom Jensen, M. G. Christensen. Multi-Channel Speech Enhancement Guided By Learning-Based $A$ $Posteriori$ Speech Presence Probability Estimation. IEEE Transactions on Audio, Speech, and Language Processing (2025).
Shuaihang Yuan, Congcong Wen, Muhammad Shafique, Anthony Tzes, Yi Fang. Audioscene: Integrating Object-Event Audio Into 3D Scenes. arXiv.org (2025).
Shuyu Li, Shulei Ji, Zihao Wang, Songruoyao Wu, Jiaxing Yu, Kejun Zhang. A Survey On Music Generation From Single-Modal, Cross-Modal, And Multi-Modal Perspectives. ACM Computing Surveys (2025).
Siegbert Versümer, Patrick Blättermann, Fabian Rosenthal, Stefan Weinzierl. A Comparison Of Methods For Modeling Soundscape Dimensions Based On Different Datasetsa).. The Journal of the Acoustical Society of America (2025).
Siyin Wang, Wenyi Yu, Xianzhao Chen, Xiaohai Tian, Jun Zhang, Lu Lu, Yu Tsao, Junichi Yamagishi, Yuxuan Wang, Chao Zhang. Qualispeech: A Speech Quality Assessment Dataset With Natural Language Reasoning And Descriptions. ArXiv (2025).
Soham Deshmukh, Satvik Dixit, Rita Singh, Bhiksha Raj. Mellow: A Small Audio Language Model For Reasoning. ArXiv (2025).
Sreyan Ghosh, Zhifeng Kong, Sonal Kumar, S. Sakshi, Jaehyeon Kim, Wei Ping, Rafael Valle, Dinesh Manocha, Bryan Catanzaro, AF-CLAP Contrastive Loss. Audio Flamingo 2: An Audio-Language Model With Long-Audio Understanding And Expert Reasoning Abilities. ArXiv (2025).
Sumit Kumar, Parampreet Singh, Vipul Arora. Recognizing Ornaments In Vocal Indian Art Music With Active Annotation (2025).
TaeHan Lee, Jaehan Jung, Hyukjun Lee. Sam: A Mamba-2 State-Space Audio-Language Model (2025).
Takuya Hasumi, Yusuke Fujita. Dnr-Nonverbal: Cinematic Audio Source Separation Dataset Containing Non-Verbal Sounds. Interspeech (2025).
Tal Shuster, Eliya Nachmani. Q2D2: A Geometry-Aware Audio Codec Leveraging Two-Dimensional Quantization. arXiv.org (2025).
Taous Iatariene, Alexandre Guérin, Romain Serizel. Tracking Of Intermittent And Moving Speakers : Dataset And Metrics. Proceedings of the 11th Convention of the European Acoustics Association Forum Acusticum / EuroNoise 2025 (2025).
Taous Iatariene, Can Cui, Alexandre Guérin, Romain Serizel. Speaker Embeddings To Improve Tracking Of Intermittent And Moving Speakers. European Signal Processing Conference (2025).
Tarikul Islam Tamiti, Anomadarshi Barua. A Practical Approach To Power Saving In Hearables Using Sub-Nyquist Sampling With Bandwidth Extension. arXiv.org (2025).
Tarikul Islam Tamiti, Sajid Fardin Dipto, Luke Benjamin Baja-Ricketts, David C Vergano, Anomadarshi Barua. Subaru: A Practical Approach To Power Saving In Hearables Using Sub-Nyquist Audio Resolution Upsampling (2025).
Tianrui Pan, Jie Liu, Zewen Huang, Jie Tang, Gangshan Wu. In-The-Wild Audio Spatialization With Flexible Text-Guided Localization. Annual Meeting of the Association for Computational Linguistics (2025).
Tongxin Zhang, Hongxiang Xiao, Shuaikun Han, Zhiwei Zhan. Birddenoiser: A Bird Sound Denoising Network Based On Optimized Modern Convolution. Signal, Image and Video Processing (2025).
Tony Alex, Wish Suharitdamrong, Sara Atito, Armin Mustafa, Philip J. B. Jackson, Imran Razzak, Muhammad Awais. Pal: Probing Audio Encoders Via Llms -- Audio Information Transfer Into Llms (2025).
Tsun-An Hsieh, Minje Kim. Tgif: Talker Group-Informed Familiarization Of Target Speaker Extraction. IEEE Workshop on Applications of Signal Processing to Audio and Acoustics (2025).
Tuochao Chen, D. Shin, Hakan Erdogan, Sinan Hersek. Soundsculpt: Direction And Semantics Driven Ambisonic Target Sound Extraction. Interspeech (2025).
Victor Letzelter, Hugo Malard, Mathieu Fontaine, Ga¨el Richard, S. Essid, Andrei Bursuc, Patrick P'erez. Multiple Choice Learning Of Low Rank Adapters For Language Modeling. arXiv.org (2025).
Wanqi Yang, Yanda Li, Yunchao Wei, Meng Fang, Ling Chen. Speechr: A Benchmark For Speech Reasoning In Large Audio-Language Models. arXiv.org (2025).
Wataru Nakata, Yuki Saito, Yota Ueda, Hiroshi Saruwatari. Sidon: Fast And Robust Open-Source Multilingual Speech Restoration For Large-Scale Dataset Cleansing. IEEE International Conference on Acoustics, Speech, and Signal Processing (2025).
Wei-Cheng Tseng, Xuanru Zhou, Mingyue Huo, Yiwen Shao, Hao Zhang, Dong Yu. Revisiting Audio-Language Pretraining For Learning General-Purpose Audio Representation. arXiv.org (2025).
Wen Wang, Ruibing Hou, Hong Chang, Shiguang Shan, Xilin Chen. Mats: An Audio Language Model Under Text-Only Supervision. International Conference on Machine Learning (2025).
Wenmiao Gao, Han Yin. Enhancing Stereo Sound Event Detection With Bimamba And Pretrained Pseldnet. Asia-Pacific Signal and Information Processing Association Annual Summit and Conference (2025).
Woongjib Choi, Byeong Hyeon Kim, Hyungseob Lim, Inseon Jang, Hong-Goo Kang. Neural Spectral Band Generation For Audio Coding. Interspeech (2025).
Woongjib Choi, Sangmin Lee, Hyungseob Lim, Hong-Goo Kang. Universr: Unified And Versatile Audio Super-Resolution Via Vocoder-Free Flow Matching. IEEE International Conference on Acoustics, Speech, and Signal Processing (2025).
Xiaobin Rong, Qinwen Hu, Mansur Yesilbursa, Kamil Wojcicki, Jing Lu. Pase: Leveraging The Phonological Prior Of Wavlm For Low-Hallucination Generative Speech Enhancement. AAAI Conference on Artificial Intelligence (2025).
Xiaoliang Chen, Le Chang, Xin Yu, Yunhe Huang, Xianling Tu. A Survey On World Models Grounded In Acoustic Physical Information. arXiv.org (2025).
Xinlei Yin, Xiulian Peng, Xue Jiang, Zhiwei Xiong, Yan Lu. Text-Queried Audio Source Separation Via Hierarchical Modeling (2025).
Xinmeng Xu, Weiping Tu, Yuhong Yang, Jizhen Li, Yiqun Zhang. Interactive Target Positive And Negative Features Modeling For Monaural Speech Enhancement. IEEE Transactions on Audio, Speech, and Language Processing (2025).
Xue Yang, Guiru Shen, Yu Yang. Cross-Attention-Based Target Sound Extraction By Fully Leveraging Enrollment In A Shared Latent Space. Interspeech (2025).
Xuenan Xu, Jiahao Mei, Chenliang Li, Yuning Wu, Ming Yan, Shaopeng Lai, Ji Zhang, Mengyue Wu. Mm-Storyagent: Immersive Narrated Storybook Video Generation With A Multi-Agent Paradigm Across Text, Image And Audio. ArXiv (2025).
Xuyao Deng, Tianjiao Wan, Kele Xu, Tian Gao, P. Qiao, Dawei Feng, Yong Dou. Scaling Bioacoustic Signal Pre-Training With Million Samples Via Mask-Modeling. IEEE International Conference on Acoustics, Speech, and Signal Processing (2025).
Yanbin Gong, Wentao Xie, Chi Xu, Qian Zhang, Shifang Yang. Sputumlocator: Enhancing Airway Clearance With Auscultation-Based Sputum Localization. Proceedings of the ACM on Interactive Mobile Wearable and Ubiquitous Technologies (2025).
Yi Su, Jisheng Bai, Qisheng Xu, Kele Xu, Yong Dou. Audio-Language Models For Audio-Centric Tasks: A Systematic Survey (2025).
Yi Su, Jisheng Bai, Qisheng Xu, Kele Xu, Yong Dou. Audio-Language Models For Audio-Centric Tasks: A Survey. ArXiv (2025).
Yi-Cheng Lin, Yu-Hua Chen, Jiayu Dong, Yueh-Hsuan Huang, Szu-Chi Chen, Yu-Chen Chen, Chih-Yao Chen, Yujin Lin, Yule Chen, Zihao Chen, I-Ning Tsai, Hsiu-Hsuan Wang, Ho-Lam Chung, Ke-Han Lu, Hung-yi Lee. Tau: A Benchmark For Cultural Sound Understanding Beyond Semantics. IEEE International Conference on Acoustics, Speech, and Signal Processing (2025).
Yiitan Yuan, Xubo Liu, Haohe Liu, Xiyuan Kang, Zhuo Chen, Yuxuan Wang, Mark D. Plumbley, Wenwu Wang. Dreamaudio: Customized Text-To-Audio Generation With Diffusion Models. IEEE Transactions on Audio, Speech, and Language Processing (2025).
Yinghan Cao, Shiyun Xu, Wenjie Zhang, Mingjiang Wang, Yun Lu. Hybrid Lightweight Temporal-Frequency Analysis Network For Multi-Channel Speech Enhancement. EURASIP Journal on Audio, Speech, and Music Processing (2025).
Yonghai Wang, Gengshen Wu, Nana Shan. A Self-Improving Ensemble Learning Framework For Human Non-Speech Vocalization Classification. IEEE Access (2025).
Yonghyun Kim, Chaeyeon Han, Akash Sarode, Noah Posner, S. Guhathakurta, Alexander Lerch. Audio-Based Pedestrian Detection In The Presence Of Vehicular Noise. arXiv.org (2025).
Youquan Fu, Ruiyang Si, Hongfa Wang, Dongzhan Zhou, Jiacheng Sun, Ping Luo, Di Hu, Hongyuan Zhang, Xuelong Li. Object-Avedit: An Object-Level Audio-Visual Editing Model. arXiv.org (2025).
Yuhan Song, Linhao Zhang, Chuhan Wu, Aiwei Liu, Wei Jia, Houfeng Wang, Xiao Zhou. Stabletoken: A Noise-Robust Semantic Speech Tokenizer For Resilient Speechllms. arXiv.org (2025).
Yuhao Du, Qianwei Huang, Guo Zhu, Zhanchen Dai, Sunian Chen, Qiming Zhu, Yuhao Zhang, Li Zhou, Benyou Wang. Mtalk-Bench: Evaluating Speech-To-Speech Models In Multi-Turn Dialogues Via Arena-Style And Rubrics Protocols. arXiv.org (2025).
Yunsik Kim, Yonghun Song, Yoonyoung Chung. Taps: Throat And Acoustic Paired Speech Dataset For Deep Learning-Based Speech Enhancement. ArXiv (2025).
Yusun Shul, Dayun Choi, Jung-Woo Choi. Cst-Former: Multidimensional Attention-Based Transformer For Sound Event Localization And Detection In Real Scenes (2025).
Yuto Nozaki, Yoshiaki Bando, Masaki Onishi. Source-Aware Spatial Self-Supervision For Sound Event Localization And Detection. IEEE International Conference on Acoustics, Speech, and Signal Processing (2025).
Yuxuan Dong, Qing Wang, Hengyi Hong, Ya Jiang, Shi Cheng. An Experimental Study On Joint Modeling For Sound Event Localization And Detection With Source Distance Estimation. IEEE International Conference on Acoustics, Speech, and Signal Processing (2025).
Yuxuan Jiang, Zehua Chen, Zeqian Ju, Chang Li, Weibei Dou, Jun Zhu. Freeaudio: Training-Free Timing Planning For Controllable Long-Form Text-To-Audio Generation. ACM Multimedia (2025).
Zehan Wang, Ke Lei, Chen Zhu, Jia-Bin Huang, Sashuai Zhou, Luping Liu, Xize Cheng, Shengpeng Ji, Zhenhui Ye, Tao Jin, Zhou Zhao. T2A-Feedback: Improving Basic Capabilities Of Text-To-Audio Generation Via Fine-Grained Ai Feedback (2025).
Zengwei Yao, Wei Kang, Han Zhu, Liyong Guo, Lingxuan Ye, Fangjun Kuang, Weiji Zhuang, Zhaoqing Li, Zhi-Mo Han, Long Lin, Daniel Povey. Flow2Gan: Hybrid Flow Matching And Gan With Multi-Resolution Network For Few-Step High-Fidelity Audio Generation (2025).
Zhanbo Shi, Lin Zhang, Linfei Li, Ying Shen. Towards Audio-Visual Navigation In Noisy Environments: A Large-Scale Benchmark Dataset And An Architecture Considering Multiple Sound-Sources. AAAI (2025).
Zhaoxi Mu, Rilin Chen, Andong Li, Meng Yu, Xinyu Yang, Dong Yu. From Continuous To Discrete: Cross-Domain Collaborative General Speech Enhancement Via Hierarchical Language Models. ACM Multimedia (2025).
Zhen Wang, Jiqing Han, Liwen Zhang, Youcheng Zhang. Infomin-Based Query Embedding Optimization For Query-Based Universal Sound Separation. IEEE International Conference on Acoustics, Speech, and Signal Processing (2025).
Zhenyi Hou, Xu Zhao, Shanggerile Jiang, Daijun Luo, Xinyu Sheng, Kaili Geng, Kejie Ye, Jiajing Xia, Yitao Zhang, Chenxi Ban, Jiaxing Chen, Yan Zou, Yuchao Feng, Xin Yuan, Guangyu Fan. Dense Dynamic Convolutional Network For Bel Canto Vocal Technique Assessment. Scientific reports (2025).
Zhifeng Kong, Arushi Goel, João Felipe Santos, Sreyan Ghosh, Rafael Valle, Wei Ping, Bryan Catanzaro. Audio Flamingo Sound-Cot Technical Report: Improving Chain-Of-Thought Reasoning In Sound Understanding. arXiv.org (2025).
Zhihang Sun, Andong Li, Tong Lei, Rilin Chen, Meng Yu, C. Zheng, Yi Zhou, Dong Yu. Scaling Beyond Denoising: Submitted System And Findings In Urgent Challenge 2025. Interspeech (2025).
Zhiyuan Zhu, Yu Zhang, Wenxiang Guo, Changhao Pan, Zhou Zhao. Asaudio: A Survey Of Advanced Spatial Audio Research. IJCNLP-AACL (2025).
Zhongqi Miao, Benjamin Elizalde, Soham Deshmukh, Justin Kitzes, Huaming Wang, R. Dodhia, J. L. Ferres. Multi-Modal Language Models In Bioacoustics With Zero-Shot Transfer: A Case Study. Scientific reports (2025).
Zihan Liu, Zhikang Niu, Qiuyang Xiao, Zhisheng Zheng, Ruoqi Yuan, Yuhang Zang, Yuhang Cao, Xiao-wen Dong, Jianze Liang, Xie Chen, Leilei Sun, Dahua Lin, Jiaqi Wang. Star-Bench: Probing Deep Spatio-Temporal Reasoning As Audio 4D Intelligence. arXiv.org (2025).
Zitang Zhou, Ke Mei, Yu Lu, Tianyi Wang, Fengyun Rao. Harmonyset: A Comprehensive Dataset For Understanding Video-Music Semantic Alignment And Temporal Synchronization. ArXiv (2025).
Zitong Lan, Yiduo Hao, Min-Fang Zhao. Guiding Audio Editing With Audio Language Model. arXiv.org (2025).
Zubayer Islam, Mohamed A. Abdel-Aty. Crash Event Detection Using Acoustic Conformer. Transportation Research Part C: Emerging Technologies (2025).

2024 (193)

A. Kulakayeva, Valery Tikhvinskiy, Aigul Nurlankyzy, T. Namazbayev. Comparative Analysis Of The Effectiveness Of Neural Networks At Different Values Of The Snr Ratio. Scientific Journal of Astana IT University (2024).
Adrian S. Roman, Baladithya Balamurugan, Rithik Pothuganti. Enhanced Sound Event Localization And Detection In Real 360-Degree Audio-Visual Soundscapes. ArXiv (2024).
Adrian S. Roman, Irán R. Román, J. P. Bello. Robust Doa Estimation Using Deep Acoustic Imaging. ArXiv (2024).
Akshay Raina, Sayeedul Islam Sheikh, Vipul Arora. Learning Ontology Informed Representations With Constraints For Acoustic Event Detection. ICASSP 2024 - 2024 IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP) (2024).
Andreas Triantafyllopoulos, Iosif Tsangko, Alexander Gebhard, A. Mesaros, Tuomas Virtanen, Bjorn W. Schuller. Computer Audition: From Task-Specific Machine Learning To Foundation Models. ArXiv (2024).
Anna Xambó, Gerard Roma. Human–Machine Agencies In Live Coding For Music Performance. Journal of New Music Research (2024).
Antonia Petrogianni, Lefteris Kapelonis, Nikolaos Antoniou, Sofia Eleftheriou, Petros Mitseas, Dimitris Sgouropoulos, Athanasios Katsamanis, Theodoros Giannakopoulos, Shrikanth Narayanan. Robuser: A Robustness Benchmark For Speech Emotion Recognition. 2024 12th International Conference on Affective Computing and Intelligent Interaction (ACII) (2024).
Artem Dementyev, Chandan K. A. Reddy, Scott Wisdom, Navin Chatlani, J. Hershey, Richard F.Lyon. Towards Sub-Millisecond Latency Real-Time Speech Enhancement Models On Hearables. ICASSP 2025 - 2025 IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP) (2024).
Artem Sokolov, Swapnil Bhosale, Xiatian Zhu. 3D Audio-Visual Segmentation. ArXiv (2024).
Arushi Goel, Karan Sapra, Matthieu Le, Rafael Valle, Andrew Tao, Bryan Catanzaro. Omcat: Omni Context Aware Transformer. ArXiv (2024).
Arushi Goel, Zhifeng Kong, Rafael Valle, Bryan Catanzaro. Audio Dialogues: Dialogues Dataset For Audio And Music Understanding. ArXiv (2024).
Ashish Seth, Ramaneswaran Selvakumar, Sonal Kumar, Sreyan Ghosh, Dinesh Manocha. Pat: Parameter-Free Audio-Text Aligner To Boost Zero-Shot Audio Classification. NAACL (2024).
Athul Raimon, Shubha Masti, Shyam K Sateesh, Siyani Vengatagiri, Bhaskarjyoti Das. Meta-Learning In Audio And Speech Processing: An End To End Comprehensive Review (2024).
Axel Berg, Johanna Engman, Jens Gulin, Kalle Åström, Magnus Oskarsson. Learning Multi-Target Tdoa Features For Sound Event Localization And Detection. ArXiv (2024).
Ben Williams, B. V. Merrienboer, Vincent Dumoulin, Jenny Hamer, Eleni Triantafillou, A. Fleishman, Matthew McKown, Jill E. Munger, Aaron N. Rice, Ashlee Lillis, Clemency E. White, Catherine A. D. Hobbs, Tries B. Razak, Kate E. Jones, Tom Denton. Leveraging Tropical Reef, Bird And Unrelated Sounds For Superior Transfer Learning In Marine Bioacoustics. ArXiv (2024).
Benno Weck, Frederic Font. The Language Of Sound Search: Examining User Queries In Audio Search Engines. ArXiv (2024).
Bhavika Devnani, Skyler Seto, Zakaria Aldeneh, Alessandro Toso, Elena Menyaylenko, B. Theobald, Jonathan Sheaffer, Miguel Sarabia. Learning Spatially-Aware Language And Audio Embedding (2024).
Bin Shi, Hao Wang, Chenchen Lu, Meng Zhao. Whispar: Transferring Pre-Trained Audio Models To Fine-Grained Classification Via Prompt And Adapter. Knowl. Based Syst. (2024).
C. Steinmetz, Shubhr Singh, Marco Comunità, Ilias Ibnyahya, Shanxin Yuan, Emmanouil Benetos, Joshua D. Reiss. St-Ito: Controlling Audio Effects For Style Transfer With Inference-Time Optimization. ISMIR (2024).
Carlos Hernandez-Olivan, Marc Delcroix, Tsubasa Ochiai, Daisuke Niizumi, Naohiro Tawara, Tomohiro Nakatani, Shoko Araki. Soundbeam Meets M2D: Target Sound Extraction With Audio Foundation Model (2024).
Carlos Hernandez-Olivan, Marc Delcroix, Tsubasa Ochiai, Naohiro Tawara, Tomohiro Nakatani, Shoko Araki. Interaural Time Difference Loss For Binaural Target Sound Extraction. ArXiv (2024).
Cleyton Aparecido Dim, Nelson Cruz Sampaio Neto, Jefferson Magalhães de Morais. Hornbase: An Audio Dataset Of Car Horns In Different Scenarios And Positions. Data in brief (2024).
D. Krause, A. Politis, A. Mesaros. Sound Event Detection And Localization With Distance Estimation. ArXiv (2024).
Da Mu, Zhicheng Zhang, Haobo Yue. Mff-Einv2: Multi-Scale Feature Fusion Across Spectral-Spatial-Temporal Domains For Sound Event Localization And Detection. Interspeech 2024 (2024).
Daisuke Niizumi, Daiki Takeuchi, Yasunori Ohishi, Noboru Harada, K. Kashino. Masked Modeling Duo: Towards A Universal Audio Pre-Training Framework. IEEE/ACM Transactions on Audio, Speech, and Language Processing (2024).
Daisuke Niizumi, Daiki Takeuchi, Yasunori Ohishi, Noboru Harada, Masahiro Yasuda, Shunsuke Tsubaki, Keisuke Imoto. M2D-Clap: Masked Modeling Duo Meets Clap For Learning General-Purpose Audio-Language Representation. Interspeech 2024 (2024).
Do Hyun Lee, Yoon-Gue Song, Hong Kook Kim. Performance Improvement Of Language-Queried Audio Source Separation Based On Caption Augmentation From Large Language Models For Dcase Challenge 2024 Task 9. ArXiv (2024).
Dongheon Lee, Jung-Woo Choi. Deft-Mamba: Universal Multichannel Sound Separation And Polyphonic Audio Classification (2024).
Doyeon Kim, Yanjue Song, Nilesh Madhu, Hong-Goo Kang. Enhancing Neural Speech Embeddings For Generative Speech Models. 2024 Asia Pacific Signal and Information Processing Association Annual Summit and Conference (APSIPA ASC) (2024).
Erwin Deng. Coastline Resilience: Leveraging Satellite Imagery And The Co-Detr Model For Storm Damage Assessment. IGARSS 2024 - 2024 IEEE International Geoscience and Remote Sensing Symposium (2024).
F. Effa, Jean-Pierre Arz, R. Serizel, N. Grimault. Evaluating And Predicting The Audibility Of Acoustic Alarms In The Workplace Using Experimental Methods And Deep Learning. Applied Acoustics (2024).
F. Paissan, Luca Della Libera, M. Ravanelli, Cem Subakan. Listenable Maps For Zero-Shot Audio Classifiers. ArXiv (2024).
Fei Liu, Yang Ai, Hui-Peng Du, Ye-Xin Lu, Ruixin Zheng, Zhenhua Ling. Stage-Wise And Prior-Aware Neural Speech Phase Prediction. 2024 IEEE Spoken Language Technology Workshop (SLT) (2024).
Feilong Chen, Wenmo Lin, Chengli Sun, Qiaosheng Guo. A Two-Stage Beamforming And Diffusion-Based Refiner System For 3D Speech Enhancement. Circuits, systems, and signal processing (2024).
Feiyang Xiao, Jian Guan, Qiaoxi Zhu, Xubo Liu, Wenbo Wang, Shuhan Qi, Kejia Zhang, Jianyuan Sun, Wenwu Wang. A Reference-Free Metric For Language-Queried Audio Source Separation Using Contrastive Language-Audio Pretraining. ArXiv (2024).
Florian Schmid, Paul Primus, Toni Heittola, A. Mesaros, Irene Mart'in-Morat'o, Khaled Koutini, Gerhard Widmer. Data-Efficient Low-Complexity Acoustic Scene Classification In The Dcase 2024 Challenge. ArXiv (2024).
Gallil Maimon, Amit Roth, Yossi Adi. A Suite For Acoustic Language Model Evaluation (2024).
Ge Zhu, Zhiyao Duan. Cacophony: An Improved Contrastive Audio-Text Model. ArXiv (2024).
Gijs Wijngaard, Elia Formisano, Michele Esposito, M. Dumontier. Audio-Language Datasets Of Scenes And Events: A Survey (2024).
Gyuhak Kim, Ho-Hsiang Wu, Luca Bondi, Bing Liu. Multi-Modal Continual Pre-Training For Audio Encoders. ICASSP 2024 - 2024 IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP) (2024).
Haibin Wu, Ho-Lam Chung, Yi-Cheng Lin, Yuan-Kuei Wu, Xuanjun Chen, Yu-Chi Pai, Hsiu-Hsuan Wang, Kai-Wei Chang, Alexander H. Liu, Hung-yi Lee. Codec-Superb: An In-Depth Analysis Of Sound Codec Models. ArXiv (2024).
Haibin Wu, Xuanjun Chen, Yi-Cheng Lin, Kai-Wei Chang, Jiawei Du, Ke-Han Lu, Alexander H. Liu, Ho-Lam Chung, Yuan-Kuei Wu, Dongchao Yang, Songxiang Liu, Yi-Chiao Wu, Xu Tan, James Glass, Shinji Watanabe, Hung-yi Lee. Codec-Superb @ Slt 2024: A Lightweight Benchmark For Neural Audio Codec Models (2024).
Han Yin, Jisheng Bai, Yang Xiao, Hui Wang, Siqi Zheng, Yafeng Chen, Rohan Kumar Das, Chong Deng, Jianfeng Chen. Exploring Text-Queried Sound Event Detection With Audio Source Separation (2024).
Hang Zhao, Yifei Xin, Zhesong Yu, Bilei Zhu, Lu Lu, Zejun Ma. Mint: Boosting Audio-Language Model Via Multi-Target Pre-Training And Instruction Tuning. ArXiv (2024).
Hao Ma, Zhiyuan Peng, Mingjie Shao, Ju Liu, Xu Li, Xixin Wu. Clapsep: Leveraging Contrastive Pre-Trained Models For Multi-Modal Query-Conditioned Target Sound Extraction (2024).
Hao Ma, Zhiyuan Peng, Xu Li, Mingjie Shao, Xixin Wu, Ju Liu. Clapsep: Leveraging Contrastive Pre-Trained Model For Multi-Modal Query-Conditioned Target Sound Extraction (2024).
Hao Ma, Zhiyuan Peng, Xu Li, Yukai Li, Mingjie Shao, Qiuqiang Kong, Ju Liu. Language-Queried Target Sound Extraction Without Parallel Training Data (2024).
He Huang, T. Park, Kunal Dhawan, I. Medennikov, Krishna C. Puvvada, N. Koluguri, Weiqing Wang, Jagadeesh Balam, Boris Ginsburg. Nest: Self-Supervised Fast Conformer As All-Purpose Seasoning To Speech Processing Tasks. ArXiv (2024).
Heinrich Dinkel, Zhiyong Yan, Yongqing Wang, Junbo Zhang, Yujun Wang, Bin Wang. Scaling Up Masked Audio Encoder Learning For General Audio Classification. Interspeech 2024 (2024).
Helin Wang, Jiarui Hai, Yen-Ju Lu, Karan Thakkar, Mounya Elhilali, N. Dehak. Soloaudio: Target Sound Extraction With Language-Oriented Audio Diffusion Transformer (2024).
Ho-Young Choi, Won-Gook Choi, Joon-Hyuk Chang. Retrieval-Augmented Classifier Guidance For Audio Generation. Interspeech 2024 (2024).
Hongyang Lei, Xiaolong Cheng, Dan Wang, Kun Fan, Qi Qin, Huazhen Huang, Yetao Wu, Qingqing Gu, Zhonglin Jiang, Yong Chen, Luo Ji. M3-Jepa: Multimodal Alignment Via Multi-Directional Moe Based On The Jepa Framework (2024).
Hongyang Lei, Xiaolong Cheng, Qi Qin, Dan Wang, Kun Fan, Huazhen Huang, Qingqing Gu, Yetao Wu, Zhonglin Jiang, Yong Chen, Luo Ji. M3-Jepa: Multimodal Alignment Via Multi-Gate Moe Based On The Joint-Embedding Predictive Architecture (2024).
Hwabyeong Chae, Sunggu Lee. Small-Footprint Convolutional Neural Network With Reduced Feature Map For Voice Activity Detection. ICASSP 2024 - 2024 IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP) (2024).
Hyemi Kim, Junghyun Kim, Jihyun Park, Seongwoo Kim, Chanjin Park, Wonyoung Yoo. Background Music Monitoring Framework And Dataset For Tv Broadcast Audio. ETRI Journal (2024).
Irán R. Román, Christopher Ick, Sivan Ding, Adrian S. Roman, Brian McFee, J. P. Bello. Spatial Scaper: A Library To Simulate And Augment Soundscapes For Sound Event Localization And Detection In Realistic Rooms. ICASSP 2024 - 2024 IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP) (2024).
Jacob Kealey, John Hershey, Franccois Grondin. Unsupervised Improved Mvdr Beamforming For Sound Enhancement. Interspeech 2024 (2024).
Jelto Branding, D. von Hörsten, Elias Böckmann, Jens Karl Wegener, Eberhard Hartung. Insectsound1000 An Insect Sound Dataset For Deep Learning Based Acoustic Insect Recognition. Scientific data (2024).
Jerry Ngo, Yoon Kim. What Do Language Models Hear? Probing For Auditory Representations In Language Models. ArXiv (2024).
Jinbo Hu, Yin Cao, Ming Wu, Fang Kang, Feiran Yang, Wenwu Wang, Mark D. Plumbley, Jun Yang. Pseldnets: Pre-Trained Neural Networks On Large-Scale Synthetic Datasets For Sound Event Localization And Detection. ArXiv (2024).
Jonathan Svirsky, Uri Shaham, Ofir Lindenbaum. Sparse Binarization For Fast Keyword Spotting. Interspeech 2024 (2024).
Jongsuk Kim, Hyeongkeun Lee, Kyeongha Rho, Junmo Kim, Joon Son Chung. Equiav: Leveraging Equivariance For Audio-Visual Contrastive Learning. ICML (2024).
Jozef Coldenhoff, Niclas Granqvist, Milos Cernak. Openace: An Open Benchmark For Evaluating Audio Coding Performance (2024).
June-Woo Kim, Chihyeon Yoon, Ho-Young Jung. A Military Audio Dataset For Situational Awareness And Surveillance. Scientific data (2024).
Kai Li, Wendi Sang, Chang Zeng, Run Yang, Guo Chen, Xiaolin Hu. Sonicsim: A Customizable Simulation Platform For Speech Processing In Moving Sound Source Scenarios. ICLR (2024).
Kai-Wei Chang, Haibin Wu, Yu-Kai Wang, Yuan-Kuei Wu, Hua Shen, Wei-Cheng Tseng, Iu-thing Kang, Shang-Wen Li, Hung-yi Lee. Speechprompt: Prompting Speech Language Models For Speech Processing Tasks. IEEE/ACM Transactions on Audio, Speech, and Language Processing (2024).
Karn N. Watcharasupat, Chih-Wei Wu, Iroro Orife. Remastering Divide And Remaster: A Cinematic Audio Source Separation Dataset With Multilingual Support. ArXiv (2024).
Kateřina Žmolíková, M. Pedersen, Jesper Jensen. Masked Spectrogram Prediction For Unsupervised Domain Adaptation In Speech Enhancement. IEEE Open Journal of Signal Processing (2024).
Ke Chen, Jiaqi Su, Taylor Berg-Kirkpatrick, S. Dubnov, Zeyu Jin. Improving Generalization Of Speech Separation In Real-World Scenarios: Strategies In Simulation, Optimization, And Evaluation. Interspeech 2024 (2024).
Ke Chen, Jiaqi Su, Zeyu Jin. Mdx-Gan: Enhancing Perceptual Quality In Multi-Class Source Separation Via Adversarial Training. ICASSP 2024 - 2024 IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP) (2024).
Keigo Wakayama, Tsubasa Ochiai, Marc Delcroix, Masahiro Yasuda, Shoichiro Saito, Shoko Araki, Akira Nakayama. Online Target Sound Extraction With Knowledge Distillation From Partially Non-Causal Teacher. ICASSP 2024 - 2024 IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP) (2024).
Kohei Saijo, Janek Ebbers, Franccois G. Germain, Gordon Wichern, J. L. Roux. Task-Aware Unified Source Separation. ArXiv (2024).
León Beleña, Ernesto Curbelo, Luca Martino, Valero Laparra. Second-Moment/Order Approximations By Kernel Smoothers With Application To Volatility Estimation. Mathematics (2024).
Lincan Cai, Shuang Li, Wenxuan Ma, Jingxuan Kang, Binhui Xie, Zixun Sun, Chengwei Zhu. Enhancing Cross-Modal Fine-Tuning With Gradually Intermediate Modality Generation. ICML (2024).
Liqaa Fadil, Alia K. Abdul Hassan, Hiba B. Alwan. A Review Of Isolating Speakers In Multi-Speaker Environments For Human-Computer Interaction. AIP Conference Proceedings (2024).
Luca Lazzaroni, F. Bellotti, Riccardo Berta. An Embedded End-To-End Voice Assistant. Eng. Appl. Artif. Intell. (2024).
Lukas Rauch, Raphael Schwinger, Moritz Wirth, Ren'e Heinrich, Denis Huseljic, M. Herde, Jonas Lange, Stefan Kahl, Bernhard Sick, Sven Tomforde, Christoph Scholz. Birdset: A Large-Scale Dataset For Audio Classification In Avian Bioacoustics. ICLR (2024).
M. Cusimano, Luke B. Hewitt, Josh H. McDermott. Listening With Generative Models. Cognition (2024).
M. Córdoba-Tlaxcalteco, E. Benítez-Guerrero. A Systematic Literature Review On Vision-Based Human Event Recognition In Smart Classrooms: Identifying Significant Events And Their Applications. Proceedings of the Institute for System Programming of the RAS (2024).
Maddie Cusimano, Luke B. Hewitt, Josh H. McDermott. Listening With Generative Models.. Cognition (2024).
Mahmoud Salhab, H. Harmanani. A Deep Learning Approach For Arabic Spoken Command Spotting. 2024 IEEE Canadian Conference on Electrical and Computer Engineering (CCECE) (2024).
Manasi Remane, Revanth Reddy Nalia, Ambrish Dantrey. Seasr: Speech Enhancement For Automatic Speech Recognition Systems Using Convolution Recurrent Neural Network With Residual Connections. 2024 IEEE 5th Women in Technology Conference (WINTECHCON) (2024).
Manjie Xu, Chenxing Li, Duzhen Zhang, Dan Su, Weihan Liang, Dong Yu. Prompt-Guided Precise Audio Editing With Diffusion Models. ICML (2024).
Manjunath Mulimani, A. Mesaros. Domain-Incremental Learning For Audio Classification. ICASSP 2025 - 2025 IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP) (2024).
Manuel Cherep, Nikhil Singh. Contrastive Learning From Synthetic Audio Doppelgangers. ArXiv (2024).
Manuel Goulão, Lourenço Bandeira, Bruno Martins, Arlindo L. Oliveira. Training Environmental Sound Classification Models For Real-World Deployment In Edge Devices. Discover Applied Sciences (2024).
Marc-Antoine Maheux, Dominic Létourneau, Philippe Warren, A. Panchea, J. Robillard, François Michaud. Designing A Tabletop Sar As An Advanced Hri Experimentation Platform. TAHRI (2024).
Marcello Messina, Ariane de Souza Stolfi, Luzilei Aliel, I. Simurra, Damián Keller. The Internet Of Musical Stuff. International Journal of Software Innovation (2024).
Marco Furio Colombo, Francesca Ronchini, Luca Comanducci, Fabio Antonacci. Mambafoley: Foley Sound Generation Using Selective State-Space Models (2024).
Marius Miron, Sara Keen, Jen-Yu Liu, Benjamin Hoffman, Masato Hagiwara, Olivier Pietquin, Felix Effenberger, M. Cusimano. Biodenoising: Animal Vocalization Denoising Without Access To Clean Data. ICASSP 2025 - 2025 IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP) (2024).
Mariusz Kleć, Krzysztof Szklanny, Alicja Wieczorkowska. Developing A Corpus For Polish Speech Enhancement By Reducing Noise, Reverberation, And Disruptions. Integrated Spatial Databases (2024).
Masato Hagiwara, Marius Miron, Jen-Yu Liu. Ispa: Inter-Species Phonetic Alphabet For Transcribing Animal Sounds. ArXiv (2024).
Matthew Caren, Kartik Chandra, Joshua B. Tenenbaum, Jonathan Ragan-Kelley, Karima Ma. Sketching With Your Voice:'Non-Phonorealistic'Rendering Of Sounds Via Vocal Imitation (2024).
Maëlle Freteault, Loïc Tetrel, Maximilien Le Clei, Pierre Bellec, Nicolas Farrugia. Alignment Of Auditory Artificial Networks With Massive Individual Fmri Brain Data Leads To Generalizable Improvements In Brain Encoding And Downstream Tasks. bioRxiv (2024).
Michael Nigro, Sridhar Krishnan. Trends In Audio Scene Source Counting And Analysis. Machine Learning with Applications (2024).
Michel Olvera, Paraskevas Stamatiadis, S. Essid. A Sound Description: Exploring Prompt Templates And Class Descriptions To Enhance Zero-Shot Audio Classification (2024).
Michele Esposito, Giancarlo Valente, Yenisel Plasencia-Calaña, M. Dumontier, Bruno L. Giordano, Elia Formisano. Bridging Auditory Perception And Natural Language Processing With Semantically Informed Deep Neural Networks. bioRxiv (2024).
Mithun Manivannan, Vignesh Nethrapalli, Mark Cartwright. Emotioncaps: Enhancing Audio Captioning Through Emotion-Augmented Data Generation. ArXiv (2024).
Moayed Haji Ali, Willi Menapace, Aliaksandr Siarohin, Guha Balakrishnan, S. Tulyakov, Vicente Ordonez. Taming Data And Transformers For Audio Generation. ArXiv (2024).
Modan Tailleur, Junwon Lee, Mathieu Lagrange, Keunwoo Choi, Laurie M. Heller, Keisuke Imoto, Yuki Okamoto. Correlation Of Fréchet Audio Distance With Human Perception Of Environmental Audio Is Embedding Dependent. 2024 32nd European Signal Processing Conference (EUSIPCO) (2024).
Mohammad Nur Hossain Khan, Jialu Li, Nancy L. McElwain, M. Hasegawa-Johnson, Bashima Islam. Sound Tagging In Infant-Centric Home Soundscapes. 2024 IEEE/ACM Conference on Connected Health: Applications, Systems and Engineering Technologies (CHASE) (2024).
Mojtaba Heydari, M. Souden, Bruno Conejo, J. Atkins. Immersediffusion: A Generative Spatial Audio Latent Diffusion Model. ICASSP 2025 - 2025 IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP) (2024).
Moreno La Quatra, Alkis Koudounas, Lorenzo Vaiani, Elena Baralis, Luca Cagliero, Paolo Garza, Sabato Marco Siniscalchi. Benchmarking Representations For Speech, Music, And Acoustic Events. 2024 IEEE International Conference on Acoustics, Speech, and Signal Processing Workshops (ICASSPW) (2024).
Mustafa Chasmai, Alexander Shepard, Subhransu Maji, Grant Van Horn. The Inaturalist Sounds Dataset. NeurIPS (2024).
N. Tomashenko, Xiaoxiao Miao, Pierre Champion, Sarina Meyer, Xin Wang, Emmanuel Vincent, Michele Panariello, Nicholas W. D. Evans, Junichi Yamagishi, M. Todisco. The Voiceprivacy 2024 Challenge Evaluation Plan (2024).
Nasser-Eddine Monir, P. Magron, Romain Serizel. A Phoneme-Scale Assessment Of Multichannel Speech Enhancement Algorithms (2024).
Natarajan Balaji Shankar, Ruchao Fan, Abeer Alwan. Soa: Reducing Domain Mismatch In Ssl Pipeline By Speech Only Adaptation For Low Resource Asr. 2024 IEEE International Conference on Acoustics, Speech, and Signal Processing Workshops (ICASSPW) (2024).
Nicolas Shu, You Wang, Desmond Caulley, David V. Anderson. Slimnet: A Lightweight Attentive Network For Speech-Music-Noise Classification And Voice Activity Detection. 2024 IEEE International Conference on Edge Computing and Communications (EDGE) (2024).
P. Anastasopoulou, Jessica Torrey, Xavier Serra, F. Font. Heterogeneous Sound Classification With The Broad Sound Taxonomy And Dataset. ArXiv (2024).
Pan Zhang, Xiao-wen Dong, Yuhang Cao, Yuhang Zang, Rui Qian, Xilin Wei, Lin Chen, Yifei Li, Junbo Niu, Shuangrui Ding, Qipeng Guo, Haodong Duan, Xin Chen, Han Lv, Zheng Nie, Min Zhang, Bin Wang, Wenwei Zhang, Xinyue Zhang, Jiaye Ge, Wei Li, Jingwen Li, Zhongying Tu, Conghui He, Xingcheng Zhang, Kai Chen, Yuanbo Qiao, Dahua Lin, Jiaqi Wang. Internlm-Xcomposer2.5-Omnilive: A Comprehensive Multimodal System For Long-Term Streaming Video And Audio Interactions. ArXiv (2024).
Paraskevas Stamatiadis, Michel Olvera, S. Essid. Salt: Standardized Audio Event Label Taxonomy (2024).
Peiwen Sun, Sitong Cheng, Xiangtai Li, Zhen Ye, Huadai Liu, Honggang Zhang, Wei Xue, Yi-Ting Guo. Both Ears Wide Open: Towards Language-Driven Spatial Audio Generation. ICLR (2024).
Peng Liu, Dongyang Dai. Rfwave: Multi-Band Rectified Flow For Audio Waveform Reconstruction. ArXiv (2024).
Philipp Wagner, Andreas Triantafyllopoulos, Alexander Gebhard, Bjorn W. Schuller. Audio-Based Step-Count Estimation For Running -- Windowing And Neural Network Baselines (2024).
Pingyue Zhang, Mengyue Wu, Kai Yu. Semantic-Enhanced Supervised Contrastive Learning. ICASSP 2024 - 2024 IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP) (2024).
Pitchapa Ngamthipwatthana, Marco Götze, András Kátai, Jakob Abeßer. Towards Measuring And Forecasting Noise Exposure At The Veltins-Arena In Gel Senkirchen, Germany. 2024 IEEE 5th International Symposium on the Internet of Sounds (IS2) (2024).
Pooneh Mousavi, Luca Della Libera, J. Duret, Artem Ploujnikov, Cem Subakan, M. Ravanelli. Dasb - Discrete Audio And Speech Benchmark. ArXiv (2024).
Potsawee Manakul, Guangzhi Sun, Warit Sirichotedumrong, Kasima Tharnpipitchai, Kunat Pipatanakul. Enhancing Low-Resource Language And Instruction Following Capabilities Of Audio Language Models (2024).
Prateek Verma. Wavelet Gpt: Wavelet Inspired Large Language Models (2024).
Prateek Verma, Mert Pilanci. Towards Signal Processing In Large Language Models (2024).
R. F. Gramaccioni, Christian Marinoni, Changan Chen, A. Uncini, D. Comminiello. L3Das23: Learning 3D Audio Sources For Audio-Visual Extended Reality. IEEE Open Journal of Signal Processing (2024).
Rafael Redondo. Listen And Move: Improving Gans Coherency In Agnostic Sound-To-Video Generation (2024).
Rajapantula Kranthi, .. Vasundhara, Asutosh Kar, Mads Græsbøll Christensen. A Family Of Swish Diffusion Strategy Based Adaptive Algorithms For Distributed Active Noise Control. IEEE Open Journal of Signal Processing (2024).
Ramaneswaran Selvakumar, Sonal Kumar, Hemant Kumar Giri, Nishit Anand, Ashish Seth, Sreyan Ghosh, Dinesh Manocha. Do Audio-Language Models Understand Linguistic Variations?. NAACL (2024).
Raul Masu, Nicolò Merendino, Antonio Rodà, Luca Turchet. Sustainable Internet Of Musical Things: Strategies To Account For Environmental And Social Sustainability In Network-Based Interactive Music Systems. IEEE Access (2024).
Riku Arakawa, Mathieu Parvaix, Chiong Lai, Hakan Erdogan, Alex Olwal. Quantifying The Effect Of Simulator-Based Data Augmentation For Speech Recognition On Augmented Reality Glasses. ICASSP 2024 - 2024 IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP) (2024).
Robert Sutherland, George Close, Thomas Hain, Stefan Goetze, Jon Barker. Using Speech Foundational Models In Loss Functions For Hearing Aid Speech Enhancement (2024).
Roberto San Millán-Castillo, Luca Martino, Eduardo Morgado. A Variable Selection Analysis For Soundscape Emotion Modeling Using Decision Tree Regression And Modern Information Criteria. IEEE Access (2024).
Ruixin Zheng, Hui-Peng Du, Xiao-Hang Jiang, Yang Ai, Zhenhua Ling. Ervq: Enhanced Residual Vector Quantization With Intra-And-Inter-Codebook Optimization For Neural Audio Codecs. IEEE Transactions on Audio, Speech, and Language Processing (2024).
Ryuhaerang Choi, Soumyajit Chatterjee, Dimitris Spathis, Sung-Ju Lee, F. Kawsar, Mohammad Malekzadeh. Soundcollage: Automated Discovery Of New Classes In Audio Datasets. ICASSP 2025 - 2025 IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP) (2024).
S. Suzic, Irene Martín-Morató, Nikola Simić, Charitha Raghavaraju, Toni Heittola, Vuk Stanojev, D. Bajović. Uns Exterior Spatial Sound Events Dataset For Urban Monitoring. 2024 32nd European Signal Processing Conference (EUSIPCO) (2024).
Sallauddin Mohmmad, Suresh Kumar Sanampudi. Exploring Current Research Trends In Sound Event Detection: A Systematic Literature Review. Multimedia tools and applications (2024).
Sallauddin Mohmmad, Suresh Kumar Sanampudi. A Parametric Survey On Polyphonic Sound Event Detection And Localization. Multimedia tools and applications (2024).
Samuele Cornell, Janek Ebbers, Constance Douwes, Irene Mart'in-Morat'o, Manu Harju, A. Mesaros, Romain Serizel. Dcase 2024 Task 4: Sound Event Detection With Heterogeneous Data And Missing Labels. ArXiv (2024).
Sarthak Yadav, S. Theodoridis, Zheng-Hua Tan. Axlstms: Learning Self-Supervised Audio Representations With Xlstms. Interspeech (2024).
Sarthak Yadav, S. Theodoridis, Zheng-Hua Tan. Audio Xlstms: Learning Self-Supervised Audio Representations With Xlstms. ArXiv (2024).
Sebastian Braun, H. Gamper. Multi-Label Audio Classification With A Noisy Zero-Shot Teacher (2024).
Sebastien Baur, Zaid Nabulsi, Wei-Hung Weng, Jake Garrison, Louis Blankemeier, Sam Fishman, Christina Chen, Sujay S Kakarmath, Minyoi Maimbolwa, N. Sanjase, Brian Shuma, Yossi Matias, G. Corrado, Shwetak Patel, S. Shetty, Shruthi Prabhakara, Monde Muyoyeta, Diego Ardila. Hear - Health Acoustic Representations. ArXiv (2024).
Sen Fang, Sizhou Chen, Yalin Feng, Xiaofeng Zhang, TeikToe Teoh. Bridging The Gap Between Text, Audio, Image, And Any Sequence: A Novel Approach Using Gloss-Based Annotation (2024).
Seong-Gyun Leem, Daniel Fulford, J. Onnela, David Gard, Carlos Busso. Keep, Delete, Or Substitute: Frame Selection Strategy For Noise-Robust Speech Emotion Recognition. INTERSPEECH (2024).
Seong-Gyun Leem, Daniel Fulford, J. Onnela, David Gard, Carlos Busso. Describe Where You Are: Improving Noise-Robustness For Speech Emotion Recognition With Text Description Of The Environment (2024).
Shabnam Ghaffarzadegan, Luca Bondi, Wei-Chang Lin, Abinaya Kumar, Ho-Hsiang Wu, Hans-Georg Horst, Samarjit Das. Sound Of Traffic: A Dataset For Acoustic Traffic Identification And Counting. INTERSPEECH (2024).
Shengpeng Ji, Ziyue Jiang, Xize Cheng, Yifu Chen, Minghui Fang, Jialong Zuo, Qian Yang, Ruiqi Li, Ziang Zhang, Xiaoda Yang, Rongjie Huang, Yidi Jiang, Qian Chen, Siqi Zheng, Wen Wang, Zhou Zhao. Wavtokenizer: An Efficient Acoustic Discrete Codec Tokenizer For Audio Language Modeling. ArXiv (2024).
Shentong Mo, Yapeng Tian. Semantic Grouping Network For Audio Source Separation. ArXiv (2024).
Shiyun Xu, Yinghan Cao, Zehua Zhang, Mingjiang Wang. Two-Stage Unet With Channel And Temporal-Frequency Attention For Multi-Channel Speech Enhancement. Speech Commun. (2024).
Shoval Messica, Yossi Adi. Nast: Noise Aware Speech Tokenization For Speech Language Models. Interspeech 2024 (2024).
Shuai Tao, Pejman Mowlaee, Jesper Rindom Jensen, Mads Græsbøll Christensen. Learning-Based Multi-Channel Speech Presence Probability Estimation Using A Low-Parameter Model And Integration With Mvdr Beamforming For Multi-Channel Speech Enhancement. 2024 18th International Workshop on Acoustic Signal Enhancement (IWAENC) (2024).
Sonal Kumar, Prem Seetharaman, Justin Salamon, Dinesh Manocha, Oriol Nieto. Sila: Signal-To-Language Augmentation For Enhanced Control In Text-To-Audio Generation. IEEE Workshop on Applications of Signal Processing to Audio and Acoustics (2024).
Sreyan Ghosh, Sonal Kumar, Ashish Seth, Chandra Kiran Reddy Evuru, Utkarsh Tyagi, S. Sakshi, Oriol Nieto, R. Duraiswami, Dinesh Manocha. Gama: A Large Audio-Language Model With Advanced Audio Understanding And Complex Reasoning Abilities. ArXiv (2024).
Sreyan Ghosh, Sonal Kumar, Chandra Kiran Reddy Evuru, Oriol Nieto, R. Duraiswami, Dinesh Manocha. Reclap: Improving Zero Shot Audio Classification By Describing Sounds (2024).
Sreyan Ghosh, Sonal Kumar, Zhifeng Kong, Rafael Valle, Bryan Catanzaro, Dinesh Manocha. Synthio: Augmenting Small-Scale Audio Classification Datasets With Synthetic Data. ICLR (2024).
Subrina Sultana, Donald S. Williamson. A Pre-Training Framework That Encodes Noise Information For Speech Quality Assessment. ICASSP 2025 - 2025 IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP) (2024).
T. Eerola. Prevalence Of Transparency And Reproducibility-Related Research Practices In Music Psychology (2017–2022). Musicae Scientiae (2024).
Thanapat Trachu, Chawan Piansaddhayanon, E. Chuangsuwanich. Thunder : Unified Regression-Diffusion Speech Enhancement With A Single Reverse Step Using Brownian Bridge. Interspeech 2024 (2024).
Tiago Tavares, Fabio Ayres, Zhepei Wang, Paris Smaragdis. On Class Separability Pitfalls In Audio-Text Contrastive Zero-Shot Learning. ArXiv (2024).
Tiantian Feng, Dimitrios Dimitriadis, Shrikanth S. Narayanan. Can Synthetic Audio From Generative Foundation Models Assist Audio Recognition And Speech Modeling?. Interspeech 2024 (2024).
Tianyi Bai, Hao Liang, Binwang Wan, Ling Yang, Bozhou Li, Yifan Wang, Bin Cui, Conghui He, Binhang Yuan, Wentao Zhang. A Survey Of Multimodal Large Language Model From A Data-Centric Perspective. ArXiv (2024).
Tingle Li, Renhao Wang, Po-Yao Huang, Andrew Owens, G. Anumanchipalli. Self-Supervised Audio-Visual Soundscape Stylization (2024).
Tushar Dhyani, Florian Lux, Michele Mancusi, Giorgio Fabbro, Fritz Hohl, Ngoc Thang Vu. High-Resolution Speech Restoration With Latent Diffusion Model. ICASSP 2025 - 2025 IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP) (2024).
Wei Guo, Heng Wang, Jianbo Ma, Tom Weidong Cai. Gotta Hear Them All: Sound Source Aware Vision To Audio Generation. ArXiv (2024).
Wei Guo, Heng Wang, Jianbo Ma, Weidong Cai. Gotta Hear Them All: Towards Sound Source Aware Audio Generation. AAAI Conference on Artificial Intelligence (2024).
Weiting Tan, Yunmo Chen, Tongfei Chen, Guanghui Qin, Haoran Xu, Heidi C. Zhang, Benjamin Van Durme, Philipp Koehn. Streaming Sequence Transduction Through Dynamic Compression. ArXiv (2024).
Weiyu Li, Weizhi Lu, Xijun Liang, Mingrui Chen, Kai Guo. Collaborative Dictionary Learning For Compressed Sensing. IEEE Transactions on Industrial Informatics (2024).
Wenjie Zhang, Peng Yu, Zhan Wang, Zhenhe Wang, Mingliang Xu. A Hybrid Offline-Online Method For Sound Event Localization And Detection. Applied intelligence (Boston) (2024).
Wenxuan Ma, Shuang Li, Lincan Cai, Jingxuan Kang. Learning Modality Knowledge Alignment For Cross-Modality Transfer. ICML (2024).
Xianghu Yue, Xiaohai Tian, Malu Zhang, Zhizheng Wu, Haizhou Li. Coavt: A Cognition-Inspired Unified Audio-Visual-Text Pre-Training Model For Multimodal Processing. ArXiv (2024).
Xiao Zeng, Shiyun Xu, Mingjiang Wang. A Time-Frequency Fusion Model For Multi-Channel Speech Enhancement. EURASIP J. Audio Speech Music. Process. (2024).
Xiao-Hang Jiang, Yang Ai, Ruixin Zheng, Hui-Peng Du, Ye-Xin Lu, Zhenhua Ling. Mdctcodec: A Lightweight Mdct-Based Neural Audio Codec Towards High Sampling Rate And Low Bitrate Scenarios. 2024 IEEE Spoken Language Technology Workshop (SLT) (2024).
Xiaohuan Li, Yi Liu, Libo Zheng, Wenqiong Zhang. A Lightweight Convolutional Spiking Neural Network For Fires Detection Based On Acoustics. Electronics (2024).
Xiaoying Zhao, Qiushi Zhu, Yuchen Hu. An Experimental Comparison Of Noise-Robust Text-To-Speech Synthesis Systems Based On Self-Supervised Representation. ICASSP 2024 - 2024 IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP) (2024).
Xilin Jiang, Cong Han, Y. Li, N. Mesgarani. Listen, Chat, And Edit: Text-Guided Soundscape Modification For Enhanced Auditory Experience (2024).
Xilin Jiang, Cong Han, Yinghao Aaron Li, N. Mesgarani. Listen, Chat, And Remix: Text-Guided Soundscape Remixing For Enhanced Auditory Experience. IEEE Journal on Selected Topics in Signal Processing (2024).
Xin Jing, Andreas Triantafyllopoulos, Bjorn W. Schuller. Paraclap - Towards A General Language-Audio Model For Computational Paralinguistic Tasks. Interspeech 2024 (2024).
Xingyu Shen, Wei-Ping Zhu. Multichannel Speech Enhancement Using Complex-Valued Graph Convolutional Networks And Triple-Path Attentive Recurrent Networks. 2024 Asia Pacific Signal and Information Processing Association Annual Summit and Conference (APSIPA ASC) (2024).
Xiyuxing Zhang, Yuntao Wang, Yuxuan Han, Chen Liang, Ishan Chatterjee, Jiankai Tang, Xin Yi, Shwetak Patel, Yuanchun Shi. The Earsavas Dataset. Proc. ACM Interact. Mob. Wearable Ubiquitous Technol. (2024).
Xuenan Xu, Haohe Liu, Mengyue Wu, Wenwu Wang, M. Plumbley. Efficient Audio Captioning With Encoder-Level Knowledge Distillation. Interspeech 2024 (2024).
Xuenan Xu, Xiaohang Xu, Zeyu Xie, Pingyue Zhang, Mengyue Wu, Kai Yu. A Detailed Audio-Text Data Simulation Pipeline Using Single-Event Sounds. ICASSP 2024 - 2024 IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP) (2024).
Yang Ai, Xiao-Hang Jiang, Ye-Xin Lu, Hui-Peng Du, Zhen-Hua Ling. Apcodec: A Neural Audio Codec With Parallel Amplitude And Phase Spectrum Encoding And Decoding. ArXiv (2024).
Yanxu Chen, Linshu Huang, Tian Gou. Applications And Advances Of Artificial Intelligence In Music Generation:A Review (2024).
Yifei Xin, Xuxin Cheng, Zhihong Zhu, Xusheng Yang, Yuexian Zou. Diffatr: Diffusion-Based Generative Modeling For Audio-Text Retrieval. INTERSPEECH (2024).
Yiming Zhang, Xuenan Xu, Ruoyi Du, Haohe Liu, Yuan Dong, Zheng-Hua Tan, Wenwu Wang, Zhanyu Ma. Zero-Shot Audio Captioning Using Soft And Hard Prompts. IEEE Transactions on Audio, Speech, and Language Processing (2024).
Yingzhi Wang, Pooneh Mousavi, Artem Ploujnikov, M. Ravanelli. What Are They Doing? Joint Audio-Speech Co-Reasoning (2024).
Yiwen Wang, Xihong Wu. Tse-Pi: Target Sound Extraction Under Reverberant Environments With Pitch Information. Interspeech 2024 (2024).
Yuanbo Hou, Qiaoqiao Ren, A. Mitchell, Wenwu Wang, Jian Kang, Tony Belpaeme, Dick Botteldooren. Soundscape Captioning Using Sound Affective Quality Network And Large Language Model. ArXiv (2024).
Yuanyuan Wang, Hangting Chen, Dongchao Yang, Zhiyong Wu, Helen M. Meng, Xixin Wu. Audiocomposer: Towards Fine-Grained Audio Generation With Natural Language Descriptions (2024).
Yuchen Hu, Chen Chen, Chao-Han Huck Yang, Chengwei Qin, Pin-Yu Chen, Chng Eng Siong, Chao Zhang. Self-Taught Recognizer: Toward Unsupervised Adaptation For Speech Foundation Models. ArXiv (2024).
Yuchen Hu, Chen Chen, Chao-Han Huck Yang, Ruizhe Li, Chao Zhang, Pin-Yu Chen, Ensiong Chng. Large Language Models Are Efficient Learners Of Noise-Robust Speech Recognition. ArXiv (2024).
Yuchi Ishikawa, Tatsuya Komatsu, Yoshimitsu Aoki. Pre-Training With Synthetic Patterns For Audio. ICASSP 2025 - 2025 IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP) (2024).
Yuwei Zhang, Tong Xia, Jing Han, Y. Wu, Georgios Rizos, Yang Liu, Mohammed Mosuily, Jagmohan Chauhan, Cecilia Mascolo. Towards Open Respiratory Acoustic Foundation Models: Pretraining And Benchmarking. ArXiv (2024).
Zahra Abolfazli, H. R. Abutalebi, Tuomas Virtanen. Improving Distance Estimation In Sound Event Localization And Detection Using Resnet50 And Multi-Accddoa. 2024 10th International Conference on Signal Processing and Intelligent Systems (ICSPIS) (2024).
Zhen Ye, Peiwen Sun, Jiahe Lei, Hongzhan Lin, Xu Tan, Zheqi Dai, Qiuqiang Kong, Jianyi Chen, Jiahao Pan, Qi-fei Liu, Yi-Ting Guo, Wei Xue. Codec Does Matter: Exploring The Semantic Shortcoming Of Codec For Audio Language Model. ArXiv (2024).
Zhenyi Hou, Xu Zhao, Kejie Ye, Xinyu Sheng, Shanggerile Jiang, Jiajing Xia, Yitao Zhang, Chenxi Ban, Daijun Luo, Jiaxing Chen, Yan Zou, Yuchao Feng, Guangyu Fan, Xin Yuan. Transfer Learning In Vocal Education: Technical Evaluation Of Limited Samples Describing Mezzo-Soprano. ArXiv (2024).
Zhifeng Kong, Arushi Goel, Rohan Badlani, Wei Ping, Rafael Valle, Bryan Catanzaro. Audio Flamingo: A Novel Audio Language Model With Few-Shot Learning And Dialogue Abilities. ArXiv (2024).

2023 (207)

. Microphone-Based Context Awareness And Coverage Planner For A Service Robot Using Deep Learning Techniques. Mathematics (2023).
A. Bandi, Pydi Venkata Satya Ramesh Adapa, Yudu Eswar Vinay Pratap Kumar Kuchi. The Power Of Generative Ai: A Review Of Requirements, Models, Input-Output Formats, Evaluation Metrics, And Challenges. Future Internet (2023).
Adri'an Barahona-R'ios, Tom Collins. Noisebandnet: Controllable Time-Varying Neural Synthesis Of Sound Effects Using Filterbanks. IEEE/ACM Transactions on Audio, Speech, and Language Processing (2023).
Alice Sokolova, Baris Aksanli, F. Harris, H. Garudadri. Consolidating Compression And Revisiting Expansion: An Alternative Amplification Rule For Wide Dynamic Range Compression. 2023 IEEE Workshop on Applications of Signal Processing to Audio and Acoustics (WASPAA) (2023).
Ambuj Mehrish, Navonil Majumder, Rishabh Bhardwaj, Soujanya Poria. A Review Of Deep Learning Techniques For Speech Processing. Information Fusion (2023).
Ambuj Mehrish, Navonil Majumder, Rishabh Bhardwaj, Soujanya Poria. A Review Of Deep Learning Techniques For Speech Processing. Information Fusion (2023).
Anam Bansal, N. Garg. Robust Technique For Environmental Sound Classification Using Convolutional Recurrent Neural Network. Multimedia Tools and Applications (2023).
Anam Bansal, N. Garg. Environmental Sound Classification Using Hybrid Ensemble Model. Procedia Computer Science (2023).
Andong Li, Guochen Yu, Zhongweiyang Xu, Cunhang Fan, Xiaodong Li, C. Zheng. Tabe: Decoupling Spatial And Spectral Processing With Taylor'S Unfolding Method In The Beamspace Domain For Multi-Channel Speech Enhancement. Inf. Fusion (2023).
Angélica S. Z. Suárez, Clément Laroche, L. Clemmensen, Sneha Das. On Crowdsourcing-Design With Comparison Category Rating For Evaluating Speech Enhancement Algorithms. ICASSP 2023 - 2023 IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP) (2023).
Ankit Shah, Shuyi Chen, Kejun Zhou, Yue Chen, B. Raj. Approach To Learning Generalized Audio Representation Through Batch Embedding Covariance Regularization And Constant-Q Transforms. ArXiv (2023).
Anna Xambó Sedó. Discovering Creative Commons Sounds In Live Coding. Organised Sound (2023).
Ashish Seth, Sreyan Ghosh, S. Umesh, Dinesh Manocha. Unfused: Unsupervised Finetuning Using Self Supervised Distillation. ArXiv (2023).
Austin Mac, Misha Sra. Sonic Storyteller: Augmenting Oral Storytelling With Spatial Sound Effects. UIST (2023).
B. Haki, Teresa Pelinski, Marina Nieto Giménez, Sergi Jordà. Completing Audio Drum Loops With Symbolic Drum Suggestions. NIME (2023).
B. Weck, Xavier Serra. Data Leakage In Cross-Modal Retrieval Training: A Case Study. ArXiv (2023).
Bac Nguyen, S. Uhlich, Fabien Cardinaux. Improving Self-Supervised Learning For Audio Representations By Feature Diversity And Decorrelation. ICASSP 2023 - 2023 IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP) (2023).
Benjamin Elizalde, Soham Deshmukh, Huaming Wang. Natural Language Supervision For General-Purpose Audio Representations. ICASSP 2024 - 2024 IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP) (2023).
Benjamin Elizalde, Soham Deshmukh, Mahmoud Al Ismail, Huaming Wang. Clap Learning Audio Concepts From Natural Language Supervision. ICASSP 2023 - 2023 IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP) (2023).
Bin Zhu, Bin Lin, Munan Ning, Yang Yan, Jiaxi Cui, Hongfa Wang, Yatian Pang, Wenhao Jiang, Junwu Zhang, Zongwei Li, Wancai Zhang, Zhifeng Li, Wei Liu, Liejie Yuan. Languagebind: Extending Video-Language Pretraining To N-Modality By Language-Based Semantic Alignment. ArXiv (2023).
Carlotta Anemüller, O. Thiergart, Emanuël Habets. Neural Audio Decorrelation Using Generative Adversarial Networks. 2023 IEEE Workshop on Applications of Signal Processing to Audio and Acoustics (WASPAA) (2023).
Chenxing Li, Ye Bai, Yang Wang, Feng Deng, Yuanyuan Zhao, Zhuohao Zhang, Xiaorui Wang. Image-Driven Audio-Visual Universal Source Separation. INTERSPEECH 2023 (2023).
Chuan Wen, S. Verhulst. Biophysically-Inspired Single-Channel Speech Enhancement In The Time Domain. INTERSPEECH 2023 (2023).
D. Meedeniya, Isuru Ariyarathne, M. Bandara, Roshinie Jayasundara, Charith Perera. A Survey On Deep Learning Based Forest Environment Sound Classification At The Edge. ACM Comput. Surv. (2023).
Dagis Daniels Vidulejs, J. Teličko, A. Jakovičs. Temporal Convolutional Networks For Cough Detection Using Raw Waveforms: Reducing False Positive Rates With Noise Augmentation. 2023 3rd International Conference on Electrical, Computer, Communications and Mechatronics Engineering (ICECCME) (2023).
Daiki Takeuchi, Yasunori Ohishi, Daisuke Niizumi, Noboru Harada, K. Kashino. Audio Difference Captioning Utilizing Similarity-Discrepancy Disentanglement. ArXiv (2023).
Dianwen Ng, Chong Zhang, Ruixiu Zhang, Yukun Ma, Fabian Ritter-Gutierrez, Trung Hieu Nguyen, Chongjia Ni, Shengkui Zhao, E. Chng, B. Ma. Are Soft Prompts Good Zero-Shot Learners For Speech Recognition?. ICASSP 2024 - 2024 IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP) (2023).
Dianwen Ng, Ruixiong Zhang, Jia Qi Yip, Zhao Yang, Jinjie Ni, Chong Zhang, Yukun Ma, Chongjia Ni, E. Chng, B. Ma. Dehubert: Disentangling Noise In A Self-Supervised Model For Robust Speech Recognition. ArXiv (2023).
Dianwen Ng, Ruixiu Zhang, Jia Qi Yip, Zhao Yang, Jinjie Ni, Chong Zhang, Yukun Ma, Chongjia Ni, E. Chng, Bin Ma. De’Hubert: Disentangling Noise In A Self-Supervised Model For Robust Speech Recognition. ICASSP 2023 - 2023 IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP) (2023).
Dianwen Ng, Yanghua Xiao, J. Yip, Zhao Yang, Biao Tian, Qiang Fu, E. Chng, Bin Ma. Small Footprint Multi-Channel Network For Keyword Spotting With Centroid Based Awareness. INTERSPEECH 2023 (2023).
Diep Luong, Minh Tran, Shayan Gharib, K. Drossos, T. Virtanen. Representation Learning For Audio Privacy Preservation Using Source Separation And Robust Adversarial Learning. 2023 IEEE Workshop on Applications of Signal Processing to Audio and Acoustics (WASPAA) (2023).
Dongheon Lee, Jung-Woo Choi. Deftan-Ii: Efficient Multichannel Speech Enhancement With Subgroup Processing (2023).
E. Thoret, S. Ystad, R. Kronland-Martinet. Hearing As Adaptive Cascaded Envelope Interpolation. Communications biology (2023).
Etienne Labbé, Thomas Pellegrini, J. Pinquier. Conette: An Efficient Audio Captioning System Leveraging Multiple Datasets With Task Embedding. ArXiv (2023).
F. Paissan, Elisabetta Farella. Tinyclap: Distilling Constrastive Language-Audio Pretrained Models. Interspeech 2024 (2023).
F. Paissan, Elisabetta Farella. Tinyclap: Distilling Constrastive Language-Audio Pretrained Models. ArXiv (2023).
Fabian Ritter Gutierrez, Kuan-Po Huang, Dianwen Ng, J. H. M. Wong, Hung-yi Lee, Chng Eng Siong, Nancy F. Chen. Noise Robust Distillation Of Self-Supervised Speech Models Via Correlation Metrics. ArXiv (2023).
Florian Schmid, Khaled Koutini, Gerhard Widmer. Dynamic Convolutional Neural Networks As Efficient Pre-Trained Audio Models. IEEE/ACM Transactions on Audio, Speech, and Language Processing (2023).
Fuhu Song, Jifeng Hu, Che Wang, Jiao Huang, Haowen Zhang, Yi Wang. Cross-Modal Audio-Text Retrieval Via Sequential Feature Augmentation. CACML (2023).
G. Peruzzi, A. Pozzebon, Mattia Van Der Meer. Fight Fire With Fire: Detecting Forest Fires With Embedded Machine Learning Models Dealing With Audio And Images On Low Power Iot Devices. Sensors (2023).
H. Tran, J. Hong, Hyeryung Jang, Jinhwan Jung, Jongmok Kim, Joonki Hong, Minji Lee, J. Kim, C. Kushida, Dongheon Lee, Daewoo Kim, I. Yoon. Prediction Of Sleep Stages Via Deep Learning Using Smartphone Audio Recordings In Home Environments: Model Development And Validation. Journal of medical Internet research (2023).
Haitao Xu, L. Wei, Jie Zhang, Jianming Yang, Yannan Wang, Tian Gao, Xin Fang, Lirong Dai. A Multi-Scale Feature Aggregation Based Lightweight Network For Audio-Visual Speech Enhancement. ICASSP 2023 - 2023 IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP) (2023).
Han Liu, H. Liu. When Evil Calls: Targeted Adversarial Voice Over Ip Network (2023).
Han Yin, Jisheng Bai, Mou Wang, S. Huang, Yafei Jia, Jianfeng Chen. Convolutional Recurrent Neural Network With Attention For 3D Speech Enhancement (2023).
Han Yin, Jisheng Bai, S. Huang, Mou Wang, Yafei Jia, Jianfeng Chen. Two-Stage Autoencoder Neural Network For 3D Speech Enhancement. ArXiv (2023).
Hang Do, Quan Dang, Jeremy Zhengqi Huang, Dhruv Jain. Adaptivesound: An Interactive Feedback-Loop System To Improve Sound Recognition For Deaf And Hard Of Hearing Users. ASSETS (2023).
Hira Dhamyal, Benjamin Elizalde, Soham Deshmukh, Huaming Wang, Bhiksha Raj, Rita Singh. Prompting Audios Using Acoustic Properties For Emotion Representation. ICASSP 2024 - 2024 IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP) (2023).
Ho-Hsiang Wu, Oriol Nieto, J. Bello, J. Salamon. Audio-Text Models Do Not Yet Leverage Natural Language. ICASSP 2023 - 2023 IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP) (2023).
Hong-Goo Kang, J. Skoglund, W. Kleijn, Andrew Storus, Hengchin Yeh. A High-Rate Extension To Soundstream. 2023 IEEE Workshop on Applications of Signal Processing to Audio and Acoustics (WASPAA) (2023).
Hsuan-Cheng Chou, Yih-Liang Shen, Meng-Hsuan Wu, Bo-Wun Shih, Tai-Shih Chi. Residual Echo Suppression Using Spatial Feature For Stereo Acoustic Echo Cancellation. 2023 Asia Pacific Signal and Information Processing Association Annual Summit and Conference (APSIPA ASC) (2023).
Irene Martín-Morató, A. Mesaros. Strong Labeling Of Sound Events Using Crowdsourced Weak Labels And Annotator Competence Estimation. IEEE/ACM Transactions on Audio, Speech, and Language Processing (2023).
Itxasne Díez, I. Saratxaga, Unai Salegi, E. Navas, I. Hernáez. Noisensedb: An Urban Sound Event Database To Develop Neural Classification Systems For Noise-Monitoring Applications. Applied Sciences (2023).
J. Abeßer, S. Grollmisch, Meinard Müller. How Robust Are Audio Embeddings For Polyphonic Sound Event Tagging?. IEEE/ACM Transactions on Audio, Speech, and Language Processing (2023).
J. Wilkins, Magdalena Fuentes, L. Bondi, Shabnam Ghaffarzadegan, A. Abavisani, J. Bello. Two Vs. Four-Channel Sound Event Localization And Detection. ArXiv (2023).
J. Zou, Jiahao Mei, Guangze Ye, Tianyu Huai, Qiwei Shen, Daoguo Dong. Emid: An Emotional Aligned Dataset In Audio-Visual Modality. MCGE@MM (2023).
Jaebong Lim, Yunju Baek. Joint Framework Of Curriculum Learning And Knowledge Distillation For Noise-Robust And Small-Footprint Keyword Spotting. IEEE Access (2023).
Jaesung Huh, Jacob Chalk, E. Kazakos, D. Damen, A. Zisserman. Epic-Sounds: A Large-Scale Dataset Of Actions That Sound. ArXiv (2023).
Jiaming Wang, Zhihao Du, Qian Chen, Yunfei Chu, Zhifu Gao, Zerui Li, Kai Hu, Xiaohuan Zhou, Jin Xu, Ziyang Ma, Wen Wang, Siqi Zheng, Chang Zhou, Zhijie Yan, Shiliang Zhang. Lauragpt: Listen, Attend, Understand, And Regenerate Audio With Gpt. ArXiv (2023).
Jiarui Hai, Helin Wang, Dongchao Yang, Karan Thakkar, N. Dehak, Mounya Elhilali. Dpm-Tse: A Diffusion Probabilistic Model For Target Sound Extraction. ICASSP 2024 - 2024 IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP) (2023).
Jiayi Huang, Zeyu Yan, Wenbin Jiang, Fei Wen. A Two-Stage Training Framework For Joint Speech Compression And Enhancement. ArXiv (2023).
Jiayi Huang, Zeyu Yan, Wenbin Jiang, He Wang, Fei Wen. A Neural Speech Codec For Noise Robust Speech Coding (2023).
Jinbo Hu, Yin Cao, Ming Wu, Feiran Yang, Ziying Yu, Wenwu Wang, M. Plumbley, J. Yang. Meta-Seld: Meta-Learning For Fast Adaptation To The New Environment In Sound Event Localization And Detection. ArXiv (2023).
Jinbo Hu, Yin Cao, Ming Wu, Qiuqiang Kong, Feiran Yang, M. Plumbley, Jun Yang. Selective-Memory Meta-Learning With Environment Representations For Sound Event Localization And Detection. ArXiv (2023).
Jinhua Liang, Xubo Liu, Haohe Liu, Huy Phan, Emmanouil Benetos, MarkD . Plumbley, Wenwu Wang. Adapting Language-Audio Models As Few-Shot Audio Learners. ArXiv (2023).
Jordi Pons, Xiaoyu Liu, Santiago Pascual, Joan Serra. Gass: Generalizing Audio Source Separation With Large-Scale Data. ICASSP 2024 - 2024 IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP) (2023).
Joseph Konan, Ojas Bhargave, Shikhar Agnihotri, Hojeong Lee, Ankit Shah, Shuo Han, YUNYANG ZENG, Amanda Shu, Haohui Liu, Xuankai Chang, Hamza Khalid, Minseon Gwak, Kawon Lee, Minjeong Kim, B. Raj. Improving Perceptual Quality, Intelligibility, And Acoustics On Voip Platforms. ArXiv (2023).
Junhong Shen, Liam Li, L. Dery, Corey Staten, M. Khodak, Graham Neubig, Ameet S. Talwalkar. Cross-Modal Fine-Tuning: Align Then Refine. ArXiv (2023).
Junhong Shen, Liam Li, L. Dery, Corey Staten, M. Khodak, Graham Neubig, Ameet Talwalkar. Cross-Modal Fine-Tuning: Align Then Refine. ArXiv (2023).
Junhyeok Lee, Hyeonuk Nam, Yong-Hwa Park. Vifs: An End-To-End Variational Inference For Foley Sound Synthesis (2023).
K. A. Noriy, Xiaosong Yang, Marcin Budka, Jian Jun Zhang. Clara: Multilingual Contrastive Learning For Audio Representation Acquisition. ArXiv (2023).
Kai-Wei Chang, Yu-Kai Wang, Hua Shen, Iu-thing Kang, W. Tseng, Shang-Wen Li, Hung-yi Lee. Speechprompt V2: Prompt Tuning For Speech Classification Tasks (2023).
Kamila Organiściak, J. Borkowski. Single-Ended Quality Measurement Of A Music Content Via Convolutional Recurrent Neural Networks. Metrology and Measurement Systems (2023).
Karen Gissell Rosero Jacome, Felipe Grijalva, B. Masiero. Sound Events Localization And Detection Using Bio-Inspired Gammatone Filters And Temporal Convolutional Neural Networks. IEEE/ACM Transactions on Audio, Speech, and Language Processing (2023).
Karen Rosero, Douglas Abreu, Felipe Grijalva, Bruno Masiero. Demystifying Spatial Audio Plugins: Comparative Insights Into Functionality And Features. 2023 IEEE Seventh Ecuador Technical Chapters Meeting (ECTM) (2023).
Kazuki Shimada, Kengo Uchida, Yuichiro Koyama, Takashi Shibuya, Shusuke Takahashi, Yuki Mitsufuji, Tatsuya Kawahara. Zero- And Few-Shot Sound Event Localization And Detection. ICASSP 2024 - 2024 IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP) (2023).
Keunwoo Choi, Jae-Yeol Im, L. Heller, Brian McFee, Keisuke Imoto, Yuki Okamoto, M. Lagrange, Shinosuke Takamichi. Foley Sound Synthesis At The Dcase 2023 Challenge. ArXiv (2023).
Keunwoo Choi, Jae-Yeol Im, L. Heller, Brian McFee, Keisuke Imoto, Yuki Okamoto, M. Lagrange, Shinosuke Takamichi. Foley Sound Synthesis At The Dcase 2023 Challenge. ArXiv (2023).
Ki In Tan, Seanglidet Yean, B. Lee. Attention-Based Sound Classification Pipeline With Sound Spectrum. 2023 IEEE Sensors Applications Symposium (SAS) (2023).
Krishna Teja Chitty-Venkata, M. Emani, V. Vishwanath, Arun Somani. Neural Architecture Search Benchmarks: Insights And Survey. IEEE Access (2023).
L. Pepino, P. Riera, Luciana Ferrer. Encodecmae: Leveraging Neural Codecs For Universal Audio Representation Learning. ArXiv (2023).
L. Turchet, Carlo Zanotto, J. Pauwels. “Give Me Happy Pop Songs In C Major And With A Fast Tempo”: A Vocal Assistant For Content-Based Queries To Online Music Repositories. International Journal of Human-Computer Studies (2023).
L. Turchet, M. Lagrange, C. Rottondi, György Fazekas, Nils Peters, J. Ostergaard, F. Font, T. Backstrom, C. Fischione. The Internet Of Sounds: Convergent Trends, Insights, And Future Directions. IEEE Internet of Things Journal (2023).
Lihua Xue, Hongqing Liu, Yi Zhou, Lu Gan. Resnet-Conformer Network Using Multi-Scale Channel Attention For Sound Event Localization And Detection In Real Scenes. 2023 International Conference on Wireless Communications and Signal Processing (WCSP) (2023).
Louis Blankemeier, Sebastien Baur, Wei-Hung Weng, Jake Garrison, Yossi Matias, Shruthi Prabhakara, Diego Ardila, Zaid Nabulsi. Optimizing Audio Augmentations For Contrastive Learning Of Health-Related Acoustic Signals. ArXiv (2023).
Louis Delebecque, Romain Serizel. Binaurec: A Dataset To Test The Influence Of The Use Of Room Impulse Responses On Binaural Speech Enhancement. 2023 31st European Signal Processing Conference (EUSIPCO) (2023).
Luciano S. Martinez-Rau, José O. Chelotti, M. Ferrero, J. Galli, S. Utsumi, A. Planisich, H. Rufiner, L. Giovanini. A Noise-Robust Acoustic Method For Recognizing Foraging Activities Of Grazing Cattle (2023).
Luciano S. Martínez Rau, José O. Chelotti, M. Ferrero, J. Galli, S. Utsumi, A. Planisich, H. Rufiner, L. Giovanini. A Noise-Robust Acoustic Method For Recognition Of Foraging Activities Of Grazing Cattle. ArXiv (2023).
M. Córdoba-Tlaxcalteco, E. Benítez-Guerrero. Human Event Recognition In Smart Classrooms Using Computer Vision: A Systematic Literature Review. Programming and computer software (2023).
Mahmoud Salhab, H. Harmanani. Araspot: Arabic Spoken Command Spotting. ArXiv (2023).
Marc-Antoine Maheux, A. Panchea, Philippe Warren, D. Létourneau, François Michaud. T-Top, An Open Source Tabletop Robot With Advanced Onboard Audio, Vision And Deep Learning Capabilities. 2023 IEEE/RSJ International Conference on Intelligent Robots and Systems (IROS) (2023).
Marc-Antoine Maheux, Guillaume Auclair, Philippe Warren, D. Létourneau, François Michaud. Attempting To Aggregate Perceptual Constructs From Deep Neural Networks For Video And Audio Interaction Representation. 2023 32nd IEEE International Conference on Robot and Human Interactive Communication (RO-MAN) (2023).
Marco Pasini, Stefan Lattner, George Fazekas. Self-Supervised Music Source Separation Using Vector-Quantized Source Category Estimates. ArXiv (2023).
Marek Kadlcík, Adam H'ajek, Jürgen Kieslich, Radoslaw Winiecki. A Whisper Transformer For Audio Captioning Trained With Synthetic Captions And Transfer Learning. ArXiv (2023).
Marvin Tammen, S. Doclo. Parameter Estimation Procedures For Deep Multi-Frame Mvdr Filtering For Single-Microphone Speech Enhancement. IEEE/ACM Transactions on Audio, Speech, and Language Processing (2023).
Mateo C'amara, Zhiyuan Xu, Yi-Chen Zong, Jos'e Luis Blanco, J. Reiss. Optimization Techniques For A Physical Model Of Human Vocalisation. ArXiv (2023).
Meelan Bandara, Roshinie Jayasundara, Isuru Ariyarathne, D. Meedeniya, Charith Perera. Forest Sound Classification Dataset: Fsc22. Sensors (2023).
Mengjie Zhao, Junya Ono, Zhi-Wei Zhong, Chieh-Hsin Lai, Yuhta Takida, Naoki Murata, Wei-Hsiang Liao, Takashi Shibuya, Hiromi Wakaki, Yuki Mitsufuji. On The Language Encoder Of Contrastive Cross-Modal Models. ACL (2023).
Mengwei Wang, Zhe Yang. Tfecn: Time-Frequency Enhanced Convnet For Audio Classification. INTERSPEECH 2023 (2023).
Michael Nigro, S. Krishnan. Sardbscene: Dataset And Resnet Baseline For Audio Scene Source Counting And Analysis. ICASSP 2023 - 2023 IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP) (2023).
Michele Esposito, G. Valente, Y. P. Calaña, M. Dumontier, Bruno L. Giordano, E. Formisano. Semantically-Informed Deep Neural Networks For Sound Recognition. ICASSP 2023 - 2023 IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP) (2023).
Mimoun Lamrini, M. Chkouri, A. Touhafi. Evaluating The Performance Of Pre-Trained Convolutional Neural Network For Audio Classification On Embedded Systems For Anomaly Detection In Smart Cities. Sensors (2023).
Moran Aharoni, Assaf Breska, Matthias M. Müller, E. Schröger. Mechanisms Of Sustained Perceptual Entrainment After Stimulus Offset. The European journal of neuroscience (2023).
Muhammad Mamunur Rashid, Guiqing Li, Chengrui Du. Nonspeech7K Dataset: Classification And Analysis Of Human Non‐Speech Sound. IET Signal Processing (2023).
N. Shashaank, Berker Banar, M. Izadi, J. Kemmerer, Shuo Zhang, Chuanzeng Huang. Hissnet: Sound Event Detection And Speaker Identification Via Hierarchical Prototypical Networks For Low-Resource Headphones. ICASSP 2023 - 2023 IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP) (2023).
Nan Che, Chenrui Liu, Fei Yu. Ags: An Dataset And Taxonomy For Domestic Scene Sound Event Recognition. ArXiv (2023).
Nikhil Singh, Chih-Wei Wu, Iroro Orife, M. Kalayeh. Looking Similar, Sounding Different: Leveraging Counterfactual Cross-Modal Pairs For Audiovisual Representation Learning. ArXiv (2023).
Orlem Lima dos Santos, Karen Rosero, R. Lotufo. W2V-Seld: A Sound Event Localization And Detection Framework For Self-Supervised Spatial Audio Pre-Training. ArXiv (2023).
Paul Primus, G. Widmer. On Frequency-Wise Normalizations For Better Recording Device Generalization In Audio Spectrogram Transformers. ArXiv (2023).
Pavan Seshadri, Chaeyeon Han, B. Koo, Noah Posner, S. Guhathakurta, Alexander Lerch. Asped: An Audio Dataset For Detecting Pedestrians. ICASSP 2024 - 2024 IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP) (2023).
Peng Wang, Shijie Wang, Junyang Lin, Shuai Bai, Xiaohuan Zhou, Jingren Zhou, Xinggang Wang, Chang Zhou. One-Peace: Exploring One General Representation Model Toward Unlimited Modalities. ArXiv (2023).
Peyman Goli, S. van de Par. Deep Learning-Based Speech Specific Source Localization By Using Binaural And Monaural Microphone Arrays In Hearing Aids. IEEE/ACM Transactions on Audio, Speech, and Language Processing (2023).
Prateek Verma. Diverse Audio Embeddings -- Bringing Features Back Outperforms Clap! (2023).
Prateek Verma. Diverse Neural Audio Embeddings - Bringing Features Back !. ArXiv (2023).
Prateek Verma, C. Chafe. A Content Adaptive Learnable Time-Frequency Representation For Audio Signal Processing. ICASSP 2023 - 2023 IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP) (2023).
Prateek Verma, C. Chafe. Content Adaptive Front End For Audio Classification (2023).
Prateek Verma, C. Chafe. Content Adaptive Front End For Audio Signal Processing (2023).
Qingchun Jiao, Xiaolong Wang, Lijun Wang, Huihui Bai. Audio Features Based Ads-Cnn Method For Flight Attitude Recognition Of Quadrotor Uav. Applied Acoustics (2023).
Qiu-shi Zhu, J. Zhang, Zitian Zhang, Lirong Dai. A Joint Speech Enhancement And Self-Supervised Representation Learning Framework For Noise-Robust Speech Recognition. IEEE/ACM Transactions on Audio, Speech, and Language Processing (2023).
Qiu-shi Zhu, Yunting Gu, Chao Weng, Yuchen Hu, Lirong Dai, J. Zhang. Rep2Wav: Noise Robust Text-To-Speech Using Self-Supervised Representations. ArXiv (2023).
Qiuqiang Kong, K. Chen, Haohe Liu, Xingjian Du, Taylor Berg-Kirkpatrick, S. Dubnov, MarkD . Plumbley. Universal Source Separation With Weakly Labelled Data. ArXiv (2023).
R. Serizel, Samuele Cornell, Nicolas Turpault. Performance Above All? Energy Consumption Vs. Performance, A Study On Sound Event Detection With Heterogeneous Data. ICASSP 2023 - 2023 IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP) (2023).
R. Serizel, Samuele Cornell, Nicolas Turpault. Performance Above All ? Energy Consumption Vs. Performance For Machine Listening, A Study On Dcase Task 4 Baseline (2023).
R. Viveros-Muñoz, P. Huijse, Victor Vargas, Diego Espejo, Víctor Poblete, Jorge P. Arenas, M. Vernier, Diego Vergara, Enrique Suárez. The Spass Dataset: A New Synthetic Polyphonic Dataset With Spatiotemporal Labels Of Sound Sources. Applied Acoustics (2023).
R. Viveros-Muñoz, P. Huijse, Victor Vargas, Diego Espejo, Víctor Poblete, Jorge P. Arenas, M. Vernier, Diego Vergara, Enrique Suárez. Dataset For Polyphonic Sound Event Detection Tasks In Urban Soundscapes: The Synthetic Polyphonic Ambient Sound Source (Spass) Dataset. Data in brief (2023).
Rajapantula Kranthi, Vasundhara. A Robust Adaptive Filter For Diffusion Strategy-Based Distributed Active Noise Control. IETE Journal of Research (2023).
Rajat Hebbar, Digbalay Bose, Krishna Somandepalli, Veena Vijai, Shrikanth S. Narayanan. A Dataset For Audio-Visual Sound Event Detection In Movies. ArXiv (2023).
Rajat Hebbar, Digbalay Bose, Shrikanth Narayanan. Sear: Semantically-Grounded Audio Representations. ACM Multimedia (2023).
Rishabh Garg, Ruohan Gao, K. Grauman. Visually-Guided Audio Spatialization In Video With Geometry-Aware Multi-Task Learning. International Journal of Computer Vision (2023).
Robin San Roman, Yossi Adi, Antoine Deleforge, R. Serizel, Gabriel Synnaeve, Alexandre D'efossez. From Discrete Tokens To High-Fidelity Audio Using Multi-Band Diffusion. NeurIPS (2023).
Rohit Girdhar, Alaaeldin El-Nouby, Zhuang Liu, Mannat Singh, Kalyan Vasudev Alwala, Armand Joulin, Ishan Misra. Imagebind: One Embedding Space To Bind Them All. ArXiv (2023).
Ruchika Chavhan, H. Gouk, Jan Stuehmer, Calum Heggan, Mehrdad Yaghoobi, Timothy M. Hospedales. Amortised Invariance Learning For Contrastive Self-Supervision. ICLR (2023).
Ruchika Chavhan, Henry G. R. Gouk, Jan Stuehmer, Calum Heggan, Mehrdad Yaghoobi, Timothy M. Hospedales. Amortised Invariance Learning For Contrastive Self-Supervision (2023).
S. Huang, Jianfeng Chen, Jisheng Bai, Yafei Jia, Dongzhe Zhang. Dynamic Kernel Convolution Network With Scene-Dedicate Training For Sound Event Localization And Detection (2023).
S. Latif, Moazzam Shoukat, Fahad Shamshad, M. Usama, Heriberto Cuay'ahuitl, Björn Schuller. Sparks Of Large Audio Models: A Survey And Outlook. ArXiv (2023).
S. Uhlich, Giorgio Fabbro, M. Hirano, Shusuke Takahashi, G. Wichern, Jonathan Le Roux, Dipam Chakraborty, S. Mohanty, Kai Li, Yi Luo, Jianwei Yu, Rongzhi Gu, R. Solovyev, A. Stempkovskiy, T. Habruseva, M. Sukhovei, Yuki Mitsufuji. The Sound Demixing Challenge 2023 - Cinematic Demixing Track. Trans. Int. Soc. Music. Inf. Retr. (2023).
S. Uhlich, Giorgio Fabbro, M. Hirano, Shusuke Takahashi, G. Wichern, Jonathan Le Roux, Dipam Chakraborty, S. Mohanty, Kai Li, Yi Luo, Jianwei Yu, Rongzhi Gu, R. Solovyev, A. Stempkovskiy, T. Habruseva, M. Sukhovei, Yuki Mitsufuji. The Sound Demixing Challenge 2023 - Cinematic Demixing Track. ArXiv (2023).
Saksham Singh Kushwaha, Magdalena Fuentes. A Multimodal Prototypical Approach For Unsupervised Sound Classification (2023).
Saksham Singh Kushwaha, Magdalena Fuentes. A Multimodal Prototypical Approach For Unsupervised Sound Classification. INTERSPEECH 2023 (2023).
Samuele Cornell, Matthew Wiesner, Shinji Watanabe, Desh Raj, Xuankai Chang, Paola García, Yoshiki Masuyama, Zhong-Qiu Wang, S. Squartini, S. Khudanpur. The Chime-7 Dasr Challenge: Distant Meeting Transcription With Multiple Devices In Diverse Scenarios. 7th International Workshop on Speech Processing in Everyday Environments (CHiME 2023) (2023).
Samuele Cornell, Matthew Wiesner, Shinji Watanabe, Desh Raj, Xuankai Chang, Paola García, Yoshiki Masuyama, Zhongqiu Wang, S. Squartini, S. Khudanpur. The Chime-7 Dasr Challenge: Distant Meeting Transcription With Multiple Devices In Diverse Scenarios. ArXiv (2023).
Sandeep Reddy Kothinti, Mounya Elhilali. Are Acoustics Enough? Semantic Effects On Auditory Salience In Natural Scenes. Frontiers in psychology (2023).
Sandipana Dowerah, R. Serizel, D. Jouvet, Mohammad MohammadAmini, D. Matrouf. Joint Optimization Of Diffusion Probabilistic-Based Multichannel Speech Enhancement With Far-Field Speaker Verification. 2022 IEEE Spoken Language Technology Workshop (SLT) (2023).
Sangshin Oh, Minsung Kang, Hyeongi Moon, Keunwoo Choi, Ben Sangbae Chon. A Demand-Driven Perspective On Generative Audio Ai. ArXiv (2023).
Sania Gul, Muhammad Salman Khan. A Survey Of Audio Enhancement Algorithms For Music, Speech, Bioacoustics, Biomedical, Industrial, And Environmental Sounds By Image U-Net. IEEE Access (2023).
Sarthak Yadav, S. Theodoridis, Lars Kai Hansen, Z. Tan. Masked Autoencoders With Multi-Window Local-Global Attention Are Better Audio Learners (2023).
Sarthak Yadav, S. Theodoridis, Lars Kai Hansen, Z. Tan. Masked Autoencoders With Multi-Window Attention Are Better Audio Learners (2023).
Seong-Gyun Leem, D. Fulford, J. Onnela, David E Gard, C. Busso. Computation And Memory Efficient Noise Adaptation Of Wav2Vec2.0 For Noisy Speech Emotion Recognition With Skip Connection Adapters (2023).
Shayan Gharib, Minh Tran, Diep Luong, K. Drossos, T. Virtanen. Adversarial Representation Learning For Robust Privacy Preservation In Audio. ArXiv (2023).
Shichao Wu, Yongru Wang, Zhengxi Hu, Jingtai Liu. Haac: Hierarchical Audio Augmentation Chain For Accdoa Described Sound Event Localization And Detection. Applied Acoustics (2023).
Shuai Tao, Himavanth Reddy, J. Jensen, M. G. Christensen. Frequency Bin-Wise Single Channel Speech Presence Probability Estimation Using Multiple Dnns. ArXiv (2023).
Shuai Tao, Yang Xiang, Himavanth Reddy, Jesper Rindom Jensen, M. G. Christensen. Single Channel Speech Presence Probability Estimation Based On Hybrid Global-Local Information. 2023 IEEE Workshop on Applications of Signal Processing to Audio and Acoustics (WASPAA) (2023).
Shubhr Singh, Christian J. Steinmetz, Emmanouil Benetos, Huy Phan, Dan Stowell. Atgnn: Audio Tagging Graph Neural Network. IEEE Signal Processing Letters (2023).
Siddhant Arora, Hayato Futami, Jee-weon Jung, Yifan Peng, Roshan S. Sharma, Yosuke Kashiwagi, E. Tsunoo, Karen Livescu, Shinji Watanabe. Universlu: Universal Spoken Language Understanding For Diverse Tasks With Natural Language Instructions (2023).
Siddhant Arora, Hayato Futami, Jee-weon Jung, Yifan Peng, Roshan S. Sharma, Yosuke Kashiwagi, E. Tsunoo, Shinji Watanabe. Universlu: Universal Spoken Language Understanding For Diverse Classification And Sequence Generation Tasks With A Single Network. ArXiv (2023).
Sihan Chen, Handong Li, Qunbo Wang, Zijia Zhao, Ming-Ting Sun, Xinxin Zhu, J. Liu. Vast: A Vision-Audio-Subtitle-Text Omni-Modality Foundation Model And Dataset. ArXiv (2023).
Sihan Chen, Handong Li, Qunbo Wang, Zijia Zhao, Ming-Ting Sun, Xinxin Zhu, J. Liu. Vast: A Vision-Audio-Subtitle-Text Omni-Modality Foundation Model And Dataset. NeurIPS (2023).
Soham Deshmukh, Benjamin Elizalde, Rita Singh, Huaming Wang. Pengi: An Audio Language Model For Audio Tasks. ArXiv (2023).
Sreyan Ghosh, Ashish Seth, Sonal Kumar, Utkarsh Tyagi, Chandra Kiran Reddy Evuru, S. Ramaneswaran, S. Sakshi, Oriol Nieto, R. Duraiswami, Dinesh Manocha. Compa: Addressing The Gap In Compositional Reasoning In Audio-Language Models. ArXiv (2023).
Sripathi Sridhar, Mark Cartwright. Multi-Label Open-Set Audio Classification. ArXiv (2023).
Sunghyun Kim, Yong-Hoon Choi. Wavebyol: Self-Supervised Learning For Audio Representation From Raw Waveforms. IEEE Access (2023).
Swapnil Bhosale, Rupayan Chakraborty, S. Kopparapu. A Novel Metric For Evaluating Audio Caption Similarity. ICASSP 2023 - 2023 IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP) (2023).
T. K. Chan, C. Chin. Lightweight Convolutional-Iconformer For Sound Event Detection. IEEE Transactions on Artificial Intelligence (2023).
Tadas Turskis, Marius Teleisa, Ruta Buckiunaite, Dalia Calneryte. Mixed-Type Data Augmentations For Environmental Sound Classification. IVUS (2023).
Tanmay Khandelwal, Rohan Kumar Das. A Multi-Task Learning Framework For Sound Event Detection Using High-Level Acoustic Characteristics Of Sounds (2023).
Tareq Khan. Towards An Indoor Gunshot Detection And Notification System Using Deep Learning. Applied System Innovation (2023).
Tongyang Dao, Min Guo, M. Ma. Sound Event Localization And Detection Using A Spatial Omni-Dimensional Dynamic Interactions Network. Signal, Image and Video Processing (2023).
Vasudha Kowtha, Miquel Espi Marques, Jonathan Huang, Yichi Zhang, C. Avendaño. Learning To Detect Novel And Fine-Grained Acoustic Sequences Using Pretrained Audio Representations. ICASSP 2023 - 2023 IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP) (2023).
Versão Corrigida. Heitor Rodrigues Guimarães On Self-Supervised Representations For 3 D Speech Enhancement (2023).
Vu Linh Le, Daewoo Kim, Eunsung Cho, Hyeryung Jang, Roben Delos Reyes, Hyunggug Kim, Dongheon Lee, I. Yoon, Joonki Hong, J. Kim. Real-Time Detection Of Sleep Apnea Based On Breathing Sounds And Prediction Reinforcement Using Home Noises: Algorithm Development And Validation.. Journal of medical Internet research (2023).
Wataru Kawabe, Yuri Nakao, Akihisa Shitara, Yusuke Sugano. Technical Understanding From Iml Hands-On Experience: A Study Through A Public Event For Science Museum Visitors. ArXiv (2023).
Wei-xin Xie, Yanxiong Li, Qianhua He, Wenchang Cao. Few-Shot Class-Incremental Audio Classification Via Discriminative Prototype Learning. Expert Systems with Applications (2023).
Weiming Huang, Qinghua Huang, Liyan Ma, Chuan Wang. Swg-Former: A Sliding-Window Graph Convolutional Network For Simultaneous Spatial-Temporal Information Extraction In Sound Event Localization And Detection (2023).
William Aris, Franccois Grondin. Efficient Face Detection With Audio-Based Region Proposals. ArXiv (2023).
Xian Li, Nian Shao, Xiaofei Li. Self-Supervised Audio Teacher-Student Transformer For Both Clip-Level And Frame-Level Tasks. ArXiv (2023).
Xiao-Yuan Guo, Chun-Xian Gao, Hui Liu. Voice Activity Detection In The Presence Of Transient Based On Graph. EURASIP Journal on Audio, Speech, and Music Processing (2023).
Xilin Jiang, Cong Han, Y. Li, N. Mesgarani. Exploring Self-Supervised Contrastive Learning Of Spatial Sound Event Representation. ICASSP 2024 - 2024 IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP) (2023).
Xinhao Mei, Chutong Meng, Haohe Liu, Qiuqiang Kong, Tom Ko, Chengqi Zhao, MarkD . Plumbley, Yuexian Zou, Wenwu Wang. Wavcaps: A Chatgpt-Assisted Weakly-Labelled Audio Captioning Dataset For Audio-Language Multimodal Research. ArXiv (2023).
Xiyuxing Zhang, Yuntao Wang, Jingru Zhang, Yaqing Yang, Shwetak N. Patel, Yuanchun Shi. Earcough: Enabling Continuous Subject Cough Event Detection On Hearables. CHI Extended Abstracts (2023).
Xubo Liu, Qiuqiang Kong, Yan Zhao, Haohe Liu, Yiitan Yuan, Yuzhuo Liu, Rui Xia, Yuxuan Wang, Mark D. Plumbley, Wenwu Wang. Separate Anything You Describe. IEEE Transactions on Audio, Speech and Language Processing (2023).
Xubo Liu, Zhongkai Zhu, Haohe Liu, Yiitan Yuan, Meng Cui, Qiushi Huang, Jinhua Liang, Yin Cao, Qiuqiang Kong, M. Plumbley, Wenwu Wang. Wavjourney: Compositional Audio Creation With Large Language Models. ArXiv (2023).
Xuenan Xu, Zhiling Zhang, Zelin Zhou, Pingyue Zhang, Zeyu Xie, Mengyue Wu, Ke Zhu. Blat: Bootstrapping Language-Audio Pre-Training Based On Audioset Tag-Guided Synthetic Data. ACM Multimedia (2023).
Y. Shin, Yong Guk Kim, Chang-Ho Choi, Dae-Joong Kim, Chanjun Chun. Seld U-Net: Joint Optimization Of Sound Event Localization And Detection With Noise Reduction. IEEE Access (2023).
Yang Zhao, Zhijie Lin, Daquan Zhou, Zilong Huang, Jiashi Feng, Bingyi Kang. Bubogpt: Enabling Visual Grounding In Multi-Modal Llms (2023).
Yangyang Shi, Gaël Le Lan, Varun K. Nagaraja, Zhaoheng Ni, Xinhao Mei, Ernie Chang, Forrest N. Iandola, Yang Liu, Vikas Chandra. Enhance Audio Generation Controllability Through Representation Similarity Regularization. ArXiv (2023).
Yoon-Ah Park, Joon-Hyuk Chang. Audio Captioning Using Semantic Alignment Enhancer. 2023 8th IEEE International Conference on Network Intelligence and Digital Content (IC-NIDC) (2023).
Yoto Fujita, Yoshiaki Bando, Keisuke Imoto, Masaki Onishi, Kazuyoshi Yoshii. Doa-Aware Audio-Visual Self-Supervised Learning For Sound Event Localization And Detection. 2023 Asia Pacific Signal and Information Processing Association Annual Summit and Conference (APSIPA ASC) (2023).
Youngjun Heo, Sunggu Lee. Supervised Contrastive Learning For Voice Activity Detection. Electronics (2023).
Yuan Gong, Alexander H. Liu, Hongyin Luo, Leonid Karlinsky, James R. Glass. Joint Audio And Speech Understanding. 2023 IEEE Automatic Speech Recognition and Understanding Workshop (ASRU) (2023).
Yuan Gong, Hongyin Luo, Alexander H. Liu, Leonid Karlinsky, James Glass. Listen, Think, And Understand. ArXiv (2023).
Yuan Gong, Hongyin Luo, Alexander H. Liu, Leonid Karlinsky, James Glass. Listen, Think, And Understand. ArXiv (2023).
Yuancheng Wang, Zeqian Ju, Xuejiao Tan, Lei He, Zhizheng Wu, Jiang Bian, Sheng Zhao. Audit: Audio Editing By Following Instructions With Latent Diffusion Models. ArXiv (2023).
Yuhang He, A. Markham. Soundsynp: Sound Source Detection From Raw Waveforms With Multi-Scale Synperiodic Filterbanks. AISTATS (2023).
Yuki Okamoto, Keisuke Imoto, Shinnosuke Takamichi, Ryotaro Nagase, Takahiro Fukumori, Y. Yamashita. Environmental Sound Synthesis From Vocal Imitations And Sound Event Labels. ICASSP 2024 - 2024 IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP) (2023).
Yuki Okamoto, Keisuke Imoto, Shinnosuke Takamichi, Ryotaro Nagase, Takahiro Fukumori, Y. Yamashita. Environmental Sound Conversion From Vocal Imitations And Sound Event Labels. ArXiv (2023).
Yunhao Chen, Yunjie Zhu, Zihui Yan, Jian Shen, Zhen Ren, Yifan Huang. Data Augmentation For Environmental Sound Classification Using Diffusion Probabilistic Model With Top-K Selection Discriminator. ArXiv (2023).
Yusun Shul, Byeongil Ko, Jung-Woo Choi. Divided Spectro-Temporal Attention For Sound Event Localization And Detection In Real Scenes For Dcase2023 Challenge (2023).
Yusun Shul, Jung-Woo Choi. Cst-Former: Transformer With Channel-Spectro-Temporal Attention For Sound Event Localization And Detection. ICASSP 2024 - 2024 IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP) (2023).
Zexu Pan, G. Wichern, Yoshiki Masuyama, François G. Germain, Sameer Khurana, Chiori Hori, Jonathan Le Roux. Scenario-Aware Audio-Visual Tf-Gridnet For Target Speech Extraction. 2023 IEEE Automatic Speech Recognition and Understanding Workshop (ASRU) (2023).
Zhaohui Li, Haitao Wang, Xinghua Jiang. Audioformer: Audio Transformer Learns Audio Feature Representations From Discrete Acoustic Codes. ArXiv (2023).
Zhenze Xie, Xinquan Liang, Canale Roberto. Learning-Based Robotic Grasping: A Review. Frontiers in Robotics and AI (2023).
Zhepei Wang, Cem Subakan, K. Subramani, Junkai Wu, T. Tavares, Fabio Ayres, P. Smaragdis. Unsupervised Improvement Of Audio-Text Cross-Modal Representations. ArXiv (2023).
Zhepei Wang, Cem Subakan, K. Subramani, Junkai Wu, T. Tavares, Fabio Ayres, Paris Smaragdis. Unsupervised Improvement Of Audio-Text Cross-Modal Representations. 2023 IEEE Workshop on Applications of Signal Processing to Audio and Acoustics (WASPAA) (2023).
Zhongqi Miao, Benjamin Elizalde, Soham Deshmukh, Justin Kitzes, Huaming Wang, R. Dodhia, J. Ferres. Zero-Shot Transfer For Wildlife Bioacoustics Detection (2023).
Zhongqiu Wang, Samuele Cornell, Shukjae Choi, Younglo Lee, Byeonghak Kim, Shinji Watanabe. Neural Speech Enhancement With Very Low Algorithmic Latency And Complexity Via Integrated Full- And Sub-Band Modeling. ICASSP 2023 - 2023 IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP) (2023).
Zhongxin Bai, Chao Pan, Gong Chen, Jingdong Chen, J. Benesty. A Weighted Binary Cross-Entropy For Sound Event Representation Learning And Few-Shot Classification. 2023 Asia Pacific Signal and Information Processing Association Annual Summit and Conference (APSIPA ASC) (2023).
Zihan Zhang, Jiayao Sun, Xianjun Xia, Ziqian Wang, Xiaopeng Yan, Yijian Xiao, Lei Xie. An Exploration Of Task-Decoupling On Two-Stage Neural Post Filter For Real-Time Personalized Acoustic Echo Cancellation. 2023 IEEE Automatic Speech Recognition and Understanding Workshop (ASRU) (2023).
Zirun Zhu, Hemin Yang, M. Tang, Ziyi Yang, S. Eskimez, Huaming Wang. Real-Time Audio-Visual End-To-End Speech Enhancement. ICASSP 2023 - 2023 IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP) (2023).

2022 (194)

A. Laptev, Boris Ginsburg. Fast Entropy-Based Methods Of Word-Level Confidence Estimation For End-To-End Automatic Speech Recognition. 2022 IEEE Spoken Language Technology Workshop (SLT) (2022).
A. Madhu, S. K.. Envgan: A Gan-Based Augmentation To Improve Environmental Sound Classification. Artificial Intelligence Review (2022).
A. Politis, Kazuki Shimada, Parthasaarathy Sudarsanam, Sharath Adavanne, Daniel Krause, Yuichiro Koyama, Naoya Takahashi, Shusuke Takahashi, Yuki Mitsufuji, T. Virtanen. Starss22: A Dataset Of Spatial Recordings Of Real Scenes With Spatiotemporal Annotations Of Sound Events. ArXiv (2022).
A. Politis, Kazuki Shimada, Parthasaarathy Sudarsanam, Sharath Adavanne, Daniel Krause, Yuichiro Koyama, Naoya Takahashi, Shusuke Takahashi, Yuki Mitsufuji, T. Virtanen. Starss22: A Dataset Of Spatial Recordings Of Real Scenes With Spatiotemporal Annotations Of Sound Events. ArXiv (2022).
A. Pompili, Tiago Luís, Nuno Monteiro, João Miranda, Carlos Mendes, S. Paulo. On The Detection Of Acoustic Events For Public Security: The Challenges Of The Counter-Terrorism Domain. IberSPEECH 2022 (2022).
Ahmed Omran, Neil Zeghidour, Zalán Borsos, F. D. C. Quitry, M. Slaney, M. Tagliasacchi. Disentangling Speech From Surroundings In A Neural Audio Codec. ArXiv (2022).
Ahmed Omran, Neil Zeghidour, Zalán Borsos, Félix de Chaumont Quitry, M. Slaney, M. Tagliasacchi. Disentangling Speech From Surroundings With Neural Embeddings. ICASSP 2023 - 2023 IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP) (2022).
Alexander Alexander Ponomarchuk Ponomarchuk, Ilya Ilya Burenko Burenko, Elian Elian Malkin Malkin, Ivan Ivan Nazarov Nazarov, Vladimir Vladimir Kokh Kokh, Manvel Manvel Avetisian Avetisian, Leonid Leonid Zhukov Zhukov. Project Achoo: A Practical Model And Application For Covid-19 Detection From Recordings Of Breath, Voice, And Cough. Ieee Journal of Selected Topics in Signal Processing (2022).
Alexandre D'efossez, Jade Copet, Gabriel Synnaeve, Yossi Adi. High Fidelity Neural Audio Compression. ArXiv (2022).
Alison B. Ma, Alexander Lerch. Representation Learning For The Automatic Indexing Of Sound Effects Libraries (2022).
Ammar Ahmed, Y. Serrestou, K. Raoof, J. Diouris. Empirical Mode Decomposition-Based Feature Extraction For Environmental Sound Classification. Sensors (2022).
Ana Elisa Méndez Méndez, M. Cartwright, J. Bello, O. Nov. Eliciting Confidence For Improving Crowdsourced Audio Annotations. Proceedings of the ACM on Human-Computer Interaction (2022).
Ana Filipa Rodrigues Nogueira, Hugo S. Oliveira, J. Machado, J. M. R. Tavares. Sound Classification And Processing Of Urban Environments: A Systematic Literature Review. Sensors (2022).
Anam Bansal, N. Garg. Environmental Sound Classification: A Descriptive Review Of The Literature. Intelligent Systems with Applications (2022).
Andong Li, Guochen Yu, C. Zheng, Wenzhe Liu, Xiaodong Li. A General Unfolding Speech Enhancement Method Motivated By Taylor'S Theorem (2022).
Anna Xambó, Visda Goudarzi. The Mobile Audience As A Digital Musical Persona In Telematic Performance. NIME (2022).
Arsha Nagrani, P. H. Seo, Bryan Seybold, Anja Hauth, Santiago Manén, Chen Sun, C. Schmid. Learning Audio-Video Modalities From Image Captions. ArXiv (2022).
Ashish Seth, Sreyan Ghosh, S. Umesh, Dinesh Manocha. Slicer: Learning Universal Audio Representations Using Low-Resource Self-Supervised Pre-Training. ArXiv (2022).
Ashish Seth, Sreyan Ghosh, S. Umesh, Dinesh Manocha. Slicer: Learning Universal Audio Representations Using Low-Resource Self-Supervised Pre-Training. ICASSP 2023 - 2023 IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP) (2022).
B. Weck, Miguel P'erez Fern'andez, Holger Kirchhoff, Xavier Serra. Matching Text And Audio Embeddings: Exploring Transfer-Learning Strategies For Language-Based Audio Retrieval. DCASE (2022).
Benjamin Elizalde, Soham Deshmukh, Mahmoud Al Ismail, Huaming Wang. Clap: Learning Audio Concepts From Natural Language Supervision. ArXiv (2022).
Byeongil Ko, Hyeonuk Nam, Seong-Hu Kim, Deokki Min, Seung-Deok Choi, Yong-Hwa Park. Data Augmentation And Squeeze-And-Excitation Network On Multiple Dimension For Sound Event Localization And Detection In Real Scenes (2022).
Calum Heggan, S. Budgett, Timothy M. Hospedales, Mehrdad Yaghoobi. Metaaudio: A Few-Shot Audio Classification Benchmark. ICANN (2022).
Calum Heggan, S. Budgett, Timothy M. Hospedales, Mehrdad Yaghoobi. Metaaudio: A Few-Shot Audio Classification Benchmark. ArXiv (2022).
Carlo Aironi, Samuele Cornell, E. Principi, S. Squartini. Graph Node Embeddings For Ontology-Aware Sound Event Classification: An Evaluation Study. 2022 30th European Signal Processing Conference (EUSIPCO) (2022).
Carlotta Anemuller, O. Thiergart, Emanuël Habets. A Data-Driven Approach To Audio Decorrelation. IEEE Signal Processing Letters (2022).
Chi-Chang Lee, Cheng-Hung Hu, Yu-Chen Lin, Chu-Song Chen, Hsin-Min Wang, Yu Tsao. Nastar: Noise Adaptive Speech Enhancement With Target-Conditional Resampling. ArXiv (2022).
D. Jain, Khoa Nguyen, Steven M. Goodman, Rachel Grossman-Kahn, Hung Ngo, Aditya Kusupati, Ruofei Du, A. Olwal, Leah Findlater, Jon E. Froehlich. Protosound: A Personalized And Scalable Sound Recognition System For Deaf And Hard-Of-Hearing Users. CHI (2022).
Daiki Takeuchi, Yasunori Ohishi, Daisuke Niizumi, N. Harada, K. Kashino. Introducing Auxiliary Text Query-Modifier To Content-Based Audio Retrieval. ArXiv (2022).
Daisuke Niizumi, Daiki Takeuchi, Yasunori Ohishi, N. Harada, K. Kashino. Masked Spectrogram Modeling Using Masked Autoencoders For Learning General-Purpose Audio Representation. ArXiv (2022).
Daisuke Niizumi, Daiki Takeuchi, Yasunori Ohishi, N. Harada, K. Kashino. Byol For Audio: Exploring Pre-Trained General-Purpose Audio Representations. ArXiv (2022).
Daisuke Niizumi, Daiki Takeuchi, Yasunori Ohishi, N. Harada, K. Kashino. Masked Spectrogram Modeling Using Masked Autoencoders For Learning General-Purpose Audio Representation. ArXiv (2022).
Daniel Lin. Contrastive Feature Learning For Audio Classification (2022).
Darius Petermann, G. Wichern, A. Subramanian, Zhong-Qiu Wang, Jonathan Le Roux. Tackling The Cocktail Fork Problem For Separation And Transcription Of Real-World Soundtracks. ArXiv (2022).
David Schindler, S. Spors, Burcu Demiray, Frank Krüger. Automatic Behavior Assessment From Uncontrolled Everyday Audio Recordings By Deep Learning. Sensors (2022).
Dianwen Ng, J. Yip, Tanmay Surana, Zhao Yang, Chong Zhang, Yukun Ma, Chongjia Ni, Chng Eng Siong, B. Ma. I2Cr: Improving Noise Robustness On Keyword Spotting Using Inter-Intra Contrastive Regularization. 2022 Asia-Pacific Signal and Information Processing Association Annual Summit and Conference (APSIPA ASC) (2022).
Dianwen Ng, Jia Qi Yip, Tanmay Surana, Zhao Yang, Chong Zhang, Yukun Ma, Chongjia Ni, Chng Eng Siong, B. Ma. I2Cr: Improving Noise Robustness On Keyword Spotting Using Inter-Intra Contrastive Regularization. 2022 Asia-Pacific Signal and Information Processing Association Annual Summit and Conference (APSIPA ASC) (2022).
Diego de Benito-Gorrón, Kateřina Žmolíková, D. Toledano. Source Separation For Sound Event Detection In Domestic Environments Using Jointly Trained Models. 2022 International Workshop on Acoustic Signal Enhancement (IWAENC) (2022).
E. Guizzo, C. Marinoni, Marco Pennese, Xinlei Ren, Xiguang Zheng, Chen Zhang, B. Masiero, A. Uncini, D. Comminiello. L3Das22 Challenge: Learning 3D Audio Sources In A Real Office Environment (2022).
E. Guizzo, C. Marinoni, Marco Pennese, Xinlei Ren, Xiguang Zheng, Chen Zhang, B. Masiero, A. Uncini, D. Comminiello. L3Das22 Challenge: Learning 3D Audio Sources In A Real Office Environment. ICASSP 2022 - 2022 IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP) (2022).
Efthymios Tzinis, G. Wichern, P. Smaragdis, Jonathan Le Roux. Optimal Condition Training For Target Source Separation. ArXiv (2022).
Efthymios Tzinis, Yossi Adi, V. Ithapu, Buye Xu, P. Smaragdis, Anurag Kumar. Remixit: Continual Self-Training Of Speech Enhancement Models Via Bootstrapped Remixing (2022).
Efthymios Tzinis, Yossi Adi, V. Ithapu, Buye Xu, P. Smaragdis, Anurag Kumar. Remixit: Continual Self-Training Of Speech Enhancement Models Via Bootstrapped Remixing. IEEE Journal of Selected Topics in Signal Processing (2022).
Eleonora Grassucci, Gioia Mancini, Christian Brignone, A. Uncini, D. Comminiello. Dual Quaternion Ambisonics Array For Six-Degree-Of-Freedom Acoustic Representation. ArXiv (2022).
Emilian Postolache, Jordi Pons, Santiago Pascual, J. Serrà. Adversarial Permutation Invariant Training For Universal Sound Separation. ICASSP 2023 - 2023 IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP) (2022).
Emilian Postolache, Jordi Pons, Santiago Pascual, Joan Serra. Adversarial Permutation Invariant Training For Universal Sound Separation. ArXiv (2022).
Enric Gus'o, Jordi Pons, Santiago Pascual, J. Serrà. On Loss Functions And Evaluation Metrics For Music Source Separation (2022).
Felix Kreuk, Gabriel Synnaeve, A. Polyak, Uriel Singer, Alexandre D'efossez, Jade Copet, Devi Parikh, Yaniv Taigman, Yossi Adi. Audiogen: Textually Guided Audio Generation. ICLR (2022).
Felix Kreuk, Gabriel Synnaeve, A. Polyak, Uriel Singer, Alexandre D'efossez, Jade Copet, Devi Parikh, Yaniv Taigman, Yossi Adi. Audiogen: Textually Guided Audio Generation. ArXiv (2022).
Femke Vanden Bempt, M. Economou, Ward Dehairs, Maaike Vandermosten, J. Wouters, P. Ghesquière, J. Vanderauwera. Feasibility, Enjoyment, And Language Comprehension Impact Of A Tablet- And Gameflow-Based Story-Listening Game For Kindergarteners: Methodological And Mixed Methods Study. JMIR serious games (2022).
Francesca Incitti, Federico Urli, L. Snidaro. Beyond Word Embeddings: A Survey. Information Fusion (2022).
Francesca Ronchini, R. Serizel. A Benchmark Of State-Of-The-Art Sound Event Detection Systems Evaluated On Synthetic Soundscapes. ArXiv (2022).
Francesca Ronchini, Samuele Cornell, R. Serizel, Nicolas Turpault, Eduardo Fonseca, D. Ellis. Description And Analysis Of Novelties Introduced In Dcase Task 4 2022 On The Baseline System. DCASE (2022).
Gasser Elbanna, Neil Scheidwasser-Clow, M. Kegler, P. Beckmann, Karl El Hajal, M. Cernak. Byol-S: Learning Self-Supervised Speech Representations By Bootstrapping. ArXiv (2022).
Gasser Elbanna, Neil Scheidwasser-Clow, M. Kegler, P. Beckmann, Karl El Hajal, M. Cernak. Byol-S: Learning Self-Supervised Speech Representations By Bootstrapping (2022).
Gasser Elbanna, Neil Scheidwasser-Clow, M. Kegler, P. Beckmann, Karl El Hajal, M. Cernak. Byol-S: Learning Self-Supervised Speech Representations By Bootstrapping. ArXiv (2022).
Gonçalo Bernardo, Gilberto Bernardes. Leveraging Compatibility And Diversity In Computer-Aided Music Mashup Creation. Personal and Ubiquitous Computing (2022).
Grant Van Horn, Rui Qian, Kimberly Wilber, Hartwig Adam, Oisin Mac Aodha, S. Belongie. Exploring Fine-Grained Audiovisual Categorization With The Ssw60 Dataset. ArXiv (2022).
H. Jleed, M. Bouchard. Incremental Multiclass Open-Set Audio Recognition. International Journal of Advances in Intelligent Informatics (2022).
H. Taherian, S. Eskimez, Takuya Yoshioka. Breaking The Trade-Off In Personalized Speech Enhancement With Cross-Task Knowledge Distillation. ArXiv (2022).
Han Liu, H. Liu. When Evil Calls: Targeted Adversarial Voice Over Ip Network (2022).
Han Liu, Zhiyuan Yu, Mingming Zha, Xiaofeng Wang, W. Yeoh, Yevgeniy Vorobeychik, Ning Zhang. When Evil Calls: Targeted Adversarial Voice Over Ip Network. CCS (2022).
Haohe Liu, Qiuqiang Kong, Xubo Liu, Xinhao Mei, Wenwu Wang, MarkD . Plumbley. Ontology-Aware Learning And Evaluation For Audio Tagging. ArXiv (2022).
Haohe Liu, Xubo Liu, Qiuqiang Kong, Wenwu Wang, M. Plumbley. Learning Temporal Resolution In Spectrogram For Audio Classification. AAAI (2022).
Haohe Liu, Xubo Liu, Qiuqiang Kong, Wenwu Wang, Mark D. Plumbley. Learning The Spectrogram Temporal Resolution For Audio Classification. ArXiv (2022).
Haohe Liu, Xubo Liu, Qiuqiang Kong, Wenwu Wang, MarkD . Plumbley. Learning The Spectrogram Temporal Resolution For Audio Classification. ArXiv (2022).
Heinrich Dinkel, Yongqing Wang, Zhiyong Yan, Junbo Zhang, Yujun Wang. Unikw-At: Unified Keyword Spotting And Audio Tagging. INTERSPEECH (2022).
Heinrich Dinkel, Zhiyong Yan, Yongqing Wang, Junbo Zhang, Yujun Wang. An Empirical Study Of Weakly Supervised Audio Tagging Embeddings For General Audio Representations. Odyssey (2022).
Heinrich Dinkel, Zhiyong Yan, Yongqing Wang, Junbo Zhang, Yujun Wang. Pseudo Strong Labels For Large Scale Weakly Supervised Audio Tagging. ICASSP (2022).
Helin Wang, Dongchao Yang, Chao Weng, Jia-yi Yu, Yuexian Zou. Improving Target Sound Extraction With Timestamp Information. ArXiv (2022).
Hira Dhamyal, Benjamin Elizalde, Soham Deshmukh, Huaming Wang, B. Raj, Rita Singh. Describing Emotions With Acoustic Property Prompts For Speech Emotion Recognition. ArXiv (2022).
Hoang-Thi Nguyen-Vo, Huy Nguycn-Gia, Hoan-Duy Nguyen-Tran, Hoang Pham-Minh, Hung Vo-Thanh, Hao Do-Due. Marblenet: A Deep Neural Network Solution For Vietnamese Voice Activity Detection. 2022 9th NAFOSTED Conference on Information and Computer Science (NICS) (2022).
Huang Xie, O. Räsänen, T. Virtanen. On Negative Sampling For Contrastive Audio-Text Retrieval. ArXiv (2022).
Huang Xie, Samuel Lipping, T. Virtanen. Dcase 2022 Challenge Task 6B: Language-Based Audio Retrieval (2022).
Huang Xie, Samuel Lipping, T. Virtanen. Language-Based Audio Retrieval Task In Dcase 2022 Challenge. DCASE (2022).
Huang Xie, Samuel Lipping, T. Virtanen. Dcase 2022 Challenge Task 6B: Language-Based Audio Retrieval Technical (2022).
Hyungchan Song, Sanyuan Chen, Zhuo Chen, Yu Wu, Takuya Yoshioka, M. Tang, Jong Won Shin, Shujie Liu. Exploring Wavlm On Speech Enhancement. 2022 IEEE Spoken Language Technology Workshop (SLT) (2022).
Il-Young Jeong, Jeongsoon Park. Cochlscene: Acquisition Of Acoustic Scene Data Using Crowdsourcing. 2022 Asia-Pacific Signal and Information Processing Association Annual Summit and Conference (APSIPA ASC) (2022).
J. Rulff, Fábio Miranda, Maryam Hosseini, Marcos Lage, M. Cartwright, Graham Dove, J. Bello, Cláudio T. Silva. Urban Rhapsody: Large-Scale Exploration Of Urban Soundscapes. ArXiv (2022).
J. Rulff, Fábio Miranda, Maryam Hosseini, Marcos Lage, M. Cartwright, Graham Dove, J. Bello, Cláudio T. Silva. Urban Rhapsody: Large‐Scale Exploration Of Urban Soundscapes. Computer graphics forum (Print) (2022).
J. Rulff, Fábio Miranda, Maryam Hosseini, Marcos Lage, M. Cartwright, Graham Dove, J. Bello, Cláudio T. Silva. Urban Rhapsody: Large‐Scale Exploration Of Urban Soundscapes. Comput. Graph. Forum (2022).
Janek Ebbers, R. Serizel, Reinhold Haeb-Umbach. Threshold Independent Evaluation Of Sound Event Detection Scores. ArXiv (2022).
Jinbo Hu, Yin Cao, Ming Wu, Qiuqiang Kong, Feiran Yang, MarkD . Plumbley, J. Yang. Sound Event Localization And Detection For Real Spatial Sound Scenes: Event-Independent Network And Data Augmentation Chains. DCASE (2022).
Jingdong Li, Yuanyuan Zhu, Dawei Luo, Yun Liu, Guohui Cui, Zhaoxia Li. The Pcg-Aiid System For L3Das22 Challenge: Mimo And Miso Convolutional Recurrent Network For Multi Channel Speech Enhancement And Speech Recognition (2022).
Jinhua Liang, Huy Phan, Emmanouil Benetos. Learning From Taxonomy: Multi-Label Few-Shot Classification For Everyday Sound Recognition. ArXiv (2022).
Jinhua Liang, Huy Phan, Emmanouil Benetos. Leveraging Label Hierachies For Few-Shot Everyday Sound Recognition. DCASE (2022).
Johann Kay Ann Tan, Y. Hasegawa, S. Lau. A Comprehensive Environmental Sound Categorization Scheme Of An Urban City. Applied Acoustics (2022).
Jonathan Svirsky, O. Lindenbaum. Sg-Vad: Stochastic Gates Based Speech Activity Detection. ArXiv (2022).
Joseph P. Turian, Jordie Shier, H. Khan, B. Raj, Björn Schuller, C. Steinmetz, C. Malloy, G. Tzanetakis, Gissel Velarde, K. McNally, Max Henry, Nicolas Pinto, Camille Noufi, Christian Clough, Dorien Herremans, Eduardo Fonseca, Jesse Engel, J. Salamon, P. Esling, Pranay Manocha, Shinji Watanabe, Zeyu Jin, Yonatan Bisk. Hear: Holistic Evaluation Of Audio Representations (2022).
Joseph P. Turian, Jordie Shier, H. Khan, B. Raj, Björn Schuller, C. Steinmetz, C. Malloy, G. Tzanetakis, Gissel Velarde, K. McNally, Max Henry, Nicolas Pinto, Camille Noufi, Christian Clough, Dorien Herremans, Eduardo Fonseca, Jesse Engel, J. Salamon, P. Esling, Pranay Manocha, Shinji Watanabe, Zeyu Jin, Yonatan Bisk. Hear 2021: Holistic Evaluation Of Audio Representations. ArXiv (2022).
Joseph P. Turian, Jordie Shier, H. Khan, B. Raj, Björn Schuller, C. Steinmetz, C. Malloy, G. Tzanetakis, Gissel Velarde, K. McNally, Max Henry, Nicolas Pinto, Camille Noufi, Christian Clough, Dorien Herremans, Eduardo Fonseca, Jesse Engel, J. Salamon, P. Esling, Pranay Manocha, Shinji Watanabe, Zeyu Jin, Yonatan Bisk. Hear 2021: Holistic Evaluation Of Audio Representations. ArXiv (2022).
Ju-ho Kim, Ju-Sung Heo, Hyun-seo Shin, Chanmann Lim, Ha-jin Yu. Integrated Parameter-Efficient Tuning For General-Purpose Audio Models. ArXiv (2022).
Julia Berezutskaya, L. Ambrogioni, N. Ramsey, M. Gerven. Towards Naturalistic Speech Decoding From Intracranial Brain Data. 2022 44th Annual International Conference of the IEEE Engineering in Medicine & Biology Society (EMBC) (2022).
Jun Shen, M. Khodak, Ameet S. Talwalkar. Efficient Architecture Search For Diverse Tasks. ArXiv (2022).
Jun Shen, M. Khodak, Ameet S. Talwalkar. Efficient Architecture Search For Diverse Tasks. ArXiv (2022).
Karn Nichakarn Watcharasupat, Kenneth Ooi, Bhan Lam, Trevor Wong, Zhen-Ting Ong, W. Gan. Autonomous In-Situ Soundscape Augmentation Via Joint Selection Of Masker And Gain. ArXiv (2022).
Karn Nichakarn Watcharasupat, Kenneth Ooi, Bhan Lam, Trevor Wong, Zhen-Ting Ong, W. Gan. Autonomous In-Situ Soundscape Augmentation Via Joint Selection Of Masker And Gain. IEEE Signal Processing Letters (2022).
Kenneth Ooi, Bhan Lam, J. Hong, Karn Nichakarn Watcharasupat, Zhen-Ting Ong, W. Gan. Singapore Soundscape Site Selection Survey (S5): Identification Of Characteristic Soundscapes Of Singapore Via Weighted K-Means Clustering. Sustainability (2022).
Kenneth Ooi, Zhen-Ting Ong, Karn Nichakarn Watcharasupat, Bhan Lam, J. Hong, Woon-Seng Gan Nanyang Technological University, Singapore, C. University, Daejeon, R. Korea. Araus: A Large-Scale Dataset And Baseline Models Of Affective Responses To Augmented Urban Soundscapes. ArXiv (2022).
Kenneth Ooi, Zhen-Ting Ong, Karn Nichakarn Watcharasupat, Bhan Lam, J. Hong, Woon-Seng Gan Nanyang Technological University, Singapore, Chungnam National University, Daejeon, R. Korea. Araus: A Large-Scale Dataset And Baseline Models Of Affective Responses To Augmented Urban Soundscapes. IEEE Transactions on Affective Computing (2022).
Kevin Kilgour, Beat Gfeller, Qingqing Huang, A. Jansen, Scott Wisdom, M. Tagliasacchi. Text-Driven Separation Of Arbitrary Sounds. ArXiv (2022).
Khaled Koutini, Shahed Masoudian, Florian Schmid, Hamid Eghbal-zadeh, Jan Schluter, G. Widmer. Learning General Audio Representations With Large-Scale Training Of Patchout Audio Transformers. ArXiv (2022).
Kohei Suzuki, Shoki Sakamoto, T. Taniguchi, H. Kameoka. Speak Like A Dog: Human To Non-Human Creature Voice Conversion (2022).
Kohei Suzuki, Shoki Sakamoto, T. Taniguchi, H. Kameoka. Speak Like A Dog: Human To Non-Human Creature Voice Conversion. 2022 Asia-Pacific Signal and Information Processing Association Annual Summit and Conference (APSIPA ASC) (2022).
Kuan-Po Huang, Yu-Kuan Fu, Tsung-Yuan Hsu, Fabian Ritter Gutierrez, Fan Wang, Liang-Hsuan Tseng, Yu Zhang, Hung-yi Lee. Improving Generalizability Of Distilled Self-Supervised Speech Processing Models Under Distorted Settings. 2022 IEEE Spoken Language Technology Workshop (SLT) (2022).
Kuan-Po Huang, Yuanbin Fu, Yu Zhang, Hung-yi Lee. Improving Distortion Robustness Of Self-Supervised Speech Processing Tasks With Domain Adaptation. ArXiv (2022).
Kuan-Po Huang, Yuanbin Fu, Yu Zhang, Hung-yi Lee. Improving Distortion Robustness Of Self-Supervised Speech Processing Tasks With Domain Adaptation. ArXiv (2022).
L. Delebecque, R. Serizel, Nicolas Furnon. Towards An Eﬀicient Computation Of Masks For Multichannel Speech Enhancement (2022).
L. Turchet, Marco Carraro, Matteo Tomasetti. Freesoundvr: Soundscape Composition In Virtual Reality Using Online Sound Repositories. Virtual Reality (2022).
Luke Dzwonczyk. Source Separation Methods For Computer-Assisted Orchestration (2022).
Léo Cances, E. Labbé, Thomas Pellegrini. Comparison Of Semi-Supervised Deep Learning Algorithms For Audio Classification. EURASIP Journal on Audio, Speech, and Music Processing (2022).
M. Abdollahi, R. Serizel, A. Rakotomamonjy, G. Gasso. Integrating Isolated Examples With Weakly-Supervised Sound Event Detection: A Direct Approach. DCASE (2022).
M. Neri, F. Battisti, A. Neri, M. Carli. Sound Event Detection For Human Safety And Security In Noisy Environments. IEEE Access (2022).
Madhurananda Pahar, M. Klopper, B. Reeve, R. Warren, G. Theron, A. Diacon, T. Niesler. Automatic Tuberculosis And Covid-19 Cough Classification Using Deep Learning. 2022 International Conference on Electrical, Computer and Energy Technologies (ICECET) (2022).
Madhurananda Pahar, M. Klopper, Byron Reeve, R. Warren, G. Theron, A. Diacon, T. Niesler. Automatic Tuberculosis And Covid-19 Cough Classification Using Deep Learning. ArXiv (2022).
Manthan Thakker, S. Eskimez, T. Yoshioka, Huaming Wang. Fast Real-Time Personalized Speech Enhancement: End-To-End Enhancement Network (E3Net) And Knowledge Distillation. ArXiv (2022).
Marc Delcroix, Jorge Bennasar V'azquez, Tsubasa Ochiai, K. Kinoshita, Yasunori Ohishi, S. Araki. Soundbeam: Target Sound Extraction Conditioned On Sound-Class Labels And Enrollment Clues For Increased Performance And Continuous Learning. ArXiv (2022).
Marc Delcroix, Jorge Bennasar V'azquez, Tsubasa Ochiai, K. Kinoshita, Yasunori Ohishi, S. Araki. Soundbeam: Target Sound Extraction Conditioned On Sound-Class Labels And Enrollment Clues For Increased Performance And Continuous Learning. IEEE/ACM Transactions on Audio, Speech, and Language Processing (2022).
Masato Hagiwara. Aves: Animal Vocalization Encoder Based On Self-Supervision. ArXiv (2022).
Mashrur M. Morshed, Ahmad Omar Ahsan, Hasan Mahmud, Md. Kamrul Hasan. Learning Audio Representations With Mlps. ArXiv (2022).
Matthew Groh, Aruna Sankaranarayanan, Nikhil Singh, Dong Young Kim, A. Lippman, Rosalind W. Picard. Human Detection Of Political Speech Deepfakes Across Transcripts, Audio, And Video (2022).
Michela Cantarini, L. Gabrielli, S. Squartini. Few-Shot Emergency Siren Detection. Sensors (2022).
Michelle Charette, Elizabeth Lima, Denielle Elliott. Sonic Stories, Sensory Ethnography, And Listening With An Injured Mind. Multimodality & Society (2022).
Mohammad MohammadAmini, D. Matrouf, J. Bonastre, Sandipana Dowerah, R. Serizel, D. Jouvet. Learning Noise Robust Resnet-Based Speaker Embedding For Speaker Recognition. Odyssey (2022).
Mohammad MohammadAmini, D. Matrouf, J. Bonastre, Sandipana Dowerah, R. Serizel, D. Jouvet. A Comprehensive Exploration Of Noise Robustness And Noise Compensation In Resnet And Tdnn-Based Speaker Recognition Systems (2022).
Moreno La Quatra, L. Vaiani, Alkis Koudounas, Luca Cagliero, P. Garza, Elena Baralis. How Much Attention Should We Pay To Mosquitoes?. ACM Multimedia (2022).
Muhammad Asif, Muhammad Usaid, Munaf Rashid, Tabarka Rajab, S. Hussain, Sarwar Wasi. Large-Scale Audio Dataset For Emergency Vehicle Sirens And Road Noises. Scientific Data (2022).
Nico M. Schmidt, Jordi Pons, M. Miron. Podcastmix: A Dataset For Separating Music And Speech In Podcasts. ArXiv (2022).
Nikhil Singh, Guillermo Bernal, D. Savchenko, Elena L. Glassman. A Selective Summary Of Where To Hide A Stolen Elephant: Leaps In Creative Writing With Multimodal Machine Intelligence. IN2WRITING (2022).
Nikhil Singh, Guillermo Bernal, D. Savchenko, Elena L. Glassman. Where To Hide A Stolen Elephant: Leaps In Creative Writing With Multimodal Machine Intelligence. ACM Trans. Comput. Hum. Interact. (2022).
Oleg Rybakov, M. Tagliasacchi, Yunpeng Li, Liyang Jiang, Xia Zhang. A S ] 2 8 Ju L 2 02 2 Real Time Spectrogram Inversion Onmobile Phone (2022).
Oleg Rybakov, M. Tagliasacchi, Yunpeng Li, Liyang Jiang, Xia Zhang, Fadi Biadsy. Real Time Spectrogram Inversion On Mobile Phone. ArXiv (2022).
Oleg Rybakov, M. Tagliasacchi, Yunpeng Li, Liyang Jiang, Xia Zhang, Fadi Biadsy. Real Time Spectrogram Inversion On Mobile Phone. ArXiv (2022).
P. Tremblay, Gerard Roma, Owen Green. Enabling Programmatic Data Mining As Musicking: The Fluid Corpus Manipulation Toolkit. Computer Music Journal (2022).
Pranay Manocha, Zeyu Jin, A. Finkelstein. Sqapp: No-Reference Speech Quality Assessment Via Pairwise Preference (2022).
Pritam Sarkar, A. Etemad. Xkd: Cross-Modal Knowledge Distillation With Domain Alignment For Video Representation Learning (2022).
Pritam Sarkar, A. Etemad. Xkd: Cross-Modal Knowledge Distillation With Domain Alignment For Video Representation Learning. ArXiv (2022).
Qingqing Huang, A. Jansen, Joonseok Lee, R. Ganti, Judith Yue Li, D. Ellis. Mulan: A Joint Embedding Of Music Audio And Natural Language (2022).
Qiu-shi Zhu, J. Zhang, Zitian Zhang, Lirong Dai. Joint Training Of Speech Enhancement And Self-Supervised Model For Noise-Robust Asr. ArXiv (2022).
Qiu-shi Zhu, Jie Zhang, Zi-qiang Zhang, Ming Wu, Xin Fang, Lirong Dai. A Noise-Robust Self-Supervised Pre-Training Model Based Speech Representation Learning For Automatic Speech Recognition (2022).
R. B. Singh, H. Zhuang. Measurements, Analysis, Classification, And Detection Of Gunshot And Gunshot-Like Sounds. Sensors (2022).
R. Biswas, K. Nathwani. Optimal Near-End Speech Intelligibility Improvement Using Clpso-Based Voice Transformation In Realistic Noisy Environments. Circuits, Systems, and Signal Processing (2022).
Rajapantula Kranthi, Vasundhara. Distributed Active Noise Control Based On Inverse Tangent Robust Least Mean Logarithmic Square. 2022 IEEE International Symposium on Smart Electronic Systems (iSES) (2022).
Roberto San Millán-Castillo, L. Martino, E. Morgado, F. Llorente. An Exhaustive Variable Selection Study For Linear Models Of Soundscape Emotions: Rankings And Gibbs Analysis. IEEE/ACM Transactions on Audio, Speech, and Language Processing (2022).
Robin Scheibler, Tatsuya Komatsu, Yusuke Fujita, Michael Hentschel. On Sorting And Padding Multiple Targets For Sound Event Localization And Detection With Permutation Invariant And Location-Based Training. 2022 Asia-Pacific Signal and Information Processing Association Annual Summit and Conference (APSIPA ASC) (2022).
Robin Scheibler, Tatsuya Komatsu, Yusuke Fujita, Michael Hentschel. Sound Event Localization And Detection With Pre-Trained Audio Spectrogram Transformer And Multichannel Seperation Network. DCASE (2022).
S. Budgett, Mehrdad Yaghoobi. M Eta A Udio : A F Ew -S Hot A Udio C Lassification B Enchmark ∗ (2022).
S. Eskimez, Takuya Yoshioka, Alex Ju, M. Tang, Tanel Pärnamaa, Huaming Wang. Real-Time Joint Personalized Speech Enhancement And Acoustic Echo Cancellation With E3Net. ArXiv (2022).
S. Eskimez, Takuya Yoshioka, Alex Ju, M. Tang, Tanel Pärnamaa, Huaming Wang. Real-Time Joint Personalized Speech Enhancement And Acoustic Echo Cancellation With E3Net. ArXiv (2022).
Samuel Lipping, Parthasaarathy Sudarsanam, K. Drossos, T. Virtanen. Clotho-Aqa: A Crowdsourced Dataset For Audio Question Answering. ArXiv (2022).
Sandeep Reddy Kothinti, Dimitra Emmanouilidou. Investigations In Audio Captioning: Addressing Vocabulary Imbalance And Evaluating Suitability Of Language-Centric Performance Metrics. ArXiv (2022).
Sandeep Reddy Kothinti, Dimitra Emmanouilidou. Investigations In Audio Captioning: Addressing Vocabulary Imbalance And Evaluating Suitability Of Language-Centric Performance Metrics. ArXiv (2022).
Sandipana Dowerah, R. Serizel, D. Jouvet, Mohammad MohammadAmini, D. Matrouf. How To Leverage Dnn-Based Speech Enhancement For Multi-Channel Speaker Verification?. ArXiv (2022).
Sandipana Dowerah, R. Serizel, D. Jouvet, Mohammad, Mohammadamini, D. Matrouf. Compensating Noise And Reverberation In Far-Field Multichannel Speaker Verification (2022).
Shrishail Baligar, S. Newsam. Cossd - An End-To-End Framework For Multi-Instance Source Separation And Detection. 2022 30th European Signal Processing Conference (EUSIPCO) (2022).
Shubo Lv, Yihui Fu, Yukai Jv, Linfu Xie, Weixin Zhu, Wei Rao, Yannan Wang. Spatial-Dccrn: Dccrn Equipped With Frame-Level Angle Feature And Hybrid Filtering For Multi-Channel Speech Enhancement. 2022 IEEE Spoken Language Technology Workshop (SLT) (2022).
Shuozhen Yang, Long Zhang, Yuhua Wei, Hengyuan Zhang. Multi-Scale Convolution For Sound Event Detection Technology. 2022 IEEE 2nd International Conference on Mobile Networks and Wireless Communications (ICMNWC) (2022).
Shwetank Choudhary, C. Karthik, Punuru Sri Lakshmi, Sumit Kumar. Lean: Light And Efficient Audio Classification Network. 2022 IEEE 19th India Council International Conference (INDICON) (2022).
Slawomir Kapka, J. Tkaczuk. Coloc: Conditioned Localizer And Classifier For Sound Event Localization And Detection. DCASE (2022).
Sreyan Ghosh, Ashish Seth, S. Umesh. Delores: Decorrelating Latent Spaces For Low-Resource Audio Representation Learning. ArXiv (2022).
Sreyan Ghosh, Ashish Seth, S. Umesh. Delores: Decorrelating Latent Spaces For Low-Resource Audio Representation Learning. ArXiv (2022).
Sunghyun Yoon. Reflection Of Conditional Independence Structure To Noise Variability For Noise Robust Text Dependent Speaker Verification. IEEE Access (2022).
Swapnil Bhosale, Rupayan Chakraborty, S. Kopparapu. Text-To-Audio Grounding Based Novel Metric For Evaluating Audio Caption Similarity. ArXiv (2022).
Swapnil Bhosale, Rupayan Chakraborty, S. Kopparapu. Automatic Audio Captioning Using Attention Weighted Event Based Embeddings. ArXiv (2022).
T. K. Chan, R. Das. Cross-Stitch Network With Adaptive Loss Weightage For Sound Event Localization And Detection. L3DAS22: Machine Learning for 3D Audio Signal Processing (2022).
Takuya Koumura, Hiroki Terashima, S. Furukawa. Human-Like Modulation Sensitivity Emerging Through Optimization To Natural Sound Recognition. The Journal of Neuroscience (2022).
Tara Vanhatalo, P. Legrand, M. Desainte-Catherine, P. Hanna, Antoine Brusco, Guillaume Pille, Yann Bayle. A Review Of Neural Network-Based Emulation Of Guitar Amplifiers. Applied Sciences (2022).
Tung-Yu Wu, Chen-An Li, Tzu-Han Lin, Tsung-Yuan Hsu, Hung-yi Lee. The Efficacy Of Self-Supervised Speech Models For Audio Representations (2022).
Tung-Yu Wu, Chen-An Li, Tzu-Han Lin, Tsung-Yuan Hsu, Hung-yi Lee. The Ability Of Self-Supervised Speech Models For Audio Representations. ArXiv (2022).
Xiaokang Zhao, Qiu-shi Zhu, J. Zhang. Speech Enhancement Using Self-Supervised Pre-Trained Model And Vector Quantization. 2022 Asia-Pacific Signal and Information Processing Association Annual Summit and Conference (APSIPA ASC) (2022).
Xinhao Mei, Xubo Liu, MarkD . Plumbley, Wenwu Wang. Automated Audio Captioning: An Overview Of Recent Progress And New Challenges (2022).
Xinhao Mei, Xubo Liu, MarkD . Plumbley, Wenwu Wang. Automated Audio Captioning: An Overview Of Recent Progress And New Challenges. EURASIP Journal on Audio, Speech, and Music Processing (2022).
Xuenan Xu, Mengyue Wu, K. Yu. Beyond The Status Quo: A Contemporary Survey Of Advances And Challenges In Audio Captioning. IEEE/ACM Transactions on Audio, Speech, and Language Processing (2022).
Xuenan Xu, Mengyue Wu, K. Yu. A Comprehensive Survey Of Automated Audio Captioning. ArXiv (2022).
Yang Zhao, Chen Zhang, Haifeng Huang, Haoyuan Li, Zhou Zhao. Towards Effective Multi-Modal Interchanges In Zero-Resource Sounding Object Localization. NeurIPS (2022).
Yen-Ju Lu, Samuele Cornell, Xuankai Chang, Wangyou Zhang, Chenda Li, Zhaoheng Ni, Zhong-Qiu Wang, Shinji Watanabe. Towards Low-Distortion Multi-Channel Speech Enhancement: The Espnet-Se Submission To The L3Das22 Challenge (2022).
Yen-Ju Lu, Xuankai Chang, Chenda Li, Wangyou Zhang, Samuele Cornell, Zhaoheng Ni, Yoshiki Masuyama, Brian Yan, Robin Scheibler, Zhongqiu Wang, Yu Tsao, Y. Qian, Shinji Watanabe. Espnet-Se++: Speech Enhancement For Robust Speech Recognition, Translation, And Understanding. ArXiv (2022).
Yu Wang, M. Cartwright, J. Bello. Active Few-Shot Learning For Sound Event Detection. INTERSPEECH (2022).
Yuan Gong, Jingbo Yu, James R. Glass. Vocalsound: A Dataset For Improving Human Vocal Sounds Recognition. ICASSP (2022).
Yuan Gong, Sameer Khurana, Andrew Rouditchenko, James R. Glass. Cmkd: Cnn/Transformer-Based Cross-Model Knowledge Distillation For Audio Classification. ArXiv (2022).
Yun Jung Lee, Hwayeon Joh, Suhyeon Yoo, U. Oh. Accesscomics2: Understanding The User Experience Of An Accessible Comic Book Reader For Blind People With Textual Sound Effects. ACM Transactions on Accessible Computing (2022).
Yunjung Lee, Hwayeon Joh, Suhyeon Yoo, U. Oh. Accesscomics2: Understanding The User Experience Of An Accessible Comic Book Reader For Blind People With Textual Sound Effects. ACM Transactions on Accessible Computing (2022).
Yusong Wu, K. Chen, Tianyu Zhang, Yuchen Hui, Taylor Berg-Kirkpatrick, S. Dubnov. Large-Scale Contrastive Language-Audio Pretraining With Feature Fusion And Keyword-To-Caption Augmentation. ArXiv (2022).
Yusong Wu, K. Chen, Tianyu Zhang, Yuchen Hui, Taylor Berg-Kirkpatrick, S. Dubnov. Large-Scale Contrastive Language-Audio Pretraining With Feature Fusion And Keyword-To-Caption Augmentation. ICASSP 2023 - 2023 IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP) (2022).
Zexu Pan, G. Wichern, Franccois G. Germain, A. Subramanian, Jonathan Le Roux. Late Audio-Visual Fusion For In-The-Wild Speaker Diarization (2022).
Zexu Pan, G. Wichern, Franccois G. Germain, A. Subramanian, Jonathan Le Roux. Towards End-To-End Speaker Diarization In The Wild. ArXiv (2022).
Zhong-Qiu Wang, G. Wichern, Shinji Watanabe, Jonathan Le Roux. Stft-Domain Neural Speech Enhancement With Very Low Algorithmic Latency. ArXiv (2022).
Zhong-Qiu Wang, G. Wichern, Shinji Watanabe, Jonathan Le Roux. Stft-Domain Neural Speech Enhancement With Very Low Algorithmic Latency. IEEE/ACM Transactions on Audio, Speech, and Language Processing (2022).
Zhong-Qiu Wang, Shinji Watanabe. Improving Frame-Online Neural Speech Enhancement With Overlapped-Frame Prediction. IEEE Signal Processing Letters (2022).
Zhongqiu Wang, Samuele Cornell, Shukjae Choi, Younglo Lee, Byeonghak Kim, Shinji Watanabe. Tf-Gridnet: Integrating Full- And Sub-Band Modeling For Speech Separation. IEEE/ACM Transactions on Audio, Speech, and Language Processing (2022).
Zhongqiu Wang, Samuele Cornell, Shukjae Choi, Younglo Lee, Byeonghak Kim, Shinji Watanabe. Tf-Gridnet: Integrating Full- And Sub-Band Modeling For Speech Separation. ArXiv (2022).
Zhongqiu Wang, Shinji Watanabe. Improving Frame-Online Neural Speech Enhancement With Overlapped-Frame Prediction. IEEE Signal Processing Letters (2022).
Zi-Hua Zhang, Sanyuan Chen, Long Zhou, Yu Wu, Shuo Ren, Shujie Liu, Zhuoyuan Yao, Xun Gong, Lirong Dai, Jinyu Li, Furu Wei. Speechlm: Enhanced Speech Pre-Training With Unpaired Textual Data. IEEE/ACM Transactions on Audio, Speech, and Language Processing (2022).
Zubayer Islam, M. Abdel-Aty. Deep Convolutional Neural Network For Roadway Incident Surveillance Using Audio Data. ArXiv (2022).

2021 (144)

. R Evisiting Transposed Convolutions For In Terpreting Raw Waveform Sound Event Recog Nition Cnn S By Sonification (2021).
A. Aleluia, G. Cabral. Rapid Prototyping: Using Wizard Of Oz To Emulate Machine Learning Features For Interactive Artistic Applications. Anais do XVIII Simpósio Brasileiro de Computação Musical (SBCM 2021) (2021).
A. Copiaco, C. Ritz, S. Fasciani, N. Abdulaziz. Dasee A Synthetic Database Of Domestic Acoustic Scenes And Events In Dementia Patients Environment. ArXiv (2021).
A. Correya, Jorge Marcos-Fernández, Luis Joglar-Ongay, Pablo Alonso-Jiménez, X. Serra, D. Bogdanov. Audio And Music Analysis On The Web Using Essentia.Js. Trans. Int. Soc. Music. Inf. Retr. (2021).
A. Jensenius. Best Versus Good Enough Practices For Open Music Research. Empirical Musicology Review (2021).
A. Madhu, S. Kumaraswamy. Envgan: Adversarial Synthesis Of Environmental Sounds For Data Augmentation. ArXiv (2021).
A. P. Mishra, N. S. Harper, J. Schnupp. Exploring The Distribution Of Statistical Feature Parameters For Natural Sound Textures. PloS one (2021).
A. S. Koepke, Andreea-Maria Oncescu, João F. Henriques, Zeynep Akata, Samuel Albanie. Audio Retrieval With Natural Language Queries: A Benchmark Study. IEEE Transactions on Multimedia (2021).
A. Shams, M. Raihan, Md. Mohi Uddin Khan, Ocean Monjur, Rahat Bin Preo. Telehealthcare And Telepathology In Pandemic: A Noninvasive, Low-Cost Micro-Invasive And Multimodal Real-Time Online Application For Early Diagnosis Of Covid-19 Infection (Preprint) (2021).
Aaron Valero Puche, Sukhan Lee. Caesynth: Real-Time Timbre Interpolation And Pitch Control With Conditional Autoencoders. 2021 IEEE 31st International Workshop on Machine Learning for Signal Processing (MLSP) (2021).
Abdulaziz Saleh Ba Wazir, H. A. Karim, Mohd Haris Lye Abdullah, Nouar AlDahoul, Sarina Mansor, M. F. A. Fauzi, John See, Ahmad Syazwan Naim. Design And Implementation Of Fast Spoken Foul Language Recognition With Different End-To-End Deep Neural Network Architectures. Sensors (2021).
Adri'an Barahona-R'ios, Tom Collins. Specsingan: Sound Effect Variation Synthesis Using Single-Image Gans. ArXiv (2021).
Adri'an Barahona-R'ios, Tom Collins. Specsingan: Sound Effect Variation Synthesis Using Single-Image Gans. ArXiv (2021).
Alexander Ponomarchuk, I. Burenko, Elian Malkin, I. Nazarov, V. Kokh, Manvel Avetisian, L. Zhukov. Project Achoo: A Practical Model And Application For Covid-19 Detection From Recordings Of Breath, Voice, And Cough. IEEE Journal of Selected Topics in Signal Processing (2021).
Alexander Ponomarchuk, I. Burenko, Elian Malkin, Ivan Nazarov, V. Kokh, Manvel Avetisian, L. Zhukov. Project Achoo: A Practical Model And Application For Covid-19 Detection From Recordings Of Breath, Voice, And Cough. ArXiv (2021).
Andreea-Maria Oncescu, A. S. Koepke, João F. Henriques, Zeynep Akata, Samuel Albanie. Audio Retrieval With Natural Language Queries. Interspeech 2021 (2021).
Anis Haron. Tone Color 音色排序的计算分类 (2021).
Anna Xambó. A Live Coding Session With The Cloud And A Virtual Agent (2021).
Anna Xambó, Gerard Roma, Sam Roig, Eduard Solaz. Live Coding With The Cloud And A Virtual Agent (2021).
Archiki Prasad, P. Jyothi, R. Velmurugan. An Investigation Of End-To-End Models For Robust Speech Recognition. ArXiv (2021).
Ariane Stolfi, D. P. S. D. Novais. Improvisation In Isolation: Quarentena Liv(R)E And Noise Symphony With The Playsound Online Music Making Tool (2021).
Aswin Sivaraman, Minje Kim. Efficient Personalized Speech Enhancement Through Self-Supervised Learning. IEEE Journal of Selected Topics in Signal Processing (2021).
Aswin Sivaraman, Sunwoo Kim, Minje Kim. Personalized Speech Enhancement Through Self-Supervised Data Augmentation And Purification. Interspeech (2021).
Aswin Sivaraman, Sunwoo Kim, Minje Kim. Personalized Speech Enhancement Through Self-Supervised Data Augmentation And Purification. Interspeech 2021 (2021).
B. Weck, Xavier Favory, Konstantinos Drossos, X. Serra. Evaluating Off-The-Shelf Machine Listening And Natural Language Models For Automated Audio Captioning. ArXiv (2021).
Chandan K. A. Reddy, Vishak Gopa, Harishchandra Dubey, Sergiy Matusevych, Ross Cutler, R. Aichner. Musicnet: Compact Convolutional Neural Network For Real-Time Background Music Detection. ArXiv (2021).
Chandan K.A. Reddy, Vishak Gopa, Harishchandra Dubey, Sergiy Matusevych, Ross Cutler, R. Aichner. Musicnet: Compact Convolutional Neural Network For Real-Time Background Music Detection. ArXiv (2021).
Chao Xie, Yi-Chiao Wu, Patrick Lumban Tobing, Wen-Chin Huang, Tomoki Toda. Noisy-To-Noisy Voice Conversion Framework With Denoising Model. ArXiv (2021).
Clarity, Xi Chen, Yupeng Shi, Wei Xiao, Tingzhao Wu, Meng Wang, Shidong Shang, N. Zheng, Q. Meng. A Cascaded Speech Enhancement For Hearing Aids In Noisy-Reverberant Conditions (2021).
D. Arteaga, J. Pons. Multichannel-Based Learning For Audio Object Extraction. ArXiv (2021).
D. Arteaga, Jordi Pons. Multichannel-Based Learning For Audio Object Extraction. ICASSP 2021 - 2021 IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP) (2021).
D. Jain. Protosound: A Personalized And Scalable Sound Recognition System For Deaf And Hard-Of-Hearing Users (2021).
Daisuke Niizumi, Daiki Takeuchi, Yasunori Ohishi, N. Harada, K. Kashino. Byol For Audio: Self-Supervised Learning For General-Purpose Audio Representation. 2021 International Joint Conference on Neural Networks (IJCNN) (2021).
Darius Petermann, G. Wichern, Zhong-Qiu Wang, Jonathan Le Roux. The Cocktail Fork Problem: Three-Stem Audio Separation For Real-World Soundtracks. ArXiv (2021).
Darius Petermann, G. Wichern, Zhong-Qiu Wang, Jonathan Le Roux. The Cocktail Fork Problem: Three-Stem Audio Separation For Real-World Soundtracks. ICASSP (2021).
Diego De Benito-Gorrón, Daniel Ramos, D. Toledano. A Multi-Resolution Crnn-Based Approach For Semi-Supervised Sound Event Detection In Dcase 2020 Challenge. IEEE Access (2021).
Diego de Benito-Gorrón, Daniel Ramos, D. Toledano. An Analysis Of Sound Event Detection Under Acoustic Degradation Using Multi-Resolution Systems. IberSPEECH (2021).
E. Guizzo, C. Marinoni, Marco Pennese, Xinlei Ren, Xiguang Zheng, Chen Zhang, B. Masiero, D. Comminiello. L3Das22 Challenge: Machine Learning For 3D Audio Signal Processing (2021).
E. Guizzo, Riccardo F. Gramaccioni, Saeid Jamili, C. Marinoni, Edoardo Massaro, Claudia Medaglia, Giuseppe Nachira, Leonardo Nucciarelli, Ludovica Paglialunga, M. Pennese, Sveva Pepe, Enrico Rocchi, A. Uncini, D. Comminiello. L3Das21 Challenge: Machine Learning For 3D Audio Signal Processing. 2021 IEEE 31st International Workshop on Machine Learning for Signal Processing (MLSP) (2021).
E. Guizzo, Riccardo F. Gramaccioni, Saeid Jamili, C. Marinoni, Edoardo Massaro, Claudia Medaglia, Giuseppe Nachira, Leonardo Nucciarelli, Ludovica Paglialunga, Marco Pennese, Sveva Pepe, Enrico Rocchi, A. Uncini, D. Comminiello. L3Das21 Challenge: Machine Learning For 3D Audio Signal Processing. 2021 IEEE 31st International Workshop on Machine Learning for Signal Processing (MLSP) (2021).
E. Gómez. Deep Noise Suppression For Real Time Speech Enhancement In A Single Channel Wide Band Scenario (2021).
Eduardo Fonseca, Andrés Ferraro, Xavier Serra. Improving Sound Event Classification By Increasing Shift Invariance In Convolutional Neural Networks. ArXiv (2021).
Eduardo Fonseca, Andrés Ferraro, Xavier Serra. J Ul 2 02 1 Improving Sound Event Classification By Increasing Shift Invariance In Convolutional Neural Networks (2021).
Efthymios Tzinis, Jonah Casebeer, Zhepei Wang, P. Smaragdis. Separate But Together: Unsupervised Federated Learning For Speech Enhancement From Non-Iid Data. ArXiv (2021).
Efthymios Tzinis, Yossi Adi, V. Ithapu, Buye Xu, Anurag Kumar. Continual Self-Training With Bootstrapped Remixing For Speech Enhancement. ArXiv (2021).
Efthymios Tzinis, Yossi Adi, V. Ithapu, Buye Xu, Anurag Kumar. Continual Self-Training With Bootstrapped Remixing For Speech Enhancement. ICASSP 2022 - 2022 IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP) (2021).
Efthymios Tzinis, Yossi Adi, Vamsi K. Ithapu, Buye Xu, Anurag Kumar. Continual Self-Training With Bootstrapped Remixing For Speech Enhancement. ArXiv (2021).
F. Font. Source: A Freesound Community Music Sampler. Audio Mostly Conference (2021).
Francesc Lluís, V. Chatziioannou, A. Hofmann. Music Source Separation Conditioned On 3D Point Clouds. ArXiv (2021).
Francesca Ronchini, R. Serizel, Nicolas Turpault, Samuele Cornell. The Impact Of Non-Target Events In Synthetic Soundscapes For Sound Event Detection. ArXiv (2021).
Félix Gontier, Vincent Lostanlen, M. Lagrange, N. Fortin, C. Lavandier, J. Petiot. Polyphonic Training Set Synthesis Improves Self-Supervised Urban Sound Classification.. The Journal of the Acoustical Society of America (2021).
Gonzalo Montero, F. Corbera. Generating Sound Palettes For A Freesound Concatenative Synthesizer To Support Creativity (2021).
Haron Anis, Chee Onn Wong, Soon Hin Hew. Algorithmic Identification Of Tone Color: A Comparison Of Algorithmic Identification And Identification By Survey Respondents. 10th International Conference on Digital and Interactive Arts (2021).
Hassan Taherian, S. Eskimez, T. Yoshioka, Huaming Wang, Zhuo Chen, Xuedong Huang. One Model To Enhance Them All: Array Geometry Agnostic Multi-Channel Personalized Speech Enhancement. ArXiv (2021).
Ho-Hsiang Wu, Prem Seetharaman, Kundan Kumar, J. Bello. Wav2Clip: Learning Robust Audio Representations From Clip. ArXiv (2021).
Ho-Hsiang Wu, Prem Seetharaman, Kundan Kumar, J. Bello. Wav2Clip: Learning Robust Audio Representations From Clip. ArXiv (2021).
J. Abeßer. Usm-Sed - A Dataset For Polyphonic Sound Event Detection In Urban Sound Monitoring Scenarios. ArXiv (2021).
J. Abeßer, Saichand Gourishetti, Andr'as K'atai, Tobias Clauss, Prachi Sharma, Judith Liebetrau. Idmt-Traffic: An Open Benchmark Dataset For Acoustic Traffic Monitoring Research. ArXiv (2021).
Jialu Li, M. Hasegawa-Johnson, Nancy L. McElwain. Analysis Of Acoustic And Voice Quality Features For The Classification Of Infant And Mother Vocalizations. Speech Commun. (2021).
Joseph P. Turian, Jordie Shier, G. Tzanetakis, K. McNally, Max Henry. One Billion Audio Sounds From Gpu-Enabled Modular Synthesis. ArXiv (2021).
Juliette Millet, J. King. Inductive Biases, Pretraining And Fine-Tuning Jointly Account For Brain Responses To Speech. ArXiv (2021).
Jun Deng, Chunhui Gao, Qian Feng, Xinzhou Xu, Zhaopeng Chen. Adaptive Generalized Cross-Entropy Loss For Sound Event Classification With Noisy Labels. 2021 IEEE Workshop on Applications of Signal Processing to Audio and Acoustics (WASPAA) (2021).
Jurgen Vandendriessche, Nick Wouters, Bruno da Silva, Mimoun Lamrini, Mohamed Yassin Chkouri, Abdellah Touhafi. Environmental Sound Recognition On Embedded Systems: From Fpgas To Tpus. Electronics (2021).
Karn Nichakarn Watcharasupat, Thi Ngoc Tho Nguyen, Ngoc Khanh Nguyen, Zhen Jian Lee, Douglas L. Jones, W. Gan. Improving Polyphonic Sound Event Detection On Multichannel Recordings With The Sørensen-Dice Coefficient Loss And Transfer Learning. ArXiv (2021).
Kenneth Ooi, Karn N. Watcharasupat, Santi Peksi, Furi Andi Karnapi, Zhen-Ting Ong, Danny Chua, Hui-Wen Leow, Li-Long Kwok, Xin-Lei Ng, Zhen-Ann Loh, W. Gan. A Strongly-Labelled Polyphonic Dataset Of Urban Sounds With Spatiotemporal Context. ArXiv (2021).
Khaled Koutini, Jan Schlüter, Hamid Eghbal-zadeh, G. Widmer. Efficient Training Of Audio Transformers With Patchout. ArXiv (2021).
Khaled Koutini, Jan Schlüter, Hamid Eghbal-zadeh, G. Widmer. Efficient Training Of Audio Transformers With Patchout. INTERSPEECH (2021).
Kwanghee Choi, Martin Kersner, Jacob Morton, Buru Chang. Temporal Knowledge Distillation For On-Device Audio Classification. ArXiv (2021).
Kwanghee Choi, Martin Kersner, Jacob Morton, Buru Chang. Temporal Knowledge Distillation For On-Device Audio Classification. ArXiv (2021).
Lijian Gao, Qirong Mao, Jingjing Chen, Ming Dong, R. Chinnam, L. Sassatelli, Miguel Fabian Romero-Rondón, Ujjwal Sharma. Reproducibility Companion Paper: On Learning Disentangled Representation For Acoustic Event Detection. ACM Multimedia (2021).
Léo Cances, E. Labbé, T. Pellegrini. Improving Deep-Learning-Based Semi-Supervised Audio Tagging With Mixup. ArXiv (2021).
Léo Cances, E. Labbé, Thomas Pellegrini. Comparison Of Semi-Supervised Deep Learning Algorithms For Audio Classification. EURASIP Journal on Audio, Speech, and Music Processing (2021).
M. Delcroix, Jorge Bennasar V'azquez, Tsubasa Ochiai, K. Kinoshita, S. Araki. Few-Shot Learning Of New Sound Classes For Target Sound Extraction. Interspeech 2021 (2021).
M. Geravanchizadeh, Sepideh Akhtari Khosroshahi, S. Zakeri. Extraction Of Weighted Saliency Maps In Modelling Bottom-Up Auditory Attention (2021).
M. Neumann, Ngoc Thang Vu. Investigations On Audiovisual Emotion Recognition In Noisy Conditions. 2021 IEEE Spoken Language Technology Workshop (SLT) (2021).
Madhurananda Pahar, M. Klopper, Robin Warren, T. Niesler. Covid-19 Detection In Cough, Breath And Speech Using Deep Transfer Learning And Bottleneck Features (2021).
Madhurananda Pahar, T. Niesler. Deep Transfer Learning Based Covid-19 Detection In Cough, Breath And Speech Using Bottleneck Features (2021).
Marc C. Green, MarkD . Plumbley. Federated Learning With Highly Imbalanced Audio Data. ArXiv (2021).
Michael Taenzer, S. Mimilakis, J. Abeßer. Deep Learning-Based Music Instrument Recognition: Exploring Learned Feature Representations (2021).
Mohammad Mohammadamini, D. Matrouf, J. Bonastre, R. Serizel, Sandipana Dowerah, Denis, Jouvet. Compensate Multiple Distortions For Speaker Recognition Systems (2021).
Motohiro Sunouchi, Masaharu Yoshioka. Diversity-Robust Acoustic Feature Signatures Based On Multiscale Fractal Dimension For Similarity Search Of Environmental Sounds. IEICE Transactions on Information and Systems (2021).
Motohiro Sunouchi, Masaharu Yoshioka. Proposal Of The Aesthetic Experience-Oriented Evaluation Framework For Field-Recording Sound Retrieval System: Experiments Using Acoustic Feature Signatures Based On Multiscale Fractal Dimension. IVSP (2021).
Motohiro Sunouchi, Masaharu Yoshioka. Diversity-Robust Acoustic Feature Signatures Based On Multiscale Fractal Dimension For Similarity Search Of Environmental Sounds. ArXiv (2021).
Muddsair Sharif, Mayur Hotwani, Huseyin Seker, Gero Lückemeyer. Imobilakou: The Role Of Machine Listening To Detect Vehicle Using Sound Acoustics. ICAAI (2021).
N. Orio, B. D. Carolis, Francesco Liotard. Locate Your Soundscape: Interacting With The Acoustic Environment. Multim. Tools Appl. (2021).
N. Orio, B. De Carolis, Francesco Liotard. Locate Your Soundscape: Interacting With The Acoustic Environment. Multimedia tools and applications (2021).
N. Siminski, S. Böhme, M. Herrmann. Bnst And Amygdala Activation To Threat: Effects Of Temporal Predictability And Threat Mode. Behavioural Brain Research (2021).
N. Singh. The Sound Sketchpad: Expressively Combining Large And Diverse Audio Collections. IUI (2021).
Neil Zeghidour, Alejandro Luebs, Ahmed Omran, J. Skoglund, M. Tagliasacchi. Soundstream: An End-To-End Neural Audio Codec. IEEE/ACM Transactions on Audio, Speech, and Language Processing (2021).
Nicholas Roberts, Samuel Guo, Cong Xu, Ameet Talwalkar, David Lander, Lvfang Tao, Linhang Cai, Shuaicheng Niu, Jianyu Heng, Hongyang Qin, Minwen Deng, Johannes Hog, Alexander Pfefferle, Sushil Ammanaghatta Shivakumar, Arjun Krishnakumar, Yubo Wang, R. Sukthanker, Frank Hutter, Euxhen Hasanaj, Tien-Dung Le, M. Khodak, Yuriy Nevmyvaka, Kashif Rasul, Frederic Sala, Anderson Schneider, Junhong Shen, Evan R. Sparks. Automl Decathlon: Diverse Tasks, Modern Methods, And Efficiency At Scale. NeurIPS (2021).
Nicolas Furnon, R. Serizel, S. Essid, I. Illina. Attention-Based Distributed Speech Enhancement For Unconstrained Microphone Arrays With Varying Number Of Nodes. ArXiv (2021).
Nicolas Turpault, R. Serizel, E. Vincent. Analysis Of Weak Labels For Sound Event Tagging (2021).
Pablo Zinemanas, Martín Rocamora, M. Miron, F. Font, X. Serra. An Interpretable Deep Learning Model For Automatic Sound Classification (2021).
Pranay Manocha, Buye Xu, Anurag Kumar. Noresqa - A Framework For Speech Quality Assessment Using Non-Matching References. ArXiv (2021).
Prateek Verma. Large Scale Audio Understanding Without Transformers/ Convolutions/ Berts/ Mixers/ Attention/ Rnns Or. ArXiv (2021).
Prateek Verma. Large Scale Audio Understanding Without Transformers/ Convolutions/ Berts/ Mixers/ Attention/ Rnns Or. ArXiv (2021).
Prateek Verma. Attention Is All You Need? Good Embeddings With Statistics Are Enough Audio Understanding Without Convolutions/Transformers/Berts/Mixers/Attention/Rnns (2021).
Prateek Verma, J. Berger. Audio Transformers: Transformer Architectures For Large Scale Audio Understanding. Adieu Convolutions. ArXiv (2021).
Prateek Verma, J. Berger. Audio Transformers: Transformer Architectures For Large Scale Audio Understanding. Adieu Convolutions. ArXiv (2021).
Przemysław Falkowski-Gilski. Digital Transformation Of Terrestrial Radio: An Analysis Of Simulcasted Broadcasts In Fm And Dab+ For A Smart And Successful Switchover. Applied Sciences (2021).
Qichen Han, Weiqiang Yuan, Dong Liu, X. Li, Zhen Yang. Automated Audio Captioning With Weakly Supervised Pre-Training And Word Selection Methods. DCASE (2021).
Qiuying Shi, Jiqing Han. Semantic Feature Extraction Based On Subspace Learning With Temporal Constraints For Acoustic Event Recognition. Digit. Signal Process. (2021).
Renbo Tu, M. Khodak, Nicholas Roberts, Ameet S. Talwalkar. Nas-Bench-360: Benchmarking Diverse Tasks For Neural Architecture Search. ArXiv (2021).
Renbo Tu, Nicholas Roberts, M. Khodak, Jun Shen, Frederic Sala, Ameet S. Talwalkar. Nas-Bench-360: Benchmarking Neural Architecture Search On Diverse Tasks (2021).
Renbo Tu, Nicholas Roberts, M. Khodak, Jun Shen, Frederic Sala, Ameet S. Talwalkar. Nas-Bench-360: Benchmarking Neural Architecture Search On Diverse Tasks (2021).
Ria Sinha. Digital Assistant For Sound Classification Using Spectral Fingerprinting. International Journal for Research in Applied Science and Engineering Technology (2021).
Rishabh Garg, Ruohan Gao, Kristen Grauman. Geometry-Aware Multi-Task Learning For Binaural Audio Generation From Video (2021).
Robert Müller, Steffen Illium, C. Linnhoff-Popien. A Deep And Recurrent Architecture For Primate Vocalization Classification. Interspeech (2021).
S. Eskimez, Takuya Yoshioka, Huaming Wang, Xiaofei Wang, Zhuo Chen, Xuedong Huang. Personalized Speech Enhancement: New Models And Comprehensive Evaluation. ArXiv (2021).
S. Eskimez, Xiaofei Wang, Min Tang, Hemin Yang, Zirun Zhu, Zhuo Chen, Huaming Wang, T. Yoshioka. Human Listening And Live Captioning: Multi-Task Training For Speech Enhancement. Interspeech 2021 (2021).
S. Graetzer, Jon Barker, T. Cox, M. Akeroyd, J. Culling, G. Naylor, Eszter Porter, Rhoddy Viveros Muñoz. Clarity-2021 Challenges: Machine Learning Challenges For Advancing Hearing Aid Processing. Interspeech 2021 (2021).
Sangwoo Park, David K. Han, Mounya Elhilali. Cross-Referencing Self-Training Network For Sound Event Detection In Audio Mixtures. ArXiv (2021).
Sarthak Yadav, M. Foster. Gise-51: A Scalable Isolated Sound Events Dataset. ArXiv (2021).
Sean Perry, Vaibhav Tiwari, Nishant Balaji, Erika Joun, Jacob Ayers, M. Tobler, Ian Ingram, Ryan Kastner, C. Schurgers. Pyrenote: A Web-Based, Manual Annotation Tool For Passive Acoustic Monitoring. 2021 IEEE 18th International Conference on Mobile Ad Hoc and Smart Systems (MASS) (2021).
Seokjin Lee, Minhan Kim, S. Shin, Sooyoung Park, Youngho Jeong. Data-Dependent Feature Extraction Method Based On Non-Negative Matrix Factorization For Weakly Supervised Domestic Sound Event Detection. Applied Sciences (2021).
Siddharth Gururani, Alexander Lerch. Semi-Supervised Audio Classification With Partially Labeled Data. 2021 IEEE International Symposium on Multimedia (ISM) (2021).
Sreyan Ghosh, Ashish Seth, S. Umesh. Decorrelating Feature Spaces For Learning General-Purpose Audio Representations. IEEE Journal of Selected Topics in Signal Processing (2021).
Sreyan Ghosh, Sandesh V Katta, Ashish Seth, S. Umesh. Decorrelating Feature Spaces For Learning General-Purpose Audio Representations. IEEE Journal of Selected Topics in Signal Processing (2021).
Steven M. Goodman, Ping Liu, Emma J. McDonnell, Jon Froehlich, Steven M. Goodman, Ping Liu, Dhruv Jain, Emma J. McDonnell, Jon Froehlich. Toward User-Driven Sound Recognizer Personalization With People Who Are D/Deaf Or Hard Of Hearing. Proc. ACM Interact. Mob. Wearable Ubiquitous Technol. (2021).
Tiago B. Lacerda, Péricles B. C. Miranda, André Câmara, Ana Paula C. Furtado. Deep Learning And Mel-Spectrograms For Physica Violence Detection In Audio. Anais do XVIII Encontro Nacional de Inteligência Artificial e Computacional (ENIAC 2021) (2021).
Tony Liu, A. Amirsoleimani, Jianxiong Xu, F. Alibart, Y. Beilliard, S. Ecoffey, Dominique Drouin, R. Genov. Codex: Stochastic Encoding Method To Relax Resistive Crossbar Accelerator Design Requirements. IEEE Transactions on Circuits and Systems II: Express Briefs (2021).
Tony Liu, A. Amirsoleimani, Jianxiong Xu, F. Alibart, Y. Beilliard, S. Ecoffey, Dominique Drouin, R. Genov. Codex: Stochastic Encoding Method To Relax Resistive Crossbar Accelerator Design Requirements. IEEE Transactions on Circuits and Systems II: Express Briefs (2021).
Turab Iqbal, Yin Cao, A. Bailey, MarkD . Plumbley, Wenwu Wang. Arca23K: An Audio Dataset For Investigating Open-Set Label Noise. DCASE (2021).
Turab Iqbal, Yin Cao, Andrew Bailey, MarkD . Plumbley, Wenwu Wang. Arca23K: An Audio Dataset For Investigating Open-Set Label Noise. ArXiv (2021).
Valeria Mordoh, Y. Zigel. Audio Source Separation To Reduce Sleeping Partner Sounds: A Simulation Study. Physiological measurement (2021).
Vasileios Tsouvalas, Aaqib Saeed, T. Ozcelebi. Federated Self-Training For Semi-Supervised Audio Recognition. ACM Transactions on Embedded Computing Systems (2021).
Vasileios Tsouvalas, Aaqib Saeed, T. Ozcelebi. Federated Self-Training For Semi-Supervised Audio Recognition. ArXiv (2021).
W. Kleijn, Andrew Storus, M. Chinen, T. Denton, Felicia S. C. Lim, Alejandro Luebs, J. Skoglund, Hengchin Yeh. Generative Speech Coding With Predictive Variance Regularization. ArXiv (2021).
Wookey Lee, Jessica Jiwon Seong, Busra Ozlu, B. Shim, Azizbek Marakhimov, Suan Lee. Biosignal Sensors And Deep Learning-Based Speech Recognition: A Review. Sensors (2021).
Xubo Liu, Turab Iqbal, Jinzheng Zhao, Qiushi Huang, Mark D. Plumbley, Wenwu Wang. Conditional Sound Generation Using Neural Discrete Time-Frequency Representation Learning. 2021 IEEE 31st International Workshop on Machine Learning for Signal Processing (MLSP) (2021).
Xubo Liu, Turab Iqbal, Jinzheng Zhao, Qiushi Huang, Mark D. Plumbley, Wenwu Wang. Conditional Sound Generation Using Neural Discrete Time-Frequency Representation Learning. 2021 IEEE 31st International Workshop on Machine Learning for Signal Processing (MLSP) (2021).
Y. Campos-Roca. Multidisciplinary Project-Based Learning: Improving Student Motivation For Learning Signal Processing. IEEE Signal Processing Magazine (2021).
Yanling Li, Jun-yi Cai, Qidi Dong, Linjia Wu, Qibing Chen. Psychophysiological Responses Of Young People To Soundscapes In Actual Rural And City Environments. Journal of the Audio Engineering Society (2021).
Yanpeng Zhao, Jack Hessel, Youngjae Yu, Ximing Lu, Rowan Zellers, Yejin Choi. Connecting The Dots Between Audio And Text Without Parallel Data Through Visual Knowledge Transfer. ArXiv (2021).
Yanpeng Zhao, Jack Hessel, Youngjae Yu, Ximing Lu, Rowan Zellers, Yejin Choi. Connecting The Dots Between Audio And Text Without Parallel Data Through Visual Knowledge Transfer. ArXiv (2021).
Yasha Iravantchi, Karan Ahuja, Mayank Goel, Chris Harrison, A. Sample. Privacymic: Utilizing Inaudible Frequencies For Privacy Preserving Daily Activity Recognition. CHI (2021).
Yu Wang, Nicholas J. Bryan, J. Salamon, M. Cartwright, J. Bello. Who Calls The Shots? Rethinking Few-Shot Learning For Audio. ArXiv (2021).
Yuan Gong, Yu-An Chung, James R. Glass. Psla: Improving Audio Tagging With Pretraining, Sampling, Labeling, And Aggregation. IEEE/ACM Transactions on Audio, Speech, and Language Processing (2021).
Yuan Gong, Yu-An Chung, James R. Glass. Psla: Improving Audio Tagging With Pretraining, Sampling, Labeling, And Aggregation. IEEE/ACM Transactions on Audio, Speech, and Language Processing (2021).
Yui Sudo, Katsutoshi Itoyama, Kenji Nishida, K. Nakadai. Multichannel Environmental Sound Segmentation. Appl. Intell. (2021).
Z. Mnasri, S. Rovetta, F. Masulli. Anomalous Sound Event Detection: A Survey Of Machine Learning Based Methods And Applications. Multimedia Tools and Applications (2021).
Zhong-Qiu Wang, G. Wichern, Jonathan Le Roux. Leveraging Low-Distortion Target Estimates For Improved Speech Enhancement. ArXiv (2021).
Ziqiang Shi, Liu Liu, Huibin Lin, R. Liu. Hodge And Podge: Hybrid Supervised Sound Event Detection With Multi-Hot Mixmatch And Composition Consistence Training. 2020 28th European Signal Processing Conference (EUSIPCO) (2021).
Ziyang Chen, Xixi Hu, Andrew Owens. Structure From Silence: Learning Scene Structure From Ambient Sound. ArXiv (2021).

2020 (103)

A. Correya, D. Bogdanov, Luis Joglar-Ongay, X. Serra. Essentia.Js: A Javascript Library For Music And Audio Analysis On The Web. ISMIR (2020).
Abdulaziz Saleh Ba Wazir, H. A. Karim, Mohd Haris Lye Abdullah, Sarina Mansor, Nouar AlDahoul, M. Fauzi, John See. Spectrogram-Based Classification Of Spoken Foul Language Using Deep Cnn. 2020 IEEE 22nd International Workshop on Multimedia Signal Processing (MMSP) (2020).
Alessandro Ragano, Emmanouil Benetos, A. Hines. Audio Impairment Recognition Using A Correlation-Based Feature Representation. 2020 Twelfth International Conference on Quality of Multimedia Experience (QoMEX) (2020).
Alessandro Ragano, Emmanouil Benetos, Andrew Hines. Audio Impairment Recognition Using A Correlation-Based Feature Representation. 2020 Twelfth International Conference on Quality of Multimedia Experience (QoMEX) (2020).
Ambika P. Mishra, N. S. Harper, Jan W. H. Schnupp. Exploring The Distribution Of Statistical Feature Parameters For Natural Sound Textures (2020).
Andreas Hüwel, K. Adiloglu, Jörg-Hendrik Bach. Hearing Aid Research Data Set For Acoustic Environment Recognition. ICASSP 2020 - 2020 IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP) (2020).
Andrey Guzhov, Federico Raue, J. Hees, Andreas Dengel. Esresnet: Environmental Sound Classification Based On Visual Domain Models. ArXiv (2020).
Ant'onio Ramires, F. Font, D. Bogdanov, Jordan B. L. Smith, Yi-Hsuan Yang, Joann Ching, B. Chen, Yueh-Kao Wu, Hsu Wei-Han, X. Serra. The Freesound Loop Dataset And Annotation Tool. ArXiv (2020).
Ant'onio Ramires, Gilberto Bernardes, M. Davies, X. Serra. Tiv.Lib: An Open-Source Library For The Tonal Description Of Musical Audio. ArXiv (2020).
Ant'onio Ramires, Pritish Chandna, Xavier Favory, E. Gómez, X. Serra. Neural Percussive Synthesis Parameterised By High-Level Timbral Features. ICASSP 2020 - 2020 IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP) (2020).
António Ramires, F. Font, D. Bogdanov, Jordan B. L. Smith, Yi-Hsuan Yang, Joann Ching, Bo-Yu Chen, Yueh-Kao Wu, Hsu Wei-Han, X. Serra. The Freesound Loop Dataset And Annotation Tool. ISMIR (2020).
Beat Gfeller, Dominik Roblek, M. Tagliasacchi. One-Shot Conditional Audio Filtering Of Arbitrary Sounds. (2020).
Beat Gfeller, Dominik Roblek, M. Tagliasacchi. One-Shot Conditional Audio Filtering Of Arbitrary Sounds. ICASSP 2021 - 2021 IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP) (2020).
Bowei Hou, Kacper Radzikowski, A. Farid. Fine-Tuning Using Grid Search & Gradient Visualization Technical Report (2020).
C. Asplund, Takashi Obana, P. Bhatnagar, Xun Quan Koh, Simon T. Perrault. It’S All In The Timing. ACM Trans. Comput. Hum. Interact. (2020).
Charles Bales, C. John, Hasan Farooq, Usama Masood, Muhammad Nabeel, A. Imran. Can Machine Learning Be Used To Recognize And Diagnose Coughs?. 2020 International Conference on e-Health and Bioengineering (EHB) (2020).
Charles Bales, Charles N. John, H. Farooq, Usama Masood, M. Nabeel, A. Imran. Can Machine Learning Be Used To Recognize And Diagnose Coughs?. 2020 International Conference on e-Health and Bioengineering (EHB) (2020).
Chung-il Kim, Yongjang Cho, Seung-Won Jung, Jehyeok Rew, Eenjun Hwang. Animal Sounds Classification Scheme Based On Multi-Feature Network With Mixed Datasets. KSII Transactions on Internet and Information Systems (2020).
D. Elliott, Evan Martino, C. Otero, Anthony O. Smith, A. Peter, Benjamin Luchterhand, Eric Lam, S. Leung. Cyber-Physical Analytics: Environmental Sound Classification At The Edge. 2020 IEEE 6th World Forum on Internet of Things (WF-IoT) (2020).
D. Liang, Wenting Song, E. Thomaz. Characterizing The Effect Of Audio Degradation On Privacy Perception And Inference Performance In Audio-Based Human Activity Recognition. MobileHCI (2020).
Daiki Takeuchi, Y. Koizumi, Y. Ohishi, N. Harada, Kunio Kashino. Effects Of Word-Frequency Based Pre- And Post- Processings For Audio Captioning. ArXiv (2020).
Danula Hettiachchi, Zhanna Sarsenbayeva, F. Allison, N. V. Berkel, Tilman Dingler, Gabriele Marini, V. Kostakos, J. Gonçalves. 'Hi! I Am The Crowd Tasker' Crowdsourcing Through Digital Voice Assistants. CHI (2020).
Dhruv Jain, Hung Q. Ngo, P. Patel, Steven Goodman, Leah Findlater, Jon Froehlich. Soundwatch: Exploring Smartwatch-Based Deep Learning Approaches To Support Sound Awareness For Deaf And Hard Of Hearing Users. ASSETS (2020).
Dhruv Jain, Kelly Mack, Akli Amrous, Matt Wright, S. Goodman, Leah Findlater, Jon Froehlich. Homesound: An Iterative Field Deployment Of An In-Home Sound Awareness System For Deaf Or Hard Of Hearing Users. CHI (2020).
E. Fonseca, Diego Ortego, K. McGuinness, N. O'Connor, X. Serra. Unsupervised Contrastive Learning Of Sound Event Representations. ArXiv (2020).
E. Fonseca, Shawn Hershey, M. Plakal, D. Ellis, A. Jansen, R. C. Moore. Addressing Missing Labels In Large-Scale Sound Event Recognition Using A Teacher-Student Framework With Loss Masking. IEEE Signal Processing Letters (2020).
E. Fonseca, Xavier Favory, J. Pons, F. Font, X. Serra. Fsd50K: An Open Dataset Of Human-Labeled Sound Events. ArXiv (2020).
Eduardo Fonseca, Shawn Hershey, M. Plakal, D. Ellis, A. Jansen, R. C. Moore. Addressing Missing Labels In Large-Scale Sound Event Recognition Using A Teacher-Student Framework With Loss Masking. IEEE Signal Processing Letters (2020).
Eduardo Fonseca, Xavier Favory, Jordi Pons, F. Font, X. Serra. Fsd50K: An Open Dataset Of Human-Labeled Sound Events. IEEE/ACM Transactions on Audio, Speech, and Language Processing (2020).
Etienne Richan, J. Rouat. A Proposal And Evaluation Of New Timbre Visualization Methods For Audio Sample Browsers. Personal and Ubiquitous Computing (2020).
Etienne Richan, Jean Rouat. A Proposal And Evaluation Of New Timbre Visualization Methods For Audio Sample Browsers. Personal and Ubiquitous Computing (2020).
F. Naccari, I. Guarneri, S. Curti, A. Savi. Embedded Acoustic Scene Classification For Low Power Microcontroller Devices. DCASE (2020).
Fei Jia, Somshubra Majumdar, B. Ginsburg. Marblenet: Deep 1D Time-Channel Separable Convolutional Neural Network For Voice Activity Detection. ArXiv (2020).
Fei Jia, Somshubra Majumdar, Boris Ginsburg. Marblenet: Deep 1D Time-Channel Separable Convolutional Neural Network For Voice Activity Detection. ICASSP 2021 - 2021 IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP) (2020).
Felicia Lim, W. Kleijn, M. Chinen, J. Skoglund. Robust Low Rate Speech Coding Based On Cloned Networks And Wavenet. ICASSP 2020 - 2020 IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP) (2020).
Francisco Bernardo. Interactive Machine Learning For User-Innovation Toolkits : An Action Design Research Approach (2020).
G. Lavrentyeva, M. Volkova, A. Avdeeva, S. Novoselov, Artem Gorlanov, Tseren Andzhukaev, A. Ivanov, A. Kozlov. Blind Speech Signal Quality Estimation For Speaker Verification Systems. INTERSPEECH (2020).
Gabriel Meseguer-Brocal, Alice Cohen-Hadria, Geoffroy Peeters. Creating Dali, A Large Dataset Of Synchronized Audio, Lyrics, And Notes. Trans. Int. Soc. Music. Inf. Retr. (2020).
H. Xie, T. Virtanen. Zero-Shot Audio Classification Via Semantic Embeddings. (2020).
Hitham Jleed, M. Bouchard. Open Set Audio Recognition For Multi-Class Classification With Rejection. IEEE Access (2020).
Honglie Chen, Weidi Xie, A. Vedaldi, Andrew Zisserman. Vggsound: A Large-Scale Audio-Visual Dataset. ICASSP 2020 - 2020 IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP) (2020).
Huang Xie, Tuomas Virtanen. Zero-Shot Audio Classification Via Semantic Embeddings. IEEE/ACM Transactions on Audio, Speech, and Language Processing (2020).
Hyeong-Seok Choi, Hye-Seong Heo, J. H. Lee, K. Lee. Phase-Aware Single-Stage Speech Denoising And Dereverberation With U-Net. ArXiv (2020).
Ivo Trowitzsch. Robust Sound Event Detection In Binaural Computational Auditory Scene Analysis (2020).
J. Balam, Jocelyn Huang, V. Lavrukhin, Slyne Deng, Somshubra Majumdar, B. Ginsburg. Improving Noise Robustness Of An End-To-End Neural Model For Automatic Speech Recognition (2020).
Jae-Bin Kim, Seongkyu Mun, Myungwoo Oh, Soyeon Choe, Yong-Hyeok Lee, Hyung-Min Park. Overcoming Label Noise In Audio Event Detection Using Sequential Labeling. ArXiv (2020).
Jiale Yang, Ying Zhang, Yang Hai. Retrieval And Management System For Layer Sound Effect Library (2020).
Jin Sean Lim. Ensemble Learning Of High Dimension Datasets (2020).
Jinta Zheng, Shih-Hsuan Hung, Kyle Hiebel, Y. Zhang. Real-Time Rendering Of Decorative Sound Textures For Soundscapes. ACM Trans. Graph. (2020).
Joann Ching, Ant'onio Ramires, Y. Yang. Instrument Role Classification: Auto-Tagging For Loop Based Music (2020).
Joseph P. Turian, M. Henry. I'M Sorry For Your Loss: Spectrally-Based Audio Distances Are Bad At Pitch. ArXiv (2020).
João Pedro Duarte Galileu. Urban Sound Event Classification For Audio-Based Surveillance Systems (2020).
K. He, Yu-Han Shen, W. Zhang, J. Liu. Staged Training Strategy And Multi-Activation For Audio Tagging With Noisy And Sparse Multi-Label Data. ICASSP 2020 - 2020 IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP) (2020).
K. Miyazaki, Tatsuya Komatsu, T. Hayashi, Shinji Watanabe, T. Toda, K. Takeda. Weakly-Supervised Sound Event Detection With Self-Attention. ICASSP 2020 - 2020 IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP) (2020).
K. Prinz, A. Flexer. End-To-End Adversarial White Box Attacks On Music Instrument Classification. ArXiv (2020).
K. Prinz, A. Flexer, G. Widmer. The Impact Of Label Noise On A Music Tagger. ArXiv (2020).
Kohki Mametani, Xavier Favory, Co-Supervisor Frederic Font. Learning Sound Representations Using Triplet-Loss (2020).
Konstantinos Drossos, Samuel Lipping, T. Virtanen. Clotho: An Audio Captioning Dataset. ICASSP 2020 - 2020 IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP) (2020).
L. Delphin-Poulat, R. Nicol, Cyril Plapous, Katell Peron. Comparative Assessment Of Data Augmentation For Semi-Supervised Polyphonic Sound Event Detection. 2020 27th Conference of Open Innovations Association (FRUCT) (2020).
L. Gao, Kele Xu, H. Wang, Yu-xing Peng. Multi-Representation Knowledge Distillation For Audio Classification. ArXiv (2020).
L. Turchet. Cloud-Smart Musical Instrument Interactions: Querying A Large Music Collection With A Smart Guitar (2020).
L. Turchet, G. Fazekas, M. Lagrange, H. S. Ghadikolaei, C. Fischione. The Internet Of Audio Things: State Of The Art, Vision, And Challenges. IEEE Internet of Things Journal (2020).
L. Turchet, Jhonny Hueller. Promoting Awareness On Sustainable Behavior Through An Ar-Based Art Gallery. AVR (2020).
L. Wijayasingha, J. Stankovic. Robustness To Noise For Speech Emotion Classification Using Cnns And Attention Mechanisms (2020).
L. Zhang, Ziqiang Shi, Jiqing Han. Pyramidal Temporal Pooling With Discriminative Mapping For Audio Classification. IEEE/ACM Transactions on Audio, Speech, and Language Processing (2020).
Lu Cao, Yu-long Chen, Dandan Huang, Y. Zhang. Investigating Rich Feature Sources For Conceptual Representation Encoding. COGALEX (2020).
Luca Turchet, Alex Zanetti. Voice-Based Interface For Accessible Soundscape Composition: Composing Soundscapes By Vocally Querying Online Sounds Repositories. Audio Mostly Conference (2020).
Luca Turchet, J. Pauwels, C. Fischione, György Fazekas. Cloud-Smart Musical Instrument Interactions. ACM Trans. Internet Things (2020).
M. Tagliasacchi, Y. Li, Karolis Misiunas, Dominik Roblek. Seanet: A Multi-Modal Speech Enhancement Network. INTERSPEECH (2020).
M. Tagliasacchi, Yunpeng Li, Karolis Misiunas, Dominik Roblek. Seanet: A Multi-Modal Speech Enhancement Network. INTERSPEECH (2020).
Michael Wand, Jiirgen Schmidhuber. Fusion Architectures For Word-Based Audiovisual Speech Recognition. INTERSPEECH (2020).
Michela Cantarini, L. Serafini, L. Gabrielli, E. Principi, S. Squartini. Emergency Siren Recognition In Urban Scenarios: Synthetic Dataset And Deep Learning Models. ICIC (2020).
Nicolas Furnon, Romain Serizel, I. Illina, S. Essid. Dnn-Based Mask Estimation For Distributed Speech Enhancement In Spatially Unconstrained Microphone Arrays (2020).
Nicolas Turpault, R. Serizel, E. Vincent. Limitations Of Weak Labels For Embedding And Tagging. ICASSP 2020 - 2020 IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP) (2020).
Nicolas Turpault, Romain Serizel. Training Sound Event Detection On A Heterogeneous Dataset. ArXiv (2020).
Nicolas Turpault, Romain Serizel, E. Vincent. Limitations Of Weak Labels For Embedding And Tagging. ICASSP 2020 - 2020 IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP) (2020).
Nicolas Turpault, Romain Serizel, Scott T. Wisdom, H. Erdogan, J. Hershey, E. Fonseca, P. Seetharaman, Justin Salamon. Sound Event Detection And Separation: A Benchmark On Desed Synthetic Soundscapes. ArXiv (2020).
Nicolas Turpault, S. Wisdom, H. Erdogan, J. Hershey, Romain Serizel, E. Fonseca, P. Seetharaman, Justin Salamon. Improving Sound Event Detection In Domestic Environments Using Sound Separation. ArXiv (2020).
R. Guo, Y. Yang, Johnson Kuang, X. Bin, Dhruv Jain, Steven Goodman, Leah Findlater, Jon Froehlich. Holosound: Combining Speech And Sound Identification For Deaf Or Hard Of Hearing Users On A Head-Mounted Display. ASSETS (2020).
Romain Serizel, Nicolas Turpault, Ankit Shah, Justin Salamon. Sound Event Detection In Synthetic Domestic Environments. ICASSP 2020 - 2020 IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP) (2020).
S. Barbosa, P. Chen, Alfredo Cuzzocrea, Xiaoyong Du, Orhun Kara, Ting Liu, K. Sivalingam, D. Slezak, T. Washio, Xiaokang Yang, J. Yuan, R. Prates, S. Bernardi, V. Vittorini, Francesco Flammini, R. Nardone, S. Marrone, R. Adler, Daniel Schneider, P. Schleiss, Nicola Nostro, R. Olsen, Amleto Di Salle, P. Masci. Dependable Computing - Edcc 2020 Workshops: Ai4Rails, Dreams, Dsogri, Serene 2020, Munich, Germany, September 7, 2020, Proceedings. EDCC Workshops (2020).
S. Deshmukh, B. Raj, R. Singh. Multi-Task Learning For Interpretable Weakly Labelled Sound Event Detection. ArXiv (2020).
S. Veena, M. Nerisai, J. Remya, S. SaiTejah.. Challenges And Issues Of Sound Archives For Environmental Sound Classification (2020).
S. Wisdom, Efthymios Tzinis, H. Erdogan, Ron J. Weiss, K. Wilson, J. Hershey. Unsupervised Sound Separation Using Mixture Invariant Training. NeurIPS (2020).
S. Wisdom, Efthymios Tzinis, H. Erdogan, Ron J. Weiss, K. Wilson, J. Hershey. Unsupervised Sound Separation Using Mixtures Of Mixtures. ArXiv (2020).
S. Wisdom, Efthymios Tzinis, Hakan Erdogan, Ron J. Weiss, K. Wilson, J. Hershey. Unsupervised Sound Separation Using Mixture Invariant Training. NeurIPS (2020).
S. Yoon, Min-Sung Koh, Ha-Jin Yu. Fuzzy Restricted Boltzmann Machine Based Probabilistic Linear Discriminant Analysis For Noise-Robust Text-Dependent Speaker Verification On Short Utterances (2020).
Sangwook Park, Ashwin Bellur, Sandeep Reddy Kothinti, Masoumeh Heidari Kapourchali, M. Elhilali. Joint Acoustic And Supervised Inference For Sound Event Detection Technical Report (2020).
Scott T. Wisdom, H. Erdogan, D. Ellis, Romain Serizel, Nicolas Turpault, E. Fonseca, Justin Salamon, P. Seetharaman, J. Hershey. What'S All The Fuss About Free Universal Sound Separation Data?. ArXiv (2020).
Somshubra Majumdar, B. Ginsburg. Matchboxnet: 1D Time-Channel Separable Convolutional Neural Network Architecture For Speech Commands Recognition. INTERSPEECH (2020).
Somshubra Majumdar, Boris Ginsburg. Matchboxnet: 1D Time-Channel Separable Convolutional Neural Network Architecture For Speech Commands Recognition. INTERSPEECH (2020).
T. Iqbal, Yin Cao, Qiuqiang Kong, Mark D. Plumbley, Wenwu Wang. Learning With Out-Of-Distribution Data For Audio Classification. ICASSP 2020 - 2020 IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP) (2020).
Theodoros Psallidas, Alexander Mitsou, George Pikramenos, E. Spyrou, Theodore Giannakopoulos. Archeo: A Dataset For Sound Event Detection In Areas Of Touristic Interest. 2020 15th International Workshop on Semantic and Social Media Adaptation and Personalization (SMA (2020).
Tom Denton, Alejandro Luebs, Felicia S. C. Lim, Andrew Storus, Hengchin Yeh, W. Kleijn, J. Skoglund. Handling Background Noise In Neural Speech Generation. 2020 54th Asilomar Conference on Signals, Systems, and Computers (2020).
Tom Mudd, - KatieWilkie, Mckenna, A. Mcpherson, M. Wanderley. Embodied Musical Interaction Body Physiology, Cross Modality, And Sonic Experience (2020).
Tony Marteau, Sitou Afanou, D. Sodoyer, Sébastien Ambellouis, F. Elbahhar. Audio Events Detection In Noisy Embedded Railway Environments. EDCC Workshops (2020).
Xavier Favory, F. Font, X. Serra. Search Result Clustering In Collaborative Sound Collections. ICMR (2020).
Xavier Favory, Konstantinos Drossos, T. Virtanen, X. Serra. Learning Contextual Tag Embeddings For Cross-Modal Alignment Of Audio And Tags. ArXiv (2020).
Xavier Favory, Konstantinos Drossos, T. Virtanen, X. Serra. Coala: Co-Aligned Autoencoders For Learning Semantically Enriched Audio Representations. ArXiv (2020).
Y. Koizumi, Ryo Masumura, Kyosuke Nishida, M. Yasuda, S. Saito. A Transformer-Based Audio Captioning Model With Keyword Estimation. INTERSPEECH (2020).
You-Siang Chen, Zi Jie Lin, Shang-En Li, Chih-Yuan Koh, M. R. Bai, Jen-Tzung Chien, Yi-Wen Liu. Combined Sound Event Detection And Sound Event Separation Networks For Dcase 2020 Task 4 Technical Report (2020).
Yui Sudo, Katsutoshi Itoyama, Kenji Nishida, K. Nakadai. Multichannel Environmental Sound Segmentation. Applied Intelligence (2020).
Yuma Koizumi, Ryo Masumura, Kyosuke Nishida, Masahiro Yasuda, S. Saito. A Transformer-Based Audio Captioning Model With Keyword Estimation. INTERSPEECH (2020).

2019 (76)

. Development Of Algorithms For Gunshot Detection (2019).
A. Kumar, Ankit Shah, A. Hauptmann, B. Raj. Learning Sound Events From Webly Labeled Data. IJCAI (2019).
A. Salekin, Shabnam Ghaffarzadegan, Zhe Feng, J. Stankovic. A Real-Time Audio Monitoring Framework With Limited Data For Constrained Devices. 2019 15th International Conference on Distributed Computing in Sensor Systems (DCOSS) (2019).
A. Tanaka. Embodied Musical Interaction - Body Physiology, Cross Modality, And Sonic Experience. New Directions in Music and Human-Computer Interaction (2019).
Ant'onio Ramires, X. Serra. Data Augmentation For Instrument Classification Robust To Audio Effects. ArXiv (2019).
António Ramires, Pritish Chandna, Xavier Favory, Emilia G'omez, X. Serra. Neural Percussive Synthesis Parameterised By High-Level Timbral Features. ICASSP 2020 - 2020 IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP) (2019).
Ariane Stolfi, A. Milo, M. Barthet. Playsound.Space: Improvising In The Browser With Semantic Sound Objects (2019).
B. Elizalde, Shuayb Zarar, B. Raj. Cross Modal Audio Search And Retrieval With Joint Embeddings Based On Text And Audio. ICASSP 2019 - 2019 IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP) (2019).
B. H. D. Koh, W. L. Woo. Multi-View Temporal Ensemble For Classification Of Non-Stationary Signals. IEEE Access (2019).
B. McFee, J. Kim, M. Cartwright, Justin Salamon, Rachel M. Bittner, J. Bello. Open-Source Practices For Music Signal Processing Research: Recommendations For Transparent, Sustainable, And Reproducible Audio Research. IEEE Signal Processing Magazine (2019).
B. Silva, Axel W. Happi, An Braeken, A. Touhafi. Evaluation Of Classical Machine Learning Techniques Towards Urban Sound Recognitionon Embedded Systems. Applied Sciences (2019).
B. Zhu, Kele Xu, D. Wang, Mathurin Aché. Detection And Classification Of Acoustic Scenes And Events 2019 Challenge Multi-Label Audio Tagging With Noisy Labels And Variable Length Technical Report (2019).
Boyang Zhang Jared Leitner, Samuel Thornton. Audio Recognition Using Mel Spectrograms And Convolution Neural Networks (2019).
C. Kim, Byeongchang Kim, Hyunmin Lee, Gunhee Kim. Audiocaps: Generating Captions For Audios In The Wild. NAACL (2019).
Ceren Can. Automatic Discrimination Of Domestic Cat Sounds And Imitations (2019).
Chenliang Xu. Preprint-Work In Progress (2019).
D. Liang, E. Thomaz. Audio-Based Activities Of Daily Living (Adl) Recognition With Large-Scale Acoustic Embeddings From Online Videos. Proc. ACM Interact. Mob. Wearable Ubiquitous Technol. (2019).
Dimitra Emmanouilidou, H. Gamper. The Effect Of Room Acoustics On Audio Event Classification (2019).
E. Fonseca, F. Font, Xavier Serra. Model-Agnostic Approaches To Handling Noisy Labels When Training Sound Event Classifiers. 2019 IEEE Workshop on Applications of Signal Processing to Audio and Acoustics (WASPAA) (2019).
E. Fonseca, M. Plakal, D. Ellis, F. Font, Xavier Favory, X. Serra. Learning Sound Event Classifiers From Web Audio With Noisy Labels. ICASSP 2019 - 2019 IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP) (2019).
E. Fonseca, M. Plakal, F. Font, D. Ellis, X. Serra. Audio Tagging With Noisy Labels And Minimal Supervision. ArXiv (2019).
Eero-Pekka Damskägg, Lauri Juvela, Etienne Thuillier, V. Välimäki. Deep Learning For Tube Amplifier Emulation. ICASSP 2019 - 2019 IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP) (2019).
Etienne Richan, J. Rouat. A Study Comparing Shape, Colour And Texture As Visual Labels In Audio Sample Browsers. Audio Mostly Conference (2019).
Evren Kanalici, Gokhan Bilgin. Scattering Wavelet Hash Fingerprints For Musical Audio Recognition (2019).
F. J. M. Ortega, Sergio I. Giraldo, A. Pérez, R. Ramírez. Phrase-Level Modeling Of Expression In Violin Performances. Front. Psychol. (2019).
H. Koh, W. L. Woo. Multi-View Temporal Ensemble For Classification Of Non-Stationary Signals (2019).
H. Xie, T. Virtanen. Zero-Shot Audio Classification Based On Class Label Embeddings. 2019 IEEE Workshop on Applications of Signal Processing to Audio and Acoustics (WASPAA) (2019).
Haikun Huang, M. Solah, Dingzeyu Li, Lap-Fai Yu. Audible Panorama: Automatic Spatial Audio Generation For Panorama Imagery. CHI (2019).
Harishchandra Dubey, Dimitra Emmanouilidou, I. Tashev. Cure Dataset: Ladder Networks For Audio Event Classification. 2019 IEEE Pacific Rim Conference on Communications, Computers and Signal Processing (PACRIM) (2019).
Harsh Purohit, R. Tanabe, K. Ichige, T. Endo, Y. Nikaido, Kaori Suefusa, Y. Kawaguchi. Mimii Dataset: Sound Dataset For Malfunctioning Industrial Machine Investigation And Inspection. ArXiv (2019).
Ivo Trowitzsch, Jalil Taghia, Youssef Kashef, K. Obermayer. The Nigens General Sound Events Database. ArXiv (2019).
J. He, Penghao Rao, B. Sun, Lejun Yu. Audio Tagging With Minimal Supervision Based On Mean Teacher For Dcase 2019 Challenge Task 2 Technical Report (2019).
J. Pons, J. Serrà, X. Serra. Training Neural Audio Classifiers With Few Data. ICASSP 2019 - 2019 IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP) (2019).
J. Ramírez, M. Flores. Machine Learning For Music Genre: Multifaceted Review And Experimentation With Audioset. Journal of Intelligent Information Systems (2019).
Jonas Margraf. Master'S Thesis: Self-Organizing Maps For Sound Corpus Organization (2019).
K. Ahmad, N. Conci. How Deep Features Have Improved Event Recognition In Multimedia. ACM Trans. Multim. Comput. Commun. Appl. (2019).
K. He, Yu-Han Shen, W. Zhang. Multiple Neural Networks With Ensemble Method For Audio Tagging With Noisy Labels And Minimal Supervision (2019).
K. Prinz, A. Flexer. Weak Multi-Label Audio-Tagging With Class Noise (2019).
K. Salo. Modular Audio Platform For Youth Engagement In A Museum Context (2019).
Kele Xu, B. Zhu, Qiuqiang Kong, Haibo Mi, B. Ding, D. Wang, H. Wang. General Audio Tagging With Ensembling Convolutional Neural Network And Statistical Features. The Journal of the Acoustical Society of America (2019).
Kexin He, Yuhan Shen, W. Zhang. Thuee System For Dcase 2019 Challenge Task 2 Technical Report (2019).
L. D. Paolis, P. Bourdot. Augmented Reality, Virtual Reality, And Computer Graphics: 6Th International Conference, Avr 2019, Santa Maria Al Bagno, Italy, June 24–27, 2019, Proceedings, Part Ii. AVR (2019).
L. Gao, Haibo Mi, B. Zhu, Da-wei Feng, Yicong Li, Y. Peng. An Adversarial Feature Distillation Method For Audio Classification. IEEE Access (2019).
L. Gao, Qirong Mao, M. Dong, Y. Jing, R. Chinnam. On Learning Disentangled Representation For Acoustic Event Detection. ACM Multimedia (2019).
L. Lin, X. Wang, Hong Liu, Yueliang Qian. Guided Learning Convolution System For Dcase 2019 Task 4. ArXiv (2019).
Lluis Suros. Clustering Of Multiple-Event Online Sound Collections With The Codebook Approach (2019).
Luca Turchet, M. Barthet. An Ubiquitous Smart Guitar System For Collaborative Musical Practice (2019).
Léo Cances, T. Pellegrini, Patrice Guyot. Multi-Task Learning And Post Processing Optimization For Sound Event Detection Technical Report (2019).
M. Cartwright, Ana Elisa Méndez Méndez, J. Cramer, Vincent Lostanlen, G. Dove, Ho-Hsiang Wu, Justin Salamon, Oded Nov, J. Bello. Sonyc Urban Sound Tagging (Sonyc-Ust): A Multilabel Dataset From An Urban Acoustic Sensor Network (2019).
Masayuki Karasuyama, Masashi Sugiyama. Title Canonical Dependency Analysis Based On Squared-Loss Mutualinformation (2019).
Md. Rahat-uz-Zaman, Shadmaan Hye, M. Hasan. Audio Future Block Prediction With Conditional Generative Adversarial Network. 2019 3rd International Conference on Electrical, Computer & Telecommunication Engineering (ICECTE) (2019).
Miles Thorogood. Soundscape Generation Systems (2019).
Miles Thorogood, Jianyu Fan, P. Pasquier. A Framework For Computer-Assisted Sound Design Systems Supported By Modelling Affective And Perceptual Properties Of Soundscape (2019).
Nicolas Turpault, R. Serizel, Ankit Shah, Justin Salamon. Sound Event Detection In Domestic Environments With Weakly Labeled Data And Soundscape Synthesis (2019).
Nicolas Turpault, R. Serizel, E. Vincent. Semi-Supervised Triplet Loss Based Learning Of Ambient Audio Embeddings. ICASSP 2019 - 2019 IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP) (2019).
Nicolas Turpault, R. Serizel, E. Vincent. Semi-Supervised Triplet Loss Based Learning Of Ambient Audio Embeddings. ICASSP 2019 - 2019 IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP) (2019).
O. Akiyama, J. Sato. Dcase 2019 Task 2: Multitask Learning, Semi-Supervised Learning And Model Ensemble With Noisy Data For Audio Tagging (2019).
Qiuqiang Kong, Yin Cao, T. Iqbal, Y. Xu, W. Wang, Mark D. Plumbley. Cross-Task Learning For Audio Tagging, Sound Event Detection And Spatial Localization: Dcase 2019 Baseline Systems. ArXiv (2019).
S. A. Shahriyar, M. Akhand, N. Siddique, T. Shimamura. Speech Enhancement Using Convolutional Denoising Autoencoder. 2019 International Conference on Electrical, Computer and Communication Engineering (ECCE) (2019).
S. Astapov, G. Svirskiy, A. Lavrentyev, Tatyana Prisyach, D. Popov, Dmitriy Ubskiy, Vladimir Kabarov. Acoustic Event Mixing To Multichannel Ami Data For Distant Speech Recognition And Acoustic Event Classification Benchmarking. SPECOM (2019).
S. Singh, A. Pankajakshan, Emmanouil Benetos, Events. Audio Tagging Using A Linear Noise Modelling Layer (2019).
Shota Ikawa, Kunio Kashino. Neural Audio Captioning Based On Conditional Sequence-To-Sequence Model (2019).
Slawomir Kapka, M. Lewandowski. Sound Source Detection, Localization And Classification Using Consecutive Ensemble Of Crnn Models. DCASE (2019).
Szu-Yu Chou, Kai-Hsiang Cheng, J. Jang, Y. Yang. Learning To Match Transient Sound Events Using Attentional Similarity For Few-Shot Sound Recognition. ICASSP 2019 - 2019 IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP) (2019).
Tobias Goehring, M. Keshavarzi, R. Carlyon, B. Moore. Using Recurrent Neural Networks To Improve The Perception Of Speech In Non-Stationary Noise By People With Cochlear Implants.. The Journal of the Acoustical Society of America (2019).
W. Wang, F. Seraj, N. Meratnia, P. Havinga. Privacy-Aware Environmental Sound Classification For Indoor Human Activity Recognition. PETRA (2019).
Wootaek Lim. Specaugment For Sound Event Detection In Domestic Environments Using Ensemble Of Convolutional Recurrent Neural Networks (2019).
Wootaek Lim, S. Suh, Sooyoung Park, Youngho Jeong. Sound Event Detection In Domestic Environments Using Ensemble Of Convolutional Recurrent Neural Networks Technical Report (2019).
Xavier Favory, X. Serra. Multi Web Audio Sequencer: Collaborative Music Making. ArXiv (2019).
Yapeng Tian, Chenliang Xu, Dingzeyu Li. Deep Audio Prior. ArXiv (2019).
Yapeng Tian, Chenliang Xu, Dingzeyu Li. Deep Audio Prior. ArXiv (2019).
Yapeng Tian, Chenliang Xu, Dingzeyu Li. Deep Audio Prior. ArXiv (2019).
Yuma Koizumi, S. Saito, H. Uematsu, N. Harada, Keisuke Imoto. Toyadmos: A Dataset Of Miniature-Machine Operating Sounds For Anomalous Sound Detection. 2019 IEEE Workshop on Applications of Signal Processing to Audio and Acoustics (WASPAA) (2019).
Z. Podwinska, B. Fazenda, W. Davies. Testing Spatial Aspects Of Auditory Salience (2019).
Ziqiang Shi. Hodgepodge: Sound Event Detection Based On Ensemble Of Semi-Supervised Learning Methods Technical Report (2019).
Ziqiang Shi, L. Liu, Huibin Lin, R. Liu, Anyan Shi. Hodgepodge: Sound Event Detection Based On Ensemble Of Semi-Supervised Learning Methods. ArXiv (2019).

2018 (38)

Andreu Boadas Rabassedas. Study Of The Signal Properties Of Music Genres (2018).
Aniel Rossi. Event Recognition Of Domestic Sounds Using Semi-Supervised Learning (2018).
Anna Xambó, G. Roma, Alexander Lerch, M. Barthet, György Fazekas. Live Repurposing Of Sounds: Mir Explorations With Personal And Crowdsourced Databases. NIME (2018).
Ariane de Souza Stolfi, Miguel Ceriani, Luca Turchet, M. Barthet. Playsound.Space: Inclusive Free Music Improvisations Using Audio Commons. NIME (2018).
Chris Baume. Semantic Audio Tools For Radio Production (2018).
E. Fonseca, M. Plakal, F. Font, D. Ellis, Xavier Favory, J. Pons, X. Serra. General-Purpose Tagging Of Freesound Audio With Audioset Labels: Task Description, Dataset, And Baseline. ArXiv (2018).
F. Viola, A. Stolfi, A. Milo, Miguel Ceriani, M. Barthet, György Fazekas. Playsound.Space: Enhancing A Live Music Performance Tool With Semantic Recommendations. SAAM@ISWC (2018).
F. Viola, Ariane Stolfi, A. Milo, Miguel Ceriani, M. Barthet, György Fazekas. Playsound.Space: Enhancing A Live Performance Tool With Semantic Recommendations (2018).
G. Roma, Owen Green, Anna Xambó, P. Tremblay. A Javascript Library For Flexible Visualization Of Audio Descriptors (2018).
Gabriel Meseguer-Brocal, Alice Cohen-Hadria, Geoffroy Peeters. Dali: A Large Dataset Of Synchronized Audio, Lyrics And Notes, Automatically Created Using Teacher-Student Machine Learning Paradigm. ISMIR (2018).
Gerard Llorach, G. Grimm, Maartje M. E. Hendrikse, V. Hohmann. Towards Realistic Immersive Audiovisual Simulations For Hearing Research: Capture, Virtual Scenes And Reproduction. AVSU@MM (2018).
Gierad Laput, K. Ahuja, Mayank Goel, C. Harrison. Ubicoustics: Plug-And-Play Acoustic Activity Recognition. UIST (2018).
Gierad Laput, Karan Ahuja, Mayank Goel, Chris Harrison. Ubicoustics. Proceedings of the 31st Annual ACM Symposium on User Interface Software and Technology (2018).
Henry Kvinge, Elin Farnell, M. Kirby, C. Peterson. Monitoring The Shape Of Weather, Soundscapes, And Dynamical Systems: A New Statistic For Dimension-Driven Data Analysis On Large Datasets. 2018 IEEE International Conference on Big Data (Big Data) (2018).
J. Palomaki, Olivia Rhinehart, Michael Tseng. A Case For A Range Of Acceptable Annotations. SAD/CrowdBias@HCOMP (2018).
Kele Xu, B. Zhu, D. Wang, Yu-xing Peng, H. Wang, Lilun Zhang, B. Li. Meta Learning Based Audio Tagging (2018).
Kevin Wilkinghoff. General-Purpose Audio Tagging By Ensembling Convolutional Neural Networks Based On Multiple Features (2018).
L. Turchet, M. Barthet. Jamming With A Smart Mandolin And Freesound-Based Accompaniment. 2018 23rd Conference of Open Innovations Association (FRUCT) (2018).
Linus Lexfors, Malte Johansson. Audio Representation For Environmental Sound Classification Using Convolutional Neural Networks (2018).
M. Dorfer, G. Widmer. Training General-Purpose Audio Tagging Networks With Noisy Labels And Iterative Self-Verification (2018).
M. Mancas, Christian Frisson, E. al., Noé Tits. Proceedings Of Enterface 2015 Workshop On Intelligent Interfaces. ArXiv (2018).
M. Plumbley, Christian Kroos, J. Bello, G. Richard, D. Ellis, A. Mesaros. Proceedings Of The Detection And Classification Of Acoustic Scenes And Events 2018 Workshop (Dcase2018) (2018).
MeMAD Deliverable. Memad Deliverable D 2 . 1 Libraries And Tools For Multimodal Content Analysis (2018).
Michael Wand, Ngoc Thang Vu, J. Schmidhuber. Investigations On End- To-End Audiovisual Fusion. 2018 IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP) (2018).
Naoya Takahashi, Michael Gygli, L. V. Van Gool. Aenet: Learning Deep Audio Features For Video Analysis. IEEE Transactions on Multimedia (2018).
Philip Tovstogan. Exploring Music Similarity With Acousticbrainz (2018).
Shota Ikawa, Kunio Kashino. Acoustic Event Search With An Onomatopoeic Query: Measuring Distance Between Onomatopoeic Words And Sounds (2018).
Sophie Skach, Anna Xambó, L. Turchet, A. Stolfi, R. Stewart, M. Barthet. Embodied Interactions With E-Textiles And The Internet Of Sounds For Performing Arts. Tangible and Embedded Interaction (2018).
T. Iqbal, Qiuqiang Kong, Mark D. Plumbley, W. Wang. General-Purpose Audio Tagging From Noisy Labels Using Convolutional Neural Networks (2018).
T. Malon, G. Roman-Jimenez, Patrice Guyot, S. Chambon, V. Charvillat, A. Crouzil, A. Péninou, J. Pinquier, F. Sèdes, C. Sénac. Toulouse Campus Surveillance Dataset: Scenarios, Soundtracks, Synchronized Videos With Overlapping And Disjoint Views. MMSys (2018).
Thi Ngoc Tho Nguyen, Ngoc Khanh Nguyen, Douglas L. Jones, W. Gan. Dcase 2018 Task 2: Iterative Training, Label Smoothing, And Background Noise Normalization For Audio Event Tagging. DCASE (2018).
Tian-Xiang Chen, Udit Gupta. Attention-Based Convolutional Neural Network For Audio Event Classification With Feature Transfer Learning (2018).
Turab Iqbal, Qiuqiang Kong, D. Plumbley, Mark D. Plumbley. Stacked Convolutional Neural Networks For General-Purpose Audio Tagging Technical Report (2018).
V. Subramanian, Alexander Lerch. Concert Stitch: Organization And Synchronization Of Crowd Sourced Recordings. ISMIR (2018).
Venkatesh S. Kadandale. Musical Instrument Recognition In Multi-Instrument Audio Contexts (2018).
Xavier Favory, E. Fonseca, F. Font, X. Serra. Facilitating The Manual Annotation Of Sounds When Using Large Taxonomies. ArXiv (2018).
Zhicun Xu. Audio Event Classification Using Deep Learning Methods (2018).
Zhicun Xu, P. Smit, M. Kurimo. The Aalto System Based On Fine-Tuned Audioset Features For Dcase2018 Task2 - General Purpose Audio Tagging (2018).

2017 (17)

A. C. D. C. Junior. Mobile Technologies For Music Interaction (2017).
A. Correya. Retrieving Ambiguous Sounds Using Perceptual Timbral Attributes In Audio Production Environments (2017).
A. Stolfi, M. Barthet, Fábio Goródscy, A. C. D. C. Junior. Open Band: A Platform For Collective Sound Dialogues. Audio Mostly Conference (2017).
Akito van Troyer. Score Instruments : A New Paradigm Of Musical Instruments To Guide Musical Wonderers (2017).
Aleksandr Diment, T. Virtanen. Transfer Learning Of Weakly Labelled Audio. 2017 IEEE Workshop on Applications of Signal Processing to Audio and Acoustics (WASPAA) (2017).
Ashwin K. Vijayakumar, Ramakrishna Vedantam, D. Parikh. Sound-Word2Vec: Learning Word Representations Grounded In Sounds. EMNLP (2017).
D. Hernández-Leo, Kostantinos Michos, B. Cabrero, Daniel, A. Martínez-Rodríguez, M. Muñoz, Carla Ten Ventura, K. Sharma, Manaswi Mishra, S. Bhardwaj, Adrian A Perez, Giorgos Neokleous, Pantelis Stylianides, Vibhor Bajpai, N. Delgado, Tessy Troes, Meghana Sudhindra, H. Cuesta. Phd Selection: Factors To Take Into Account (2017).
Douwe Kiela. Deep Embodiment: Grounding Semantics In Perceptual Modalities (2017).
Douwe Kiela, Stephen Clark. Learning Neural Audio Embeddings For Grounding Semantics In Auditory Perception. J. Artif. Intell. Res. (2017).
E. Cherny. A Method For Automatic Whoosh Sound Description (2017).
E. Fonseca, J. Pons, Xavier Favory, F. Font, D. Bogdanov, Andrés Ferraro, S. Oramas, A. Porter, X. Serra. Freesound Datasets: A Platform For The Creation Of Open Audio Datasets. ISMIR (2017).
Emiel van Miltenburg. Pragmatic Descriptions Of Perceptual Stimuli. EACL (2017).
Georgios Paraskevopoulos, Giannis Karamanolakis, E. Iosif, A. Pikrakis, A. Potamianos. Sensory-Aware Multimodal Fusion For Word Semantic Similarity Estimation (2017).
Hernán Ordiales, Matías Lennie Bruno. Sound Recycling From Public Databases: Another Bigdata Approach To Sound Collections. Audio Mostly Conference (2017).
M. Briani, A. Cuyt, W. Lee. Validated Exponential Analysis For Harmonic Sounds (2017).
S. R. Park, J. Lee. A Fully Convolutional Neural Network For Speech Enhancement. INTERSPEECH (2017).
Vincent Lostanlen. Convolutional Operators In The Time-Frequency Domain (2017).

2016 (21)

Chris Donahue. Extensions To Convolution For Generalized Cross-Synthesis (2016).
Chris Donahue, T. Erbe, M. Puckette. Extended Convolution Techniques For Cross-Synthesis. ICMC (2016).
Douwe Kiela. Mmfeat: A Toolkit For Extracting Multi-Modal Features. ACL (2016).
Elliot Creager. Musical Source Separation By Coherent Frequency Modulation Cues (2016).
Emiel van Miltenburg, Benjamin Timmermans, Lora Aroyo. The Vu Sound Corpus: Adding More Fine-Grained Annotations To The Freesound Database. LREC (2016).
Etto L. Salomons, P. Havinga, H. V. Leeuwen. Inferring Human Activity Recognition With Ambient Sound On Wireless Sensor Nodes. Sensors (2016).
F. Font, T. Brookes, G. Fazekas, M. Guerber, Amaury La Burthe, David Plans, Mark D. Plumbley, Meir Shaashua, W. Wang, X. Serra. Audio Commons: Bringing Creative Commons Audio Content To The Creative Industries (2016).
F. Font, X. Serra. Tempo Estimation For Music Loops And A Simple Confidence Measure. ISMIR (2016).
Giannis Karamanolakis, E. Iosif, A. Zlatintsi, A. Pikrakis, A. Potamianos. Audio-Based Distributional Representations Of Meaning Using A Fusion Of Feature Encodings. INTERSPEECH (2016).
Giuseppe Bandiera, O. Picas, Hiroshi Tokuda, Wataru Hariya, K. Oishi, X. Serra. Good-Sounds.Org: A Framework To Explore Goodness In Instrumental Sounds. ISMIR (2016).
H. Meutzner, D. Kolossa. A Non-Speech Audio Captcha Based On Acoustic Event Detection And Classification. 2016 24th European Signal Processing Conference (EUSIPCO) (2016).
J. R. Delgado-Contreras, J. García-Vázquez, R. Brena. Optimizing The Length Of An Environmental Audio Fingerprint For Place Classification. 2016 International Conference on Electronics, Communications and Computers (CONIELECOMP) (2016).
J. Serrà, Josep Lluís Arcos. Particle Swarm Optimization For Time Series Motif Discovery. Knowl. Based Syst. (2016).
Long-Van Nguyen-Dinh. Wearable Activity Recognition With Crowdsourced Annotation (2016).
M. F. Assaneo, J. Sitt, G. Varoquaux, M. Sigman, L. Cohen, M. Trevisan. Exploring The Anatomical Encoding Of Voice With A Mathematical Model Of The Vocal System. NeuroImage (2016).
M. F. Assaneo, M. F. Assaneo, J. Sitt, G. Varoquaux, G. Varoquaux, Mariano Sigman, Mariano Sigman, L. Cohen, Marcos A. Trevisan. Exploring The Anatomical Encoding Of Voice With A Mathematical Model Of The Vocal System. NeuroImage (2016).
Mark D. Plumbley, C. Kroos, J. Bello, G. Richard, D. Ellis, A. Mesaros. Proceedings Of The Detection And Classification Of Acoustic Scenes And Events 2018 Workshop (Dcase2018) (2016).
Naoya Takahashi, Michael Gygli, B. Pfister, L. Gool. Deep Convolutional Neural Networks And Data Augmentation For Acoustic Event Recognition. INTERSPEECH (2016).
Naoya Takahashi, Michael Gygli, B. Pfister, L. Gool. Deep Convolutional Neural Networks And Data Augmentation For Acoustic Event Detection (2016).
S. Parekh, F. Font, X. Serra. Improving Audio Retrieval Through Loudness Profile Categorization. 2016 IEEE International Symposium on Multimedia (ISM) (2016).
V. Goudarzi, A. Gioti. Engagement And Interaction In Participatory Sound Art (2016).

2015 (20)

A. Lopopolo, Emiel van Miltenburg. Sound-Based Distributional Models. IWCS (2015).
Anna Xambó. Tabletop Tangible Interfaces For Music Performance : Design And Evaluation (2015).
C. Roberts, Matthew Wright, J. Kuchera-Morin. Music Programming In Gibber. ICMC (2015).
Diego Castán, David Tavarez, Paula Lopez-Otero, J. Franco-Pedroso, H. Delgado, E. Navas, L. Fernández, D. Ramos-Castro, J. Serrano, A. Ortega, E. Lleida. Albayzín-2014 Evaluation: Audio Segmentation And Classification In Broadcast News Domains. EURASIP J. Audio Speech Music. Process. (2015).
Diego Castán, David Tavarez, Paula Lopez-Otero, J. Franco-Pedroso, H. Delgado, E. Navas, Laura Docío Fernández, Daniel Ramos, J. Serrano, A. Ortega, EDUARDO LLEIDA SOLANO. Albayzín-2014 Evaluation: Audio Segmentation And Classification In Broadcast News Domains. EURASIP J. Audio Speech Music. Process. (2015).
Douwe Kiela, Stephen Clark. Multi- And Cross-Modal Semantics Beyond Vision: Grounding In Auditory Perception. EMNLP (2015).
F. Font. Tag Recommendation Using Folksonomy Information For Online Sound Sharing Platforms (2015).
F. Font, J. Serrà, X. Serra. Analysis Of The Impact Of A Tag Recommendation System In A Real-World Folksonomy. TIST (2015).
G. Roma, X. Serra. Music Performance By Discovering Community Loops (2015).
G. Roma, X. Serra. Querying Freesound With A Microphone (2015).
H. Nishino, R. Nakatsu. Computer Music Languages And Systems: The Synergy Between Technology And Creativity (2015).
Jainesh Doshi, Vishrant Tripathi, O. Desai, Shreyas Mangalgi. Instrument Classification Using Spiking Neural Networks (2015).
Karol J. Piczak. Esc: Dataset For Environmental Sound Classification. ACM Multimedia (2015).
Niklas Klügel. Collaborative Music-Making With Interactive Tabletops (2015).
O. Picas, H. P. Rodriguez, Dara Dabiri, Hiroshi Tokuda, Wataru Hariya, K. Oishi, X. Serra. A Real-Time System For Measuring Sound Goodness In Instrumental Sounds (2015).
Pablo Villegas. Content-Preserving Reconstruction Of Electronic Music Sessions Using Freely Available Musical Building-Blocks (2015).
Qingchang Zhu, Z. Chen, Y. Soh. Using Unlabeled Acoustic Data With Locality-Constrained Linear Coding For Energy-Related Activity Recognition In Buildings. 2015 IEEE International Conference on Automation Science and Engineering (CASE) (2015).
T. Kelkar, Anon Ray, Venkatesh Choppella. Sangeetkosh: An Open Web Platform For Music Education. 2015 IEEE 15th International Conference on Advanced Learning Technologies (2015).
V. Apopei. Detection Dangerous Events In Environmental Sounds - A Preliminary Evaluation. 2015 International Conference on Speech Technology and Human-Computer Dialogue (SpeD) (2015).
Vito Claudio Ostuni, T. D. Noia, E. D. Sciascio, S. Oramas, X. Serra. A Semantic Hybrid Approach For Sound Recommendation. WWW (2015).

2014 (11)

C. Jacoby. Automatic Urban Sound Classification Using Feature Learning Techniques (2014).
D. Wolff. Spot The Odd Song Out : Similarity Model Adaptation And Analysis Using Relative Human Ratings (2014).
F. Font, J. Serrà, X. Serra. Audio Clip Classification Using Social Tags And The Effect Of Tag Expansion. Semantic Audio (2014).
F. Font, J. Serrà, X. Serra. Class-Based Tag Recommendation And User-Based Evaluation In Online Audio Clip Sharing. Knowl. Based Syst. (2014).
F. Font, S. Oramas, György Fazekas, X. Serra. Extending Tagging Ontologies With Domain Specific Knowledge. International Semantic Web Conference (2014).
J. R. Delgado-Contreras, J. García-Vázquez, R. Brena, C. E. Galván-Tejada, J. I. Galván-Tejada. Feature Selection For Place Classification Through Environmental Sounds. EUSPN/ICTH (2014).
J. R. Delgado-Contrerasa, Juan Pablo Garcı́a-Vázqueza, Ramon F. Brenaa, Carlos E. Galván-Tejadaa, Jorge I. Galván-Tejadab. International Conference On Emerging Ubiquitous Systems And Pervasive Networks ( Euspn-2014 ) Feature Selection For Place Classification Through Environmental Sounds (2014).
João Paulo Cordeiro. Sound Based Social Networks (2014).
L. Wyse. Interactive Audio Web Development Workflow. ACM Multimedia (2014).
Ohad Fried, Zeyu Jin, Reid Oda, A. Finkelstein. Audioquilt: 2D Arrangements Of Audio Samples Using Metric Learning And Kernelized Sorting. NIME (2014).
Patrice Guyot. Caractérisation Et Reconnaissance De Sons D'Eau Pour Le Suivi Des Activités De La Vie Quotidienne : Une Approche Fondée Sur Le Signal, L'Acoustique Et La Perception (2014).

2013 (7)

D. Wolff, Tillman Weyde. Learning Music Similarity From Relative User Ratings. Information Retrieval (2013).
F. Font, J. Serrà, X. Serra. Folksonomy-Based Tag Recommendation For Collaborative Tagging Systems. Int. J. Semantic Web Inf. Syst. (2013).
Long-Van Nguyen-Dinh, U. Blanke, G. Tröster. Towards Scalable Activity Recognition: Adapting Zero-Effort Crowdsourced Acoustic Models. MUM (2013).
Miles Thorogood, P. Pasquier. Computationally Created Soundscapes With Audio Metaphor. ICCC (2013).
Motohiro Sunouchi, Yuzuru Tanaka. Similarity Search Of Freesound Environmental Sound Based On Their Enhanced Multiscale Fractal Dimension (2013).
Niklas Klügel, G. Groh. Towards Mapping Timbre To Emotional Affect. NIME (2013).
Patrice Guyot, J. Pinquier, R. André-Obrecht. Water Sound Recognition Based On Physical Models. 2013 IEEE International Conference on Acoustics, Speech and Signal Processing (2013).

2012 (10)

Brandon Mechtley, A. Spanias, P. Cook. Shortest Path Techniques For Annotation And Retrieval Of Environmental Sounds. International Society for Music Information Retrieval Conference (2012).
F. Font, G. Roma, P. Herrera, X. Serra. Characterization Of The Freesound Online Community. 2012 3rd International Workshop on Cognitive Information Processing (CIP) (2012).
F. Font, J. Serrà, X. Serra. Folksonomy-Based Tag Recommendation For Online Audio Clip Sharing. ISMIR (2012).
F. Font, X. Serra. Analysis Of The Folksonomy Of Freesound (2012).
G. Roma, Anna Xambó, P. Herrera, Robin C. Laney. Factors In Human Recognition Of Timbre Lexicons Generated By Data Clustering (2012).
G. Roma, P. Herrera, M. Zanin, S. Marín, F. Font, X. Serra. Small World Networks And Creativity In Audio Clip Sharing. Int. J. Soc. Netw. Min. (2012).
M. Rossi, G. Tröster, O. Amft. Recognizing Daily Life Context Using Web-Collected Audio Data. 2012 16th International Symposium on Wearable Computers (2012).
M. Sordo, Gopala K. Koduri, Sankalp Gulati, X. Serra. A Musically Aware System For Browsing And Interacting With Audio Music Collections (2012).
Masayuki Karasuyama, Masashi Sugiyama. Canonical Dependency Analysis Based On Squared-Loss Mutual Information. Neural Networks (2012).
Miles Thorogood, P. Pasquier, Arne Eigenfeldt. Audio Metaphor: Audio Information Retrieval For Soundscape Composition (2012).

2011 (4)

J. Janer, G. Roma, S. Kersten. Authoring Augmented Soundscapes With User-Contributed Content (2011).
J. Janer, S. Kersten, Mattian Schirosa, G. Roma. An Online Platform For Interactive Soundscapes With User-Contributed Audio Content (2011).
Masayuki Karasuyama, Masashi Sugiyama. Canonical Dependency Analysis Based On Squared-Loss Mutual Information. Neural Networks (2011).
Nuno N. Correia. Av Clash, Online Audiovisual Project: A Case Study Of Evaluation In New Media Art. Advances in Computer Entertainment Technology (2011).

2010 (3)

G. Roma, J. Janer, S. Kersten, Mattia Schirosa, P. Herrera, X. Serra. Ecological Acoustics Perspective For Content-Based Retrieval Of Environmental Sounds. EURASIP J. Audio Speech Music. Process. (2010).
G. Roma, P. Herrera. Graph Grammar Representation For Collaborative Sample-Based Music Creation. Audio Mostly Conference (2010).
G. Roma, P. Herrera. Community Structure In Audio Clip Sharing. 2010 International Conference on Intelligent Networking and Collaborative Systems (2010).

2009 (2)

Gerard Roma Trepat, Perfecto Herrera-Boyer, X. Serra. Freesound Radio: Supporting Music Creation By Exploration Of A Sound Database (2009).
M. Magas, Polina Proutskova. A Location-Tracking Interface For Ethnomusicological Collections (2009).

(1)

. ().