Papers

What follows is a list of 1093 papers that mention Freesound or use Freesound data for research. This list is created automatically by finding articles that cite one of the main Freesound reference papers. Some entries have also been added manually. Papers are sorted by year of publication and alphabetically by first author surname.

If you have a paper which should be on the list and is not, please send us an email at freesound@freesound.org.

2025 (62)

Abdinabi Mukhamadiyev, Ilyos Khujayarov, Dilorom Nabieva, Jinsoo Cho. An Ensemble Of Convolutional Neural Networks For Sound Event Detection. Mathematics (2025).
Alice Zhang, Edison Thomaz, Lie Lu. Transformation Of Audio Embeddings Into Interpretable, Concept-Based Representations. ArXiv (2025).
Alkis Koudounas, Moreno La Quatra, Marco Sabato Siniscalchi, Elena Baralis. Voc2Vec: A Foundation Model For Non-Verbal Vocalization. ICASSP 2025 - 2025 IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP) (2025).
Amlan Basu, Pranav Chaudhari, G. D. Caterina. Fundamental Survey On Neuromorphic Based Audio Classification. ArXiv (2025).
Anaswara Antony, Wolfgang Theimer, Giovanni Grossetti, Christoph M. Friedrich. Acoustic Event Detection In Vehicles: A Multi-Label Classification Approach. Sensors (2025).
Anil Pudasaini, M. Al-Hawawreh, Mohamed Reda Bouadjenek, Hakim Hacid, Sunil Aryal. A Comprehensive Study Of Audio Profiling: Methods, Applications, Challenges, And Future Directions. Neurocomputing (2025).
Aurian Quelennec, Pierre Chouteau, Geoffroy Peeters, S. Essid. Masked Latent Prediction And Classification For Self-Supervised Audio Representation Learning. ICASSP 2025 - 2025 IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP) (2025).
Binh Thien Nguyen, Masahiro Yasuda, Daiki Takeuchi, Daisuke Niizumi, Yasunori Ohishi, Noboru Harada. Baseline Systems And Evaluation Metrics For Spatial Semantic Segmentation Of Sound Scenes (2025).
CH. V. N. Vaibhav Simha, Ramesh Kumar Bhukya. Exploring Human Non-Speech Sound Recognition: Insights From The Nonspeech7K Dataset. 2025 International Conference on Innovation in Computing and Engineering (ICE) (2025).
Chuan Wen, G. Torfs, Sarah Verhulst. Artifact-Free Sound Quality In Dnn-Based Closed-Loop Systems For Audio Processing. ArXiv (2025).
Chun-Yi Kuan, Hung-yi Lee. Teaching Audio-Aware Large Language Models What Does Not Hear: Mitigating Hallucinations Through Synthesized Negative Samples (2025).
Chun-Yi Kuan, Hung-yi Lee. From Alignment To Advancement: Bootstrapping Audio-Language Alignment With Synthetic Data (2025).
Daisuke Niizumi, Daiki Takeuchi, Masahiro Yasuda, Binh Thien Nguyen, Yasunori Ohishi, Noboru Harada. M2D2: Exploring General-Purpose Audio-Language Representations Beyond Clap (2025).
David Genova, P. Esling, Tom Hurlin. Keep What You Need : Extracting Efficient Subnetworks From Large Audio Representation Models. ICASSP 2025 - 2025 IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP) (2025).
Eklavya Sarkar, Mathew Magimai.-Doss. Comparing Self-Supervised Learning Models Pre-Trained On Human Speech And Animal Vocalizations For Bioacoustics Processing. ICASSP 2025 - 2025 IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP) (2025).
Giuseppe De Simone, Antonio Greco, Francesco Rosa, Alessia Saggese, Mario Vento. Context-Aware Data Augmentation For Enhanced Speech Command Recognition In Industrial Environments. Scientific reports (2025).
Han Yin, Yang Xiao, Rohan Kumar Das, Jisheng Bai, Haohe Liu, Wenwu Wang, Mark D. Plumbley. Envsdd: Benchmarking Environmental Sound Deepfake Detection (2025).
Hao Zhou, Xiaobao Guo, Yuzhe Zhu, A. Kong. Macs: Multi-Source Audio-To-Image Generation With Contextual Significance And Semantic Alignment (2025).
Haohe Liu, Thomas Deacon, Wenwu Wang, Matt Paradis, Mark D. Plumbley. Exploring The User Experience Of Ai-Assisted Sound Searching Systems For Creative Workflows (2025).
Huadai Liu, Tianyi Luo, Qikai Jiang, Kaicheng Luo, Peiwen Sun, Jialei Wan, Rongjie Huang, Qian Chen, Wen Wang, Xiangtai Li, Shiliang Zhang, Zhijie Yan, Zhou Zhao, Wei Xue. Omniaudio: Generating Spatial Audio From 360-Degree Video. ArXiv (2025).
Huang Xie, Khazar Khorrami, O. Räsänen, Tuomas Virtanen. Text-Based Audio Retrieval By Learning From Similarities Between Audio Captions. IEEE Signal Processing Letters (2025).
Jae-Sung Bae, Anastasia Kuznetsova, Dinesh Manocha, John Hershey, T. Kristjansson, Minje Kim. Generative Data Augmentation Challenge: Zero-Shot Speech Synthesis For Personalized Speech Enhancement. 2025 IEEE International Conference on Acoustics, Speech, and Signal Processing Workshops (ICASSPW) (2025).
Joanna Luberadzka, Enric Gusó Muñoz, Umut Sayin Saraç, Adan Garriga. Audio Technology For Improving Social Interaction In Extended Reality. Frontiers Virtual Real. (2025).
Joanna Luberadzka, Enric Gusó, Umut Sayin, Adan Garriga. Using Virtual Reality To Raise Awareness Of Communication Challenges Faced By Individuals With Hearing Loss. 2025 IEEE Conference on Virtual Reality and 3D User Interfaces Abstracts and Workshops (VRW) (2025).
Junan Zhang, Jing Yang, Zihao Fang, Yuancheng Wang, Ze-bao Zhang, Zhuo Wang, Fan Fan, Zhizheng Wu. Anyenhance: A Unified Generative Model With Prompt-Guidance And Self-Critic For Voice Enhancement. ArXiv (2025).
Junbo Zhang, Heinrich Dinkel, Yadong Niu, Chenyu Liu, Si Cheng, Anbei Zhao, Jian Luan. X-Ares: A Comprehensive Framework For Assessing Audio Encoder Performance (2025).
Junyi Ao, Dekun Chen, Xiaohai Tian, Wenjie Feng, Jun Zhang, Lu Lu, Yuxuan Wang, Haizhou Li, Zhizheng Wu. Solla: Towards A Speech-Oriented Llm That Hears Acoustic Context. ArXiv (2025).
Kan Jen Cheng, Tingle Li, G. Anumanchipalli. Audio Texture Manipulation By Exemplar-Based Analogy. ICASSP 2025 - 2025 IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP) (2025).
KimiTeam, Ding Ding, Zeqian Ju, Yichong Leng, Songxiang Liu, Tong Liu, Zeyu Shang, Kai Shen, Wei Song, Xu Tan, Heyi Tang, Zhengtao Wang, Chu Wei, Yifei Xin, Xinran Xu, Jian-Xiu Yu, Yutao Zhang, Xinyu Zhou, Y. Charles, Jun Chen, Yanru Chen, Yulun Du, Weiran He, Zhenxing Hu, Guo-Rong Lai, Qingcheng Li, Yangyang Liu, Weidong Sun, Jianzhou Wang, Yuzhi Wang, Yue Wu, Yuxin Wu, Dongchao Yang, Haodong Yang, Yingbo Yang, Zhilin Yang, Aoxiong Yin, Rui Yuan, Yutong Zhang, Zaida Zhou. Kimi-Audio Technical Report. ArXiv (2025).
Laurie M Heller, Urszula Oszczapinska, Jessica M. Smith, Megan M Julien. Reassigning Sources Of Misophonic Trigger Sounds To Change Their Unpleasantness: Testing Alternative Mechanisms With A New Set Of Movies, Paintings, And Words. PloS one (2025).
Lei Zhao, Sizhou Chen, Linfeng Feng, Xiao-Lei Zhang, Xuelong Li. Dualspec: Text-To-Spatial-Audio Generation Via Dual-Spectrogram Guided Diffusion Model. ArXiv (2025).
Linfeng Feng, Lei Zhao, Boyu Zhu, Xiao-Lei Zhang, Xuelong Li. Audiospa: Spatializing Sound Events With Text. ArXiv (2025).
Linwei Zhai, H. Ding, Cui Zhao, Fei Wang, Ge Wang, Wang Zhi, Wei Xi. One Quantizer Is Enough: Toward A Lightweight Audio Codec (2025).
Liumeng Xue, Ziya Zhou, Jiahao Pan, Zixuan Li, Shuai Fan, Ying-Hong Ma, Sitong Cheng, Dongchao Yang, Haohan Guo, Yujia Xiao, Xinsheng Wang, Zixuan Shen, Chuanbo Zhu, Xinshen Zhang, Tianchi Liu, Ruibin Yuan, Zeyue Tian, Haohe Liu, Emmanouil Benetos, Ge Zhang, Yi-Ting Guo, Wei Xue. Audio-Flan: A Preliminary Release. ArXiv (2025).
Ludovic Tuncay, Étienne Labbé, Thomas Pellegrini. Hierarchical Label Propagation: A Model-Size-Dependent Performance Booster For Audioset Tagging. ICASSP 2025 - 2025 IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP) (2025).
Luis-Carlos Quiñonez-Baca, Graciela María de Jesús Ramírez Alonso, A. Guzmán-Pando, J. Camarillo-Cisneros, D. López-Flores. Advances In Meta-Learning And Zero-Shot Learning For Multi-Label Classification: A Review. Digit. Signal Process. (2025).
Mateusz Guzik, Giulio Cengarle, Daniel Arteaga. Deep Learning Based Spatial Aliasing Reduction In Beamforming For Audio Capture (2025).
Mattson Ogg. Self-Supervised Convolutional Audio Models Are Flexible Acoustic Feature Learners: A Domain Specificity And Transfer-Learning Study (2025).
Mikhail Rumiantcev. Transformer-Based Multimodal Framework For Music Similarity Analysis And Recommendation Systems. 2025 37th Conference of Open Innovations Association (FRUCT) (2025).
Paul Primus, Florian Schmid, Gerhard Widmer. Tacos: Temporally-Aligned Audio Captions For Language-Audio Pretraining (2025).
Prateek Verma, Mert Pilanci. Large Language Models Implicitly Learn To See And Hear Just By Reading (2025).
Rajapantula Kranthi, Vasundhara. Modified Andrew'S Sine With Erf Function In Recursive Adaptive Exponential Fln Distributed Anc For Incremental Strategy. Signal Image Video Process. (2025).
Riccardo Passoni, Francesca Ronchini, Luca Comanducci, Romain Serizel, Fabio Antonacci. Diffused Responsibility: Analyzing The Energy Consumption Of Generative Text-To-Audio Diffusion Models (2025).
Robin Burchard, Kristof Van Laerhoven. Enhancing Wearable Tap Water Audio Detection Through Subclass Annotation In The Hd-Epic Dataset (2025).
S.Padmaja, Dr. N. Sharmila Banu. A Systematic Literature Review On Sound Event Detection And Classification. 2025 5th International Conference on Trends in Material Science and Inventive Materials (ICTMIM) (2025).
Shivam Mehta, Nebojsa Jojic, Hannes Gamper. Make Some Noise: Towards Llm Audio Reasoning And Generation Using Sound Tokens. ICASSP 2025 - 2025 IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP) (2025).
Shouwei Gao, Xingyang Deng, Xiangyu Fan, Pengliang Yu, Hao Zhou, Zihao Zhu. Satrn: Spiking Audio Tagging Robust Network. Electronics (2025).
Siegbert Versümer, Patrick Blättermann, Fabian Rosenthal, Stefan Weinzierl. A Comparison Of Methods For Modeling Soundscape Dimensions Based On Different Datasetsa).. The Journal of the Acoustical Society of America (2025).
Siyin Wang, Wenyi Yu, Xianzhao Chen, Xiaohai Tian, Jun Zhang, Lu Lu, Yu Tsao, Junichi Yamagishi, Yuxuan Wang, Chao Zhang. Qualispeech: A Speech Quality Assessment Dataset With Natural Language Reasoning And Descriptions. ArXiv (2025).
Soham Deshmukh, Satvik Dixit, Rita Singh, Bhiksha Raj. Mellow: A Small Audio Language Model For Reasoning. ArXiv (2025).
Sreyan Ghosh, Zhifeng Kong, Sonal Kumar, S. Sakshi, Jaehyeon Kim, Wei Ping, Rafael Valle, Dinesh Manocha, Bryan Catanzaro, AF-CLAP Contrastive Loss. Audio Flamingo 2: An Audio-Language Model With Long-Audio Understanding And Expert Reasoning Abilities. ArXiv (2025).
Sumit Kumar, Parampreet Singh, Vipul Arora. Recognizing Ornaments In Vocal Indian Art Music With Active Annotation (2025).
Xinlei Yin, Xiulian Peng, Xue Jiang, Zhiwei Xiong, Yan Lu. Text-Queried Audio Source Separation Via Hierarchical Modeling (2025).
Xuenan Xu, Jiahao Mei, Chenliang Li, Yuning Wu, Ming Yan, Shaopeng Lai, Ji Zhang, Mengyue Wu. Mm-Storyagent: Immersive Narrated Storybook Video Generation With A Multi-Agent Paradigm Across Text, Image And Audio. ArXiv (2025).
Yi Su, Jisheng Bai, Qisheng Xu, Kele Xu, Yong Dou. Audio-Language Models For Audio-Centric Tasks: A Survey. ArXiv (2025).
Yunsik Kim, Yonghun Song, Yoonyoung Chung. Taps: Throat And Acoustic Paired Speech Dataset For Deep Learning-Based Speech Enhancement. ArXiv (2025).
Yusun Shul, Dayun Choi, Jung-Woo Choi. Cst-Former: Multidimensional Attention-Based Transformer For Sound Event Localization And Detection In Real Scenes (2025).
Zehan Wang, Ke Lei, Chen Zhu, Jia-Bin Huang, Sashuai Zhou, Luping Liu, Xize Cheng, Shengpeng Ji, Zhenhui Ye, Tao Jin, Zhou Zhao. T2A-Feedback: Improving Basic Capabilities Of Text-To-Audio Generation Via Fine-Grained Ai Feedback (2025).
Zhanbo Shi, Lin Zhang, Linfei Li, Ying Shen. Towards Audio-Visual Navigation In Noisy Environments: A Large-Scale Benchmark Dataset And An Architecture Considering Multiple Sound-Sources. AAAI (2025).
Zhenyi Hou, Xu Zhao, Shanggerile Jiang, Daijun Luo, Xinyu Sheng, Kaili Geng, Kejie Ye, Jiajing Xia, Yitao Zhang, Chenxi Ban, Jiaxing Chen, Yan Zou, Yuchao Feng, Xin Yuan, Guangyu Fan. Dense Dynamic Convolutional Network For Bel Canto Vocal Technique Assessment. Scientific reports (2025).
Zhongqi Miao, Benjamin Elizalde, Soham Deshmukh, Justin Kitzes, Huaming Wang, R. Dodhia, J. L. Ferres. Multi-Modal Language Models In Bioacoustics With Zero-Shot Transfer: A Case Study. Scientific reports (2025).
Zitang Zhou, Ke Mei, Yu Lu, Tianyi Wang, Fengyun Rao. Harmonyset: A Comprehensive Dataset For Understanding Video-Music Semantic Alignment And Temporal Synchronization. ArXiv (2025).

2024 (179)

A. Kulakayeva, Valery Tikhvinskiy, Aigul Nurlankyzy, T. Namazbayev. Comparative Analysis Of The Effectiveness Of Neural Networks At Different Values Of The Snr Ratio. Scientific Journal of Astana IT University (2024).
Adrian S. Roman, Baladithya Balamurugan, Rithik Pothuganti. Enhanced Sound Event Localization And Detection In Real 360-Degree Audio-Visual Soundscapes. ArXiv (2024).
Adrian S. Roman, Irán R. Román, J. P. Bello. Robust Doa Estimation Using Deep Acoustic Imaging. ArXiv (2024).
Akshay Raina, Sayeedul Islam Sheikh, Vipul Arora. Learning Ontology Informed Representations With Constraints For Acoustic Event Detection. ICASSP 2024 - 2024 IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP) (2024).
Andreas Triantafyllopoulos, Iosif Tsangko, Alexander Gebhard, A. Mesaros, Tuomas Virtanen, Bjorn W. Schuller. Computer Audition: From Task-Specific Machine Learning To Foundation Models. ArXiv (2024).
Anna Xambó, Gerard Roma. Human–Machine Agencies In Live Coding For Music Performance. Journal of New Music Research (2024).
Antonia Petrogianni, Lefteris Kapelonis, Nikolaos Antoniou, Sofia Eleftheriou, Petros Mitseas, Dimitris Sgouropoulos, Athanasios Katsamanis, Theodoros Giannakopoulos, Shrikanth Narayanan. Robuser: A Robustness Benchmark For Speech Emotion Recognition. 2024 12th International Conference on Affective Computing and Intelligent Interaction (ACII) (2024).
Artem Dementyev, Chandan K. A. Reddy, Scott Wisdom, Navin Chatlani, J. Hershey, Richard F.Lyon. Towards Sub-Millisecond Latency Real-Time Speech Enhancement Models On Hearables. ICASSP 2025 - 2025 IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP) (2024).
Artem Sokolov, Swapnil Bhosale, Xiatian Zhu. 3D Audio-Visual Segmentation. ArXiv (2024).
Arushi Goel, Karan Sapra, Matthieu Le, Rafael Valle, Andrew Tao, Bryan Catanzaro. Omcat: Omni Context Aware Transformer. ArXiv (2024).
Arushi Goel, Zhifeng Kong, Rafael Valle, Bryan Catanzaro. Audio Dialogues: Dialogues Dataset For Audio And Music Understanding. ArXiv (2024).
Ashish Seth, Ramaneswaran Selvakumar, Sonal Kumar, Sreyan Ghosh, Dinesh Manocha. Pat: Parameter-Free Audio-Text Aligner To Boost Zero-Shot Audio Classification. NAACL (2024).
Athul Raimon, Shubha Masti, Shyam K Sateesh, Siyani Vengatagiri, Bhaskarjyoti Das. Meta-Learning In Audio And Speech Processing: An End To End Comprehensive Review (2024).
Axel Berg, Johanna Engman, Jens Gulin, Kalle Åström, Magnus Oskarsson. Learning Multi-Target Tdoa Features For Sound Event Localization And Detection. ArXiv (2024).
Ben Williams, B. V. Merrienboer, Vincent Dumoulin, Jenny Hamer, Eleni Triantafillou, A. Fleishman, Matthew McKown, Jill E. Munger, Aaron N. Rice, Ashlee Lillis, Clemency E. White, Catherine A. D. Hobbs, Tries B. Razak, Kate E. Jones, Tom Denton. Leveraging Tropical Reef, Bird And Unrelated Sounds For Superior Transfer Learning In Marine Bioacoustics. ArXiv (2024).
Benno Weck, Frederic Font. The Language Of Sound Search: Examining User Queries In Audio Search Engines. ArXiv (2024).
Bhavika Devnani, Skyler Seto, Zakaria Aldeneh, Alessandro Toso, Elena Menyaylenko, B. Theobald, Jonathan Sheaffer, Miguel Sarabia. Learning Spatially-Aware Language And Audio Embedding (2024).
Bin Shi, Hao Wang, Chenchen Lu, Meng Zhao. Whispar: Transferring Pre-Trained Audio Models To Fine-Grained Classification Via Prompt And Adapter. Knowl. Based Syst. (2024).
C. Steinmetz, Shubhr Singh, Marco Comunità, Ilias Ibnyahya, Shanxin Yuan, Emmanouil Benetos, Joshua D. Reiss. St-Ito: Controlling Audio Effects For Style Transfer With Inference-Time Optimization. ISMIR (2024).
Carlos Hernandez-Olivan, Marc Delcroix, Tsubasa Ochiai, Daisuke Niizumi, Naohiro Tawara, Tomohiro Nakatani, Shoko Araki. Soundbeam Meets M2D: Target Sound Extraction With Audio Foundation Model (2024).
Carlos Hernandez-Olivan, Marc Delcroix, Tsubasa Ochiai, Naohiro Tawara, Tomohiro Nakatani, Shoko Araki. Interaural Time Difference Loss For Binaural Target Sound Extraction. ArXiv (2024).
Cleyton Aparecido Dim, Nelson Cruz Sampaio Neto, Jefferson Magalhães de Morais. Hornbase: An Audio Dataset Of Car Horns In Different Scenarios And Positions. Data in brief (2024).
D. Krause, A. Politis, A. Mesaros. Sound Event Detection And Localization With Distance Estimation. ArXiv (2024).
Da Mu, Zhicheng Zhang, Haobo Yue. Mff-Einv2: Multi-Scale Feature Fusion Across Spectral-Spatial-Temporal Domains For Sound Event Localization And Detection. Interspeech 2024 (2024).
Daisuke Niizumi, Daiki Takeuchi, Yasunori Ohishi, Noboru Harada, K. Kashino. Masked Modeling Duo: Towards A Universal Audio Pre-Training Framework. IEEE/ACM Transactions on Audio, Speech, and Language Processing (2024).
Daisuke Niizumi, Daiki Takeuchi, Yasunori Ohishi, Noboru Harada, Masahiro Yasuda, Shunsuke Tsubaki, Keisuke Imoto. M2D-Clap: Masked Modeling Duo Meets Clap For Learning General-Purpose Audio-Language Representation. Interspeech 2024 (2024).
Do Hyun Lee, Yoon-Gue Song, Hong Kook Kim. Performance Improvement Of Language-Queried Audio Source Separation Based On Caption Augmentation From Large Language Models For Dcase Challenge 2024 Task 9. ArXiv (2024).
Dongheon Lee, Jung-Woo Choi. Deft-Mamba: Universal Multichannel Sound Separation And Polyphonic Audio Classification (2024).
Doyeon Kim, Yanjue Song, Nilesh Madhu, Hong-Goo Kang. Enhancing Neural Speech Embeddings For Generative Speech Models. 2024 Asia Pacific Signal and Information Processing Association Annual Summit and Conference (APSIPA ASC) (2024).
Erwin Deng. Coastline Resilience: Leveraging Satellite Imagery And The Co-Detr Model For Storm Damage Assessment. IGARSS 2024 - 2024 IEEE International Geoscience and Remote Sensing Symposium (2024).
F. Effa, Jean-Pierre Arz, R. Serizel, N. Grimault. Evaluating And Predicting The Audibility Of Acoustic Alarms In The Workplace Using Experimental Methods And Deep Learning. Applied Acoustics (2024).
F. Paissan, Luca Della Libera, M. Ravanelli, Cem Subakan. Listenable Maps For Zero-Shot Audio Classifiers. ArXiv (2024).
Fei Liu, Yang Ai, Hui-Peng Du, Ye-Xin Lu, Ruixin Zheng, Zhenhua Ling. Stage-Wise And Prior-Aware Neural Speech Phase Prediction. 2024 IEEE Spoken Language Technology Workshop (SLT) (2024).
Feiyang Xiao, Jian Guan, Qiaoxi Zhu, Xubo Liu, Wenbo Wang, Shuhan Qi, Kejia Zhang, Jianyuan Sun, Wenwu Wang. A Reference-Free Metric For Language-Queried Audio Source Separation Using Contrastive Language-Audio Pretraining. ArXiv (2024).
Florian Schmid, Paul Primus, Toni Heittola, A. Mesaros, Irene Mart'in-Morat'o, Khaled Koutini, Gerhard Widmer. Data-Efficient Low-Complexity Acoustic Scene Classification In The Dcase 2024 Challenge. ArXiv (2024).
Gallil Maimon, Amit Roth, Yossi Adi. A Suite For Acoustic Language Model Evaluation (2024).
Ge Zhu, Zhiyao Duan. Cacophony: An Improved Contrastive Audio-Text Model. ArXiv (2024).
Gijs Wijngaard, Elia Formisano, Michele Esposito, M. Dumontier. Audio-Language Datasets Of Scenes And Events: A Survey (2024).
Gyuhak Kim, Ho-Hsiang Wu, Luca Bondi, Bing Liu. Multi-Modal Continual Pre-Training For Audio Encoders. ICASSP 2024 - 2024 IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP) (2024).
Haibin Wu, Ho-Lam Chung, Yi-Cheng Lin, Yuan-Kuei Wu, Xuanjun Chen, Yu-Chi Pai, Hsiu-Hsuan Wang, Kai-Wei Chang, Alexander H. Liu, Hung-yi Lee. Codec-Superb: An In-Depth Analysis Of Sound Codec Models. ArXiv (2024).
Haibin Wu, Xuanjun Chen, Yi-Cheng Lin, Kai-Wei Chang, Jiawei Du, Ke-Han Lu, Alexander H. Liu, Ho-Lam Chung, Yuan-Kuei Wu, Dongchao Yang, Songxiang Liu, Yi-Chiao Wu, Xu Tan, James Glass, Shinji Watanabe, Hung-yi Lee. Codec-Superb @ Slt 2024: A Lightweight Benchmark For Neural Audio Codec Models (2024).
Han Yin, Jisheng Bai, Yang Xiao, Hui Wang, Siqi Zheng, Yafeng Chen, Rohan Kumar Das, Chong Deng, Jianfeng Chen. Exploring Text-Queried Sound Event Detection With Audio Source Separation (2024).
Hang Zhao, Yifei Xin, Zhesong Yu, Bilei Zhu, Lu Lu, Zejun Ma. Mint: Boosting Audio-Language Model Via Multi-Target Pre-Training And Instruction Tuning. ArXiv (2024).
Hao Ma, Zhiyuan Peng, Mingjie Shao, Ju Liu, Xu Li, Xixin Wu. Clapsep: Leveraging Contrastive Pre-Trained Models For Multi-Modal Query-Conditioned Target Sound Extraction (2024).
Hao Ma, Zhiyuan Peng, Xu Li, Mingjie Shao, Xixin Wu, Ju Liu. Clapsep: Leveraging Contrastive Pre-Trained Model For Multi-Modal Query-Conditioned Target Sound Extraction (2024).
Hao Ma, Zhiyuan Peng, Xu Li, Yukai Li, Mingjie Shao, Qiuqiang Kong, Ju Liu. Language-Queried Target Sound Extraction Without Parallel Training Data (2024).
He Huang, T. Park, Kunal Dhawan, I. Medennikov, Krishna C. Puvvada, N. Koluguri, Weiqing Wang, Jagadeesh Balam, Boris Ginsburg. Nest: Self-Supervised Fast Conformer As All-Purpose Seasoning To Speech Processing Tasks. ArXiv (2024).
Heinrich Dinkel, Zhiyong Yan, Yongqing Wang, Junbo Zhang, Yujun Wang, Bin Wang. Scaling Up Masked Audio Encoder Learning For General Audio Classification. Interspeech 2024 (2024).
Helin Wang, Jiarui Hai, Yen-Ju Lu, Karan Thakkar, Mounya Elhilali, N. Dehak. Soloaudio: Target Sound Extraction With Language-Oriented Audio Diffusion Transformer (2024).
Ho-Young Choi, Won-Gook Choi, Joon-Hyuk Chang. Retrieval-Augmented Classifier Guidance For Audio Generation. Interspeech 2024 (2024).
Hongyang Lei, Xiaolong Cheng, Dan Wang, Kun Fan, Qi Qin, Huazhen Huang, Yetao Wu, Qingqing Gu, Zhonglin Jiang, Yong Chen, Luo Ji. M3-Jepa: Multimodal Alignment Via Multi-Directional Moe Based On The Jepa Framework (2024).
Hwabyeong Chae, Sunggu Lee. Small-Footprint Convolutional Neural Network With Reduced Feature Map For Voice Activity Detection. ICASSP 2024 - 2024 IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP) (2024).
Hyemi Kim, Junghyun Kim, Jihyun Park, Seongwoo Kim, Chanjin Park, Wonyoung Yoo. Background Music Monitoring Framework And Dataset For Tv Broadcast Audio. ETRI Journal (2024).
Irán R. Román, Christopher Ick, Sivan Ding, Adrian S. Roman, Brian McFee, J. P. Bello. Spatial Scaper: A Library To Simulate And Augment Soundscapes For Sound Event Localization And Detection In Realistic Rooms. ICASSP 2024 - 2024 IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP) (2024).
Jacob Kealey, John Hershey, Franccois Grondin. Unsupervised Improved Mvdr Beamforming For Sound Enhancement. Interspeech 2024 (2024).
Jelto Branding, D. von Hörsten, Elias Böckmann, Jens Karl Wegener, Eberhard Hartung. Insectsound1000 An Insect Sound Dataset For Deep Learning Based Acoustic Insect Recognition. Scientific data (2024).
Jerry Ngo, Yoon Kim. What Do Language Models Hear? Probing For Auditory Representations In Language Models. ArXiv (2024).
Jinbo Hu, Yin Cao, Ming Wu, Fang Kang, Feiran Yang, Wenwu Wang, Mark D. Plumbley, Jun Yang. Pseldnets: Pre-Trained Neural Networks On Large-Scale Synthetic Datasets For Sound Event Localization And Detection. ArXiv (2024).
Jonathan Svirsky, Uri Shaham, Ofir Lindenbaum. Sparse Binarization For Fast Keyword Spotting. Interspeech 2024 (2024).
Jongsuk Kim, Hyeongkeun Lee, Kyeongha Rho, Junmo Kim, Joon Son Chung. Equiav: Leveraging Equivariance For Audio-Visual Contrastive Learning. ICML (2024).
Jozef Coldenhoff, Niclas Granqvist, Milos Cernak. Openace: An Open Benchmark For Evaluating Audio Coding Performance (2024).
June-Woo Kim, Chihyeon Yoon, Ho-Young Jung. A Military Audio Dataset For Situational Awareness And Surveillance. Scientific data (2024).
Kai Li, Wendi Sang, Chang Zeng, Run Yang, Guo Chen, Xiaolin Hu. Sonicsim: A Customizable Simulation Platform For Speech Processing In Moving Sound Source Scenarios. ICLR (2024).
Kai-Wei Chang, Haibin Wu, Yu-Kai Wang, Yuan-Kuei Wu, Hua Shen, Wei-Cheng Tseng, Iu-thing Kang, Shang-Wen Li, Hung-yi Lee. Speechprompt: Prompting Speech Language Models For Speech Processing Tasks. IEEE/ACM Transactions on Audio, Speech, and Language Processing (2024).
Karn N. Watcharasupat, Chih-Wei Wu, Iroro Orife. Remastering Divide And Remaster: A Cinematic Audio Source Separation Dataset With Multilingual Support. ArXiv (2024).
Kateřina Žmolíková, M. Pedersen, Jesper Jensen. Masked Spectrogram Prediction For Unsupervised Domain Adaptation In Speech Enhancement. IEEE Open Journal of Signal Processing (2024).
Ke Chen, Jiaqi Su, Taylor Berg-Kirkpatrick, S. Dubnov, Zeyu Jin. Improving Generalization Of Speech Separation In Real-World Scenarios: Strategies In Simulation, Optimization, And Evaluation. Interspeech 2024 (2024).
Ke Chen, Jiaqi Su, Zeyu Jin. Mdx-Gan: Enhancing Perceptual Quality In Multi-Class Source Separation Via Adversarial Training. ICASSP 2024 - 2024 IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP) (2024).
Keigo Wakayama, Tsubasa Ochiai, Marc Delcroix, Masahiro Yasuda, Shoichiro Saito, Shoko Araki, Akira Nakayama. Online Target Sound Extraction With Knowledge Distillation From Partially Non-Causal Teacher. ICASSP 2024 - 2024 IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP) (2024).
Kohei Saijo, Janek Ebbers, Franccois G. Germain, Gordon Wichern, J. L. Roux. Task-Aware Unified Source Separation. ArXiv (2024).
León Beleña, Ernesto Curbelo, Luca Martino, Valero Laparra. Second-Moment/Order Approximations By Kernel Smoothers With Application To Volatility Estimation. Mathematics (2024).
Lincan Cai, Shuang Li, Wenxuan Ma, Jingxuan Kang, Binhui Xie, Zixun Sun, Chengwei Zhu. Enhancing Cross-Modal Fine-Tuning With Gradually Intermediate Modality Generation. ICML (2024).
Liqaa Fadil, Alia K. Abdul Hassan, Hiba B. Alwan. A Review Of Isolating Speakers In Multi-Speaker Environments For Human-Computer Interaction. AIP Conference Proceedings (2024).
Luca Lazzaroni, F. Bellotti, Riccardo Berta. An Embedded End-To-End Voice Assistant. Eng. Appl. Artif. Intell. (2024).
Lukas Rauch, Raphael Schwinger, Moritz Wirth, Ren'e Heinrich, Denis Huseljic, M. Herde, Jonas Lange, Stefan Kahl, Bernhard Sick, Sven Tomforde, Christoph Scholz. Birdset: A Large-Scale Dataset For Audio Classification In Avian Bioacoustics. ICLR (2024).
M. Cusimano, Luke B. Hewitt, Josh H. McDermott. Listening With Generative Models. Cognition (2024).
M. Córdoba-Tlaxcalteco, E. Benítez-Guerrero. A Systematic Literature Review On Vision-Based Human Event Recognition In Smart Classrooms: Identifying Significant Events And Their Applications. Proceedings of the Institute for System Programming of the RAS (2024).
Mahmoud Salhab, H. Harmanani. A Deep Learning Approach For Arabic Spoken Command Spotting. 2024 IEEE Canadian Conference on Electrical and Computer Engineering (CCECE) (2024).
Manasi Remane, Revanth Reddy Nalia, Ambrish Dantrey. Seasr: Speech Enhancement For Automatic Speech Recognition Systems Using Convolution Recurrent Neural Network With Residual Connections. 2024 IEEE 5th Women in Technology Conference (WINTECHCON) (2024).
Manjie Xu, Chenxing Li, Duzhen Zhang, Dan Su, Weihan Liang, Dong Yu. Prompt-Guided Precise Audio Editing With Diffusion Models. ICML (2024).
Manjunath Mulimani, A. Mesaros. Domain-Incremental Learning For Audio Classification. ICASSP 2025 - 2025 IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP) (2024).
Manuel Cherep, Nikhil Singh. Contrastive Learning From Synthetic Audio Doppelgangers. ArXiv (2024).
Marc-Antoine Maheux, Dominic Létourneau, Philippe Warren, A. Panchea, J. Robillard, François Michaud. Designing A Tabletop Sar As An Advanced Hri Experimentation Platform. TAHRI (2024).
Marcello Messina, Ariane de Souza Stolfi, Luzilei Aliel, I. Simurra, Damián Keller. The Internet Of Musical Stuff. International Journal of Software Innovation (2024).
Marco Furio Colombo, Francesca Ronchini, Luca Comanducci, Fabio Antonacci. Mambafoley: Foley Sound Generation Using Selective State-Space Models (2024).
Marius Miron, Sara Keen, Jen-Yu Liu, Benjamin Hoffman, Masato Hagiwara, Olivier Pietquin, Felix Effenberger, M. Cusimano. Biodenoising: Animal Vocalization Denoising Without Access To Clean Data. ICASSP 2025 - 2025 IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP) (2024).
Masato Hagiwara, Marius Miron, Jen-Yu Liu. Ispa: Inter-Species Phonetic Alphabet For Transcribing Animal Sounds. ArXiv (2024).
Matthew Caren, Kartik Chandra, Joshua B. Tenenbaum, Jonathan Ragan-Kelley, Karima Ma. Sketching With Your Voice:'Non-Phonorealistic'Rendering Of Sounds Via Vocal Imitation (2024).
Maëlle Freteault, Loïc Tetrel, Maximilien Le Clei, Pierre Bellec, Nicolas Farrugia. Alignment Of Auditory Artificial Networks With Massive Individual Fmri Brain Data Leads To Generalizable Improvements In Brain Encoding And Downstream Tasks. bioRxiv (2024).
Michael Nigro, Sridhar Krishnan. Trends In Audio Scene Source Counting And Analysis. Machine Learning with Applications (2024).
Michel Olvera, Paraskevas Stamatiadis, S. Essid. A Sound Description: Exploring Prompt Templates And Class Descriptions To Enhance Zero-Shot Audio Classification (2024).
Michele Esposito, Giancarlo Valente, Yenisel Plasencia-Calaña, M. Dumontier, Bruno L. Giordano, Elia Formisano. Bridging Auditory Perception And Natural Language Processing With Semantically Informed Deep Neural Networks. bioRxiv (2024).
Mithun Manivannan, Vignesh Nethrapalli, Mark Cartwright. Emotioncaps: Enhancing Audio Captioning Through Emotion-Augmented Data Generation. ArXiv (2024).
Moayed Haji Ali, Willi Menapace, Aliaksandr Siarohin, Guha Balakrishnan, S. Tulyakov, Vicente Ordonez. Taming Data And Transformers For Audio Generation. ArXiv (2024).
Modan Tailleur, Junwon Lee, Mathieu Lagrange, Keunwoo Choi, Laurie M. Heller, Keisuke Imoto, Yuki Okamoto. Correlation Of Fréchet Audio Distance With Human Perception Of Environmental Audio Is Embedding Dependent. 2024 32nd European Signal Processing Conference (EUSIPCO) (2024).
Mohammad Nur Hossain Khan, Jialu Li, Nancy L. McElwain, M. Hasegawa-Johnson, Bashima Islam. Sound Tagging In Infant-Centric Home Soundscapes. 2024 IEEE/ACM Conference on Connected Health: Applications, Systems and Engineering Technologies (CHASE) (2024).
Mojtaba Heydari, M. Souden, Bruno Conejo, J. Atkins. Immersediffusion: A Generative Spatial Audio Latent Diffusion Model. ICASSP 2025 - 2025 IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP) (2024).
Moreno La Quatra, Alkis Koudounas, Lorenzo Vaiani, Elena Baralis, Luca Cagliero, Paolo Garza, Sabato Marco Siniscalchi. Benchmarking Representations For Speech, Music, And Acoustic Events. 2024 IEEE International Conference on Acoustics, Speech, and Signal Processing Workshops (ICASSPW) (2024).
Mustafa Chasmai, Alexander Shepard, Subhransu Maji, Grant Van Horn. The Inaturalist Sounds Dataset. NeurIPS (2024).
N. Tomashenko, Xiaoxiao Miao, Pierre Champion, Sarina Meyer, Xin Wang, Emmanuel Vincent, Michele Panariello, Nicholas W. D. Evans, Junichi Yamagishi, M. Todisco. The Voiceprivacy 2024 Challenge Evaluation Plan (2024).
Nasser-Eddine Monir, P. Magron, Romain Serizel. A Phoneme-Scale Assessment Of Multichannel Speech Enhancement Algorithms (2024).
Natarajan Balaji Shankar, Ruchao Fan, Abeer Alwan. Soa: Reducing Domain Mismatch In Ssl Pipeline By Speech Only Adaptation For Low Resource Asr. 2024 IEEE International Conference on Acoustics, Speech, and Signal Processing Workshops (ICASSPW) (2024).
Nicolas Shu, You Wang, Desmond Caulley, David V. Anderson. Slimnet: A Lightweight Attentive Network For Speech-Music-Noise Classification And Voice Activity Detection. 2024 IEEE International Conference on Edge Computing and Communications (EDGE) (2024).
P. Anastasopoulou, Jessica Torrey, Xavier Serra, F. Font. Heterogeneous Sound Classification With The Broad Sound Taxonomy And Dataset. ArXiv (2024).
Pan Zhang, Xiao-wen Dong, Yuhang Cao, Yuhang Zang, Rui Qian, Xilin Wei, Lin Chen, Yifei Li, Junbo Niu, Shuangrui Ding, Qipeng Guo, Haodong Duan, Xin Chen, Han Lv, Zheng Nie, Min Zhang, Bin Wang, Wenwei Zhang, Xinyue Zhang, Jiaye Ge, Wei Li, Jingwen Li, Zhongying Tu, Conghui He, Xingcheng Zhang, Kai Chen, Yuanbo Qiao, Dahua Lin, Jiaqi Wang. Internlm-Xcomposer2.5-Omnilive: A Comprehensive Multimodal System For Long-Term Streaming Video And Audio Interactions. ArXiv (2024).
Paraskevas Stamatiadis, Michel Olvera, S. Essid. Salt: Standardized Audio Event Label Taxonomy (2024).
Peiwen Sun, Sitong Cheng, Xiangtai Li, Zhen Ye, Huadai Liu, Honggang Zhang, Wei Xue, Yi-Ting Guo. Both Ears Wide Open: Towards Language-Driven Spatial Audio Generation. ICLR (2024).
Peng Liu, Dongyang Dai. Rfwave: Multi-Band Rectified Flow For Audio Waveform Reconstruction. ArXiv (2024).
Philipp Wagner, Andreas Triantafyllopoulos, Alexander Gebhard, Bjorn W. Schuller. Audio-Based Step-Count Estimation For Running -- Windowing And Neural Network Baselines (2024).
Pingyue Zhang, Mengyue Wu, Kai Yu. Semantic-Enhanced Supervised Contrastive Learning. ICASSP 2024 - 2024 IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP) (2024).
Pitchapa Ngamthipwatthana, Marco Götze, András Kátai, Jakob Abeßer. Towards Measuring And Forecasting Noise Exposure At The Veltins-Arena In Gel Senkirchen, Germany. 2024 IEEE 5th International Symposium on the Internet of Sounds (IS2) (2024).
Pooneh Mousavi, Luca Della Libera, J. Duret, Artem Ploujnikov, Cem Subakan, M. Ravanelli. Dasb - Discrete Audio And Speech Benchmark. ArXiv (2024).
Potsawee Manakul, Guangzhi Sun, Warit Sirichotedumrong, Kasima Tharnpipitchai, Kunat Pipatanakul. Enhancing Low-Resource Language And Instruction Following Capabilities Of Audio Language Models (2024).
Prateek Verma. Wavelet Gpt: Wavelet Inspired Large Language Models (2024).
Prateek Verma, Mert Pilanci. Towards Signal Processing In Large Language Models (2024).
R. F. Gramaccioni, Christian Marinoni, Changan Chen, A. Uncini, D. Comminiello. L3Das23: Learning 3D Audio Sources For Audio-Visual Extended Reality. IEEE Open Journal of Signal Processing (2024).
Rafael Redondo. Listen And Move: Improving Gans Coherency In Agnostic Sound-To-Video Generation (2024).
Rajapantula Kranthi, .. Vasundhara, Asutosh Kar, Mads Græsbøll Christensen. A Family Of Swish Diffusion Strategy Based Adaptive Algorithms For Distributed Active Noise Control. IEEE Open Journal of Signal Processing (2024).
Ramaneswaran Selvakumar, Sonal Kumar, Hemant Kumar Giri, Nishit Anand, Ashish Seth, Sreyan Ghosh, Dinesh Manocha. Do Audio-Language Models Understand Linguistic Variations?. NAACL (2024).
Raul Masu, Nicolò Merendino, Antonio Rodà, Luca Turchet. Sustainable Internet Of Musical Things: Strategies To Account For Environmental And Social Sustainability In Network-Based Interactive Music Systems. IEEE Access (2024).
Riku Arakawa, Mathieu Parvaix, Chiong Lai, Hakan Erdogan, Alex Olwal. Quantifying The Effect Of Simulator-Based Data Augmentation For Speech Recognition On Augmented Reality Glasses. ICASSP 2024 - 2024 IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP) (2024).
Robert Sutherland, George Close, Thomas Hain, Stefan Goetze, Jon Barker. Using Speech Foundational Models In Loss Functions For Hearing Aid Speech Enhancement (2024).
Roberto San Millán-Castillo, Luca Martino, Eduardo Morgado. A Variable Selection Analysis For Soundscape Emotion Modeling Using Decision Tree Regression And Modern Information Criteria. IEEE Access (2024).
Ryuhaerang Choi, Soumyajit Chatterjee, Dimitris Spathis, Sung-Ju Lee, F. Kawsar, Mohammad Malekzadeh. Soundcollage: Automated Discovery Of New Classes In Audio Datasets. ICASSP 2025 - 2025 IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP) (2024).
S. Suzic, Irene Martín-Morató, Nikola Simić, Charitha Raghavaraju, Toni Heittola, Vuk Stanojev, D. Bajović. Uns Exterior Spatial Sound Events Dataset For Urban Monitoring. 2024 32nd European Signal Processing Conference (EUSIPCO) (2024).
Samuele Cornell, Janek Ebbers, Constance Douwes, Irene Mart'in-Morat'o, Manu Harju, A. Mesaros, Romain Serizel. Dcase 2024 Task 4: Sound Event Detection With Heterogeneous Data And Missing Labels. ArXiv (2024).
Sarthak Yadav, S. Theodoridis, Zheng-Hua Tan. Audio Xlstms: Learning Self-Supervised Audio Representations With Xlstms. ArXiv (2024).
Sebastian Braun, H. Gamper. Multi-Label Audio Classification With A Noisy Zero-Shot Teacher (2024).
Sebastien Baur, Zaid Nabulsi, Wei-Hung Weng, Jake Garrison, Louis Blankemeier, Sam Fishman, Christina Chen, Sujay S Kakarmath, Minyoi Maimbolwa, N. Sanjase, Brian Shuma, Yossi Matias, G. Corrado, Shwetak Patel, S. Shetty, Shruthi Prabhakara, Monde Muyoyeta, Diego Ardila. Hear - Health Acoustic Representations. ArXiv (2024).
Sen Fang, Sizhou Chen, Yalin Feng, Xiaofeng Zhang, TeikToe Teoh. Bridging The Gap Between Text, Audio, Image, And Any Sequence: A Novel Approach Using Gloss-Based Annotation (2024).
Seong-Gyun Leem, Daniel Fulford, J. Onnela, David Gard, Carlos Busso. Describe Where You Are: Improving Noise-Robustness For Speech Emotion Recognition With Text Description Of The Environment (2024).
Seong-Gyun Leem, Daniel Fulford, J. Onnela, David Gard, Carlos Busso. Keep, Delete, Or Substitute: Frame Selection Strategy For Noise-Robust Speech Emotion Recognition. INTERSPEECH (2024).
Shabnam Ghaffarzadegan, Luca Bondi, Wei-Chang Lin, Abinaya Kumar, Ho-Hsiang Wu, Hans-Georg Horst, Samarjit Das. Sound Of Traffic: A Dataset For Acoustic Traffic Identification And Counting. INTERSPEECH (2024).
Shengpeng Ji, Ziyue Jiang, Xize Cheng, Yifu Chen, Minghui Fang, Jialong Zuo, Qian Yang, Ruiqi Li, Ziang Zhang, Xiaoda Yang, Rongjie Huang, Yidi Jiang, Qian Chen, Siqi Zheng, Wen Wang, Zhou Zhao. Wavtokenizer: An Efficient Acoustic Discrete Codec Tokenizer For Audio Language Modeling. ArXiv (2024).
Shentong Mo, Yapeng Tian. Semantic Grouping Network For Audio Source Separation. ArXiv (2024).
Shiyun Xu, Yinghan Cao, Zehua Zhang, Mingjiang Wang. Two-Stage Unet With Channel And Temporal-Frequency Attention For Multi-Channel Speech Enhancement. Speech Commun. (2024).
Shoval Messica, Yossi Adi. Nast: Noise Aware Speech Tokenization For Speech Language Models. Interspeech 2024 (2024).
Shuai Tao, Pejman Mowlaee, Jesper Rindom Jensen, Mads Græsbøll Christensen. Learning-Based Multi-Channel Speech Presence Probability Estimation Using A Low-Parameter Model And Integration With Mvdr Beamforming For Multi-Channel Speech Enhancement. 2024 18th International Workshop on Acoustic Signal Enhancement (IWAENC) (2024).
Sreyan Ghosh, Sonal Kumar, Ashish Seth, Chandra Kiran Reddy Evuru, Utkarsh Tyagi, S. Sakshi, Oriol Nieto, R. Duraiswami, Dinesh Manocha. Gama: A Large Audio-Language Model With Advanced Audio Understanding And Complex Reasoning Abilities. ArXiv (2024).
Sreyan Ghosh, Sonal Kumar, Chandra Kiran Reddy Evuru, Oriol Nieto, R. Duraiswami, Dinesh Manocha. Reclap: Improving Zero Shot Audio Classification By Describing Sounds (2024).
Sreyan Ghosh, Sonal Kumar, Zhifeng Kong, Rafael Valle, Bryan Catanzaro, Dinesh Manocha. Synthio: Augmenting Small-Scale Audio Classification Datasets With Synthetic Data. ICLR (2024).
Subrina Sultana, Donald S. Williamson. A Pre-Training Framework That Encodes Noise Information For Speech Quality Assessment. ICASSP 2025 - 2025 IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP) (2024).
T. Eerola. Prevalence Of Transparency And Reproducibility-Related Research Practices In Music Psychology (2017–2022). Musicae Scientiae (2024).
Thanapat Trachu, Chawan Piansaddhayanon, E. Chuangsuwanich. Thunder : Unified Regression-Diffusion Speech Enhancement With A Single Reverse Step Using Brownian Bridge. Interspeech 2024 (2024).
Tiago Tavares, Fabio Ayres, Zhepei Wang, Paris Smaragdis. On Class Separability Pitfalls In Audio-Text Contrastive Zero-Shot Learning. ArXiv (2024).
Tiantian Feng, Dimitrios Dimitriadis, Shrikanth S. Narayanan. Can Synthetic Audio From Generative Foundation Models Assist Audio Recognition And Speech Modeling?. Interspeech 2024 (2024).
Tianyi Bai, Hao Liang, Binwang Wan, Ling Yang, Bozhou Li, Yifan Wang, Bin Cui, Conghui He, Binhang Yuan, Wentao Zhang. A Survey Of Multimodal Large Language Model From A Data-Centric Perspective. ArXiv (2024).
Tingle Li, Renhao Wang, Po-Yao Huang, Andrew Owens, G. Anumanchipalli. Self-Supervised Audio-Visual Soundscape Stylization (2024).
Tushar Dhyani, Florian Lux, Michele Mancusi, Giorgio Fabbro, Fritz Hohl, Ngoc Thang Vu. High-Resolution Speech Restoration With Latent Diffusion Model. ICASSP 2025 - 2025 IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP) (2024).
Wei Guo, Heng Wang, Jianbo Ma, Tom Weidong Cai. Gotta Hear Them All: Sound Source Aware Vision To Audio Generation. ArXiv (2024).
Weiting Tan, Yunmo Chen, Tongfei Chen, Guanghui Qin, Haoran Xu, Heidi C. Zhang, Benjamin Van Durme, Philipp Koehn. Streaming Sequence Transduction Through Dynamic Compression. ArXiv (2024).
Weiyu Li, Weizhi Lu, Xijun Liang, Mingrui Chen, Kai Guo. Collaborative Dictionary Learning For Compressed Sensing. IEEE Transactions on Industrial Informatics (2024).
Wenxuan Ma, Shuang Li, Lincan Cai, Jingxuan Kang. Learning Modality Knowledge Alignment For Cross-Modality Transfer. ICML (2024).
Xianghu Yue, Xiaohai Tian, Malu Zhang, Zhizheng Wu, Haizhou Li. Coavt: A Cognition-Inspired Unified Audio-Visual-Text Pre-Training Model For Multimodal Processing. ArXiv (2024).
Xiao Zeng, Shiyun Xu, Mingjiang Wang. A Time-Frequency Fusion Model For Multi-Channel Speech Enhancement. EURASIP J. Audio Speech Music. Process. (2024).
Xiao-Hang Jiang, Yang Ai, Ruixin Zheng, Hui-Peng Du, Ye-Xin Lu, Zhenhua Ling. Mdctcodec: A Lightweight Mdct-Based Neural Audio Codec Towards High Sampling Rate And Low Bitrate Scenarios. 2024 IEEE Spoken Language Technology Workshop (SLT) (2024).
Xiaohuan Li, Yi Liu, Libo Zheng, Wenqiong Zhang. A Lightweight Convolutional Spiking Neural Network For Fires Detection Based On Acoustics. Electronics (2024).
Xiaoying Zhao, Qiushi Zhu, Yuchen Hu. An Experimental Comparison Of Noise-Robust Text-To-Speech Synthesis Systems Based On Self-Supervised Representation. ICASSP 2024 - 2024 IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP) (2024).
Xilin Jiang, Cong Han, Y. Li, N. Mesgarani. Listen, Chat, And Edit: Text-Guided Soundscape Modification For Enhanced Auditory Experience (2024).
Xin Jing, Andreas Triantafyllopoulos, Bjorn W. Schuller. Paraclap - Towards A General Language-Audio Model For Computational Paralinguistic Tasks. Interspeech 2024 (2024).
Xingyu Shen, Wei-Ping Zhu. Multichannel Speech Enhancement Using Complex-Valued Graph Convolutional Networks And Triple-Path Attentive Recurrent Networks. 2024 Asia Pacific Signal and Information Processing Association Annual Summit and Conference (APSIPA ASC) (2024).
Xiyuxing Zhang, Yuntao Wang, Yuxuan Han, Chen Liang, Ishan Chatterjee, Jiankai Tang, Xin Yi, Shwetak Patel, Yuanchun Shi. The Earsavas Dataset. Proc. ACM Interact. Mob. Wearable Ubiquitous Technol. (2024).
Xuenan Xu, Haohe Liu, Mengyue Wu, Wenwu Wang, M. Plumbley. Efficient Audio Captioning With Encoder-Level Knowledge Distillation. Interspeech 2024 (2024).
Xuenan Xu, Xiaohang Xu, Zeyu Xie, Pingyue Zhang, Mengyue Wu, Kai Yu. A Detailed Audio-Text Data Simulation Pipeline Using Single-Event Sounds. ICASSP 2024 - 2024 IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP) (2024).
Yang Ai, Xiao-Hang Jiang, Ye-Xin Lu, Hui-Peng Du, Zhen-Hua Ling. Apcodec: A Neural Audio Codec With Parallel Amplitude And Phase Spectrum Encoding And Decoding. ArXiv (2024).
Yanxu Chen, Linshu Huang, Tian Gou. Applications And Advances Of Artificial Intelligence In Music Generation:A Review (2024).
Yifei Xin, Xuxin Cheng, Zhihong Zhu, Xusheng Yang, Yuexian Zou. Diffatr: Diffusion-Based Generative Modeling For Audio-Text Retrieval. INTERSPEECH (2024).
Yingzhi Wang, Pooneh Mousavi, Artem Ploujnikov, M. Ravanelli. What Are They Doing? Joint Audio-Speech Co-Reasoning (2024).
Yiwen Wang, Xihong Wu. Tse-Pi: Target Sound Extraction Under Reverberant Environments With Pitch Information. Interspeech 2024 (2024).
Yuanbo Hou, Qiaoqiao Ren, A. Mitchell, Wenwu Wang, Jian Kang, Tony Belpaeme, Dick Botteldooren. Soundscape Captioning Using Sound Affective Quality Network And Large Language Model. ArXiv (2024).
Yuanyuan Wang, Hangting Chen, Dongchao Yang, Zhiyong Wu, Helen M. Meng, Xixin Wu. Audiocomposer: Towards Fine-Grained Audio Generation With Natural Language Descriptions (2024).
Yuchen Hu, Chen Chen, Chao-Han Huck Yang, Chengwei Qin, Pin-Yu Chen, Chng Eng Siong, Chao Zhang. Self-Taught Recognizer: Toward Unsupervised Adaptation For Speech Foundation Models. ArXiv (2024).
Yuchen Hu, Chen Chen, Chao-Han Huck Yang, Ruizhe Li, Chao Zhang, Pin-Yu Chen, Ensiong Chng. Large Language Models Are Efficient Learners Of Noise-Robust Speech Recognition. ArXiv (2024).
Yuchi Ishikawa, Tatsuya Komatsu, Yoshimitsu Aoki. Pre-Training With Synthetic Patterns For Audio. ICASSP 2025 - 2025 IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP) (2024).
Yuwei Zhang, Tong Xia, Jing Han, Y. Wu, Georgios Rizos, Yang Liu, Mohammed Mosuily, Jagmohan Chauhan, Cecilia Mascolo. Towards Open Respiratory Acoustic Foundation Models: Pretraining And Benchmarking. ArXiv (2024).
Zahra Abolfazli, H. R. Abutalebi, Tuomas Virtanen. Improving Distance Estimation In Sound Event Localization And Detection Using Resnet50 And Multi-Accddoa. 2024 10th International Conference on Signal Processing and Intelligent Systems (ICSPIS) (2024).
Zhen Ye, Peiwen Sun, Jiahe Lei, Hongzhan Lin, Xu Tan, Zheqi Dai, Qiuqiang Kong, Jianyi Chen, Jiahao Pan, Qi-fei Liu, Yi-Ting Guo, Wei Xue. Codec Does Matter: Exploring The Semantic Shortcoming Of Codec For Audio Language Model. ArXiv (2024).
Zhenyi Hou, Xu Zhao, Kejie Ye, Xinyu Sheng, Shanggerile Jiang, Jiajing Xia, Yitao Zhang, Chenxi Ban, Daijun Luo, Jiaxing Chen, Yan Zou, Yuchao Feng, Guangyu Fan, Xin Yuan. Transfer Learning In Vocal Education: Technical Evaluation Of Limited Samples Describing Mezzo-Soprano. ArXiv (2024).
Zhifeng Kong, Arushi Goel, Rohan Badlani, Wei Ping, Rafael Valle, Bryan Catanzaro. Audio Flamingo: A Novel Audio Language Model With Few-Shot Learning And Dialogue Abilities. ArXiv (2024).

2023 (203)

. Microphone-Based Context Awareness And Coverage Planner For A Service Robot Using Deep Learning Techniques. Mathematics (2023).
A. Bandi, Pydi Venkata Satya Ramesh Adapa, Yudu Eswar Vinay Pratap Kumar Kuchi. The Power Of Generative Ai: A Review Of Requirements, Models, Input-Output Formats, Evaluation Metrics, And Challenges. Future Internet (2023).
Adri'an Barahona-R'ios, Tom Collins. Noisebandnet: Controllable Time-Varying Neural Synthesis Of Sound Effects Using Filterbanks. IEEE/ACM Transactions on Audio, Speech, and Language Processing (2023).
Alice Sokolova, Baris Aksanli, F. Harris, H. Garudadri. Consolidating Compression And Revisiting Expansion: An Alternative Amplification Rule For Wide Dynamic Range Compression. 2023 IEEE Workshop on Applications of Signal Processing to Audio and Acoustics (WASPAA) (2023).
Ambuj Mehrish, Navonil Majumder, Rishabh Bhardwaj, Soujanya Poria. A Review Of Deep Learning Techniques For Speech Processing. Information Fusion (2023).
Anam Bansal, N. Garg. Robust Technique For Environmental Sound Classification Using Convolutional Recurrent Neural Network. Multimedia Tools and Applications (2023).
Anam Bansal, N. Garg. Environmental Sound Classification Using Hybrid Ensemble Model. Procedia Computer Science (2023).
Andong Li, Guochen Yu, Zhongweiyang Xu, Cunhang Fan, Xiaodong Li, C. Zheng. Tabe: Decoupling Spatial And Spectral Processing With Taylor'S Unfolding Method In The Beamspace Domain For Multi-Channel Speech Enhancement. Inf. Fusion (2023).
Angélica S. Z. Suárez, Clément Laroche, L. Clemmensen, Sneha Das. On Crowdsourcing-Design With Comparison Category Rating For Evaluating Speech Enhancement Algorithms. ICASSP 2023 - 2023 IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP) (2023).
Ankit Shah, Shuyi Chen, Kejun Zhou, Yue Chen, B. Raj. Approach To Learning Generalized Audio Representation Through Batch Embedding Covariance Regularization And Constant-Q Transforms. ArXiv (2023).
Anna Xambó Sedó. Discovering Creative Commons Sounds In Live Coding. Organised Sound (2023).
Ashish Seth, Sreyan Ghosh, S. Umesh, Dinesh Manocha. Unfused: Unsupervised Finetuning Using Self Supervised Distillation. ArXiv (2023).
Austin Mac, Misha Sra. Sonic Storyteller: Augmenting Oral Storytelling With Spatial Sound Effects. UIST (2023).
B. Haki, Teresa Pelinski, Marina Nieto Giménez, Sergi Jordà. Completing Audio Drum Loops With Symbolic Drum Suggestions. NIME (2023).
B. Weck, Xavier Serra. Data Leakage In Cross-Modal Retrieval Training: A Case Study. ArXiv (2023).
Bac Nguyen, S. Uhlich, Fabien Cardinaux. Improving Self-Supervised Learning For Audio Representations By Feature Diversity And Decorrelation. ICASSP 2023 - 2023 IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP) (2023).
Benjamin Elizalde, Soham Deshmukh, Huaming Wang. Natural Language Supervision For General-Purpose Audio Representations. ICASSP 2024 - 2024 IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP) (2023).
Benjamin Elizalde, Soham Deshmukh, Mahmoud Al Ismail, Huaming Wang. Clap Learning Audio Concepts From Natural Language Supervision. ICASSP 2023 - 2023 IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP) (2023).
Bin Zhu, Bin Lin, Munan Ning, Yang Yan, Jiaxi Cui, Hongfa Wang, Yatian Pang, Wenhao Jiang, Junwu Zhang, Zongwei Li, Wancai Zhang, Zhifeng Li, Wei Liu, Liejie Yuan. Languagebind: Extending Video-Language Pretraining To N-Modality By Language-Based Semantic Alignment. ArXiv (2023).
Carlotta Anemüller, O. Thiergart, Emanuël Habets. Neural Audio Decorrelation Using Generative Adversarial Networks. 2023 IEEE Workshop on Applications of Signal Processing to Audio and Acoustics (WASPAA) (2023).
Chenxing Li, Ye Bai, Yang Wang, Feng Deng, Yuanyuan Zhao, Zhuohao Zhang, Xiaorui Wang. Image-Driven Audio-Visual Universal Source Separation. INTERSPEECH 2023 (2023).
Chuan Wen, S. Verhulst. Biophysically-Inspired Single-Channel Speech Enhancement In The Time Domain. INTERSPEECH 2023 (2023).
D. Meedeniya, Isuru Ariyarathne, M. Bandara, Roshinie Jayasundara, Charith Perera. A Survey On Deep Learning Based Forest Environment Sound Classification At The Edge. ACM Comput. Surv. (2023).
Dagis Daniels Vidulejs, J. Teličko, A. Jakovičs. Temporal Convolutional Networks For Cough Detection Using Raw Waveforms: Reducing False Positive Rates With Noise Augmentation. 2023 3rd International Conference on Electrical, Computer, Communications and Mechatronics Engineering (ICECCME) (2023).
Daiki Takeuchi, Yasunori Ohishi, Daisuke Niizumi, Noboru Harada, K. Kashino. Audio Difference Captioning Utilizing Similarity-Discrepancy Disentanglement. ArXiv (2023).
Dianwen Ng, Chong Zhang, Ruixiu Zhang, Yukun Ma, Fabian Ritter-Gutierrez, Trung Hieu Nguyen, Chongjia Ni, Shengkui Zhao, E. Chng, B. Ma. Are Soft Prompts Good Zero-Shot Learners For Speech Recognition?. ICASSP 2024 - 2024 IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP) (2023).
Dianwen Ng, Ruixiong Zhang, Jia Qi Yip, Zhao Yang, Jinjie Ni, Chong Zhang, Yukun Ma, Chongjia Ni, E. Chng, B. Ma. Dehubert: Disentangling Noise In A Self-Supervised Model For Robust Speech Recognition. ArXiv (2023).
Dianwen Ng, Ruixiu Zhang, Jia Qi Yip, Zhao Yang, Jinjie Ni, Chong Zhang, Yukun Ma, Chongjia Ni, E. Chng, Bin Ma. De’Hubert: Disentangling Noise In A Self-Supervised Model For Robust Speech Recognition. ICASSP 2023 - 2023 IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP) (2023).
Dianwen Ng, Yanghua Xiao, J. Yip, Zhao Yang, Biao Tian, Qiang Fu, E. Chng, Bin Ma. Small Footprint Multi-Channel Network For Keyword Spotting With Centroid Based Awareness. INTERSPEECH 2023 (2023).
Diep Luong, Minh Tran, Shayan Gharib, K. Drossos, T. Virtanen. Representation Learning For Audio Privacy Preservation Using Source Separation And Robust Adversarial Learning. 2023 IEEE Workshop on Applications of Signal Processing to Audio and Acoustics (WASPAA) (2023).
Dongheon Lee, Jung-Woo Choi. Deftan-Ii: Efficient Multichannel Speech Enhancement With Subgroup Processing (2023).
E. Thoret, S. Ystad, R. Kronland-Martinet. Hearing As Adaptive Cascaded Envelope Interpolation. Communications biology (2023).
Etienne Labbé, Thomas Pellegrini, J. Pinquier. Conette: An Efficient Audio Captioning System Leveraging Multiple Datasets With Task Embedding. ArXiv (2023).
F. Paissan, Elisabetta Farella. Tinyclap: Distilling Constrastive Language-Audio Pretrained Models. Interspeech 2024 (2023).
F. Paissan, Elisabetta Farella. Tinyclap: Distilling Constrastive Language-Audio Pretrained Models. ArXiv (2023).
Fabian Ritter Gutierrez, Kuan-Po Huang, Dianwen Ng, J. H. M. Wong, Hung-yi Lee, Chng Eng Siong, Nancy F. Chen. Noise Robust Distillation Of Self-Supervised Speech Models Via Correlation Metrics. ArXiv (2023).
Florian Schmid, Khaled Koutini, Gerhard Widmer. Dynamic Convolutional Neural Networks As Efficient Pre-Trained Audio Models. IEEE/ACM Transactions on Audio, Speech, and Language Processing (2023).
Fuhu Song, Jifeng Hu, Che Wang, Jiao Huang, Haowen Zhang, Yi Wang. Cross-Modal Audio-Text Retrieval Via Sequential Feature Augmentation. CACML (2023).
G. Peruzzi, A. Pozzebon, Mattia Van Der Meer. Fight Fire With Fire: Detecting Forest Fires With Embedded Machine Learning Models Dealing With Audio And Images On Low Power Iot Devices. Sensors (2023).
H. Tran, J. Hong, Hyeryung Jang, Jinhwan Jung, Jongmok Kim, Joonki Hong, Minji Lee, J. Kim, C. Kushida, Dongheon Lee, Daewoo Kim, I. Yoon. Prediction Of Sleep Stages Via Deep Learning Using Smartphone Audio Recordings In Home Environments: Model Development And Validation. Journal of medical Internet research (2023).
Haitao Xu, L. Wei, Jie Zhang, Jianming Yang, Yannan Wang, Tian Gao, Xin Fang, Lirong Dai. A Multi-Scale Feature Aggregation Based Lightweight Network For Audio-Visual Speech Enhancement. ICASSP 2023 - 2023 IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP) (2023).
Han Liu, H. Liu. When Evil Calls: Targeted Adversarial Voice Over Ip Network (2023).
Han Yin, Jisheng Bai, Mou Wang, S. Huang, Yafei Jia, Jianfeng Chen. Convolutional Recurrent Neural Network With Attention For 3D Speech Enhancement (2023).
Han Yin, Jisheng Bai, S. Huang, Mou Wang, Yafei Jia, Jianfeng Chen. Two-Stage Autoencoder Neural Network For 3D Speech Enhancement. ArXiv (2023).
Hang Do, Quan Dang, Jeremy Zhengqi Huang, Dhruv Jain. Adaptivesound: An Interactive Feedback-Loop System To Improve Sound Recognition For Deaf And Hard Of Hearing Users. ASSETS (2023).
Hira Dhamyal, Benjamin Elizalde, Soham Deshmukh, Huaming Wang, Bhiksha Raj, Rita Singh. Prompting Audios Using Acoustic Properties For Emotion Representation. ICASSP 2024 - 2024 IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP) (2023).
Ho-Hsiang Wu, Oriol Nieto, J. Bello, J. Salamon. Audio-Text Models Do Not Yet Leverage Natural Language. ICASSP 2023 - 2023 IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP) (2023).
Hong-Goo Kang, J. Skoglund, W. Kleijn, Andrew Storus, Hengchin Yeh. A High-Rate Extension To Soundstream. 2023 IEEE Workshop on Applications of Signal Processing to Audio and Acoustics (WASPAA) (2023).
Hsuan-Cheng Chou, Yih-Liang Shen, Meng-Hsuan Wu, Bo-Wun Shih, Tai-Shih Chi. Residual Echo Suppression Using Spatial Feature For Stereo Acoustic Echo Cancellation. 2023 Asia Pacific Signal and Information Processing Association Annual Summit and Conference (APSIPA ASC) (2023).
Irene Martín-Morató, A. Mesaros. Strong Labeling Of Sound Events Using Crowdsourced Weak Labels And Annotator Competence Estimation. IEEE/ACM Transactions on Audio, Speech, and Language Processing (2023).
Itxasne Díez, I. Saratxaga, Unai Salegi, E. Navas, I. Hernáez. Noisensedb: An Urban Sound Event Database To Develop Neural Classification Systems For Noise-Monitoring Applications. Applied Sciences (2023).
J. Abeßer, S. Grollmisch, Meinard Müller. How Robust Are Audio Embeddings For Polyphonic Sound Event Tagging?. IEEE/ACM Transactions on Audio, Speech, and Language Processing (2023).
J. Wilkins, Magdalena Fuentes, L. Bondi, Shabnam Ghaffarzadegan, A. Abavisani, J. Bello. Two Vs. Four-Channel Sound Event Localization And Detection. ArXiv (2023).
J. Zou, Jiahao Mei, Guangze Ye, Tianyu Huai, Qiwei Shen, Daoguo Dong. Emid: An Emotional Aligned Dataset In Audio-Visual Modality. MCGE@MM (2023).
Jaebong Lim, Yunju Baek. Joint Framework Of Curriculum Learning And Knowledge Distillation For Noise-Robust And Small-Footprint Keyword Spotting. IEEE Access (2023).
Jaesung Huh, Jacob Chalk, E. Kazakos, D. Damen, A. Zisserman. Epic-Sounds: A Large-Scale Dataset Of Actions That Sound. ArXiv (2023).
Jiaming Wang, Zhihao Du, Qian Chen, Yunfei Chu, Zhifu Gao, Zerui Li, Kai Hu, Xiaohuan Zhou, Jin Xu, Ziyang Ma, Wen Wang, Siqi Zheng, Chang Zhou, Zhijie Yan, Shiliang Zhang. Lauragpt: Listen, Attend, Understand, And Regenerate Audio With Gpt. ArXiv (2023).
Jiarui Hai, Helin Wang, Dongchao Yang, Karan Thakkar, N. Dehak, Mounya Elhilali. Dpm-Tse: A Diffusion Probabilistic Model For Target Sound Extraction. ICASSP 2024 - 2024 IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP) (2023).
Jiayi Huang, Zeyu Yan, Wenbin Jiang, Fei Wen. A Two-Stage Training Framework For Joint Speech Compression And Enhancement. ArXiv (2023).
Jinbo Hu, Yin Cao, Ming Wu, Feiran Yang, Ziying Yu, Wenwu Wang, M. Plumbley, J. Yang. Meta-Seld: Meta-Learning For Fast Adaptation To The New Environment In Sound Event Localization And Detection. ArXiv (2023).
Jinbo Hu, Yin Cao, Ming Wu, Qiuqiang Kong, Feiran Yang, M. Plumbley, Jun Yang. Selective-Memory Meta-Learning With Environment Representations For Sound Event Localization And Detection. ArXiv (2023).
Jinhua Liang, Xubo Liu, Haohe Liu, Huy Phan, Emmanouil Benetos, MarkD . Plumbley, Wenwu Wang. Adapting Language-Audio Models As Few-Shot Audio Learners. ArXiv (2023).
Jordi Pons, Xiaoyu Liu, Santiago Pascual, Joan Serra. Gass: Generalizing Audio Source Separation With Large-Scale Data. ICASSP 2024 - 2024 IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP) (2023).
Joseph Konan, Ojas Bhargave, Shikhar Agnihotri, Hojeong Lee, Ankit Shah, Shuo Han, YUNYANG ZENG, Amanda Shu, Haohui Liu, Xuankai Chang, Hamza Khalid, Minseon Gwak, Kawon Lee, Minjeong Kim, B. Raj. Improving Perceptual Quality, Intelligibility, And Acoustics On Voip Platforms. ArXiv (2023).
Junhong Shen, Liam Li, L. Dery, Corey Staten, M. Khodak, Graham Neubig, Ameet S. Talwalkar. Cross-Modal Fine-Tuning: Align Then Refine. ArXiv (2023).
Junhong Shen, Liam Li, L. Dery, Corey Staten, M. Khodak, Graham Neubig, Ameet Talwalkar. Cross-Modal Fine-Tuning: Align Then Refine. ArXiv (2023).
Junhyeok Lee, Hyeonuk Nam, Yong-Hwa Park. Vifs: An End-To-End Variational Inference For Foley Sound Synthesis (2023).
K. A. Noriy, Xiaosong Yang, Marcin Budka, Jian Jun Zhang. Clara: Multilingual Contrastive Learning For Audio Representation Acquisition. ArXiv (2023).
Kai-Wei Chang, Yu-Kai Wang, Hua Shen, Iu-thing Kang, W. Tseng, Shang-Wen Li, Hung-yi Lee. Speechprompt V2: Prompt Tuning For Speech Classification Tasks (2023).
Kamila Organiściak, J. Borkowski. Single-Ended Quality Measurement Of A Music Content Via Convolutional Recurrent Neural Networks. Metrology and Measurement Systems (2023).
Karen Gissell Rosero Jacome, Felipe Grijalva, B. Masiero. Sound Events Localization And Detection Using Bio-Inspired Gammatone Filters And Temporal Convolutional Neural Networks. IEEE/ACM Transactions on Audio, Speech, and Language Processing (2023).
Karen Rosero, Douglas Abreu, Felipe Grijalva, Bruno Masiero. Demystifying Spatial Audio Plugins: Comparative Insights Into Functionality And Features. 2023 IEEE Seventh Ecuador Technical Chapters Meeting (ECTM) (2023).
Kazuki Shimada, Kengo Uchida, Yuichiro Koyama, Takashi Shibuya, Shusuke Takahashi, Yuki Mitsufuji, Tatsuya Kawahara. Zero- And Few-Shot Sound Event Localization And Detection. ICASSP 2024 - 2024 IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP) (2023).
Keunwoo Choi, Jae-Yeol Im, L. Heller, Brian McFee, Keisuke Imoto, Yuki Okamoto, M. Lagrange, Shinosuke Takamichi. Foley Sound Synthesis At The Dcase 2023 Challenge. ArXiv (2023).
Keunwoo Choi, Jae-Yeol Im, L. Heller, Brian McFee, Keisuke Imoto, Yuki Okamoto, M. Lagrange, Shinosuke Takamichi. Foley Sound Synthesis At The Dcase 2023 Challenge. ArXiv (2023).
Ki In Tan, Seanglidet Yean, B. Lee. Attention-Based Sound Classification Pipeline With Sound Spectrum. 2023 IEEE Sensors Applications Symposium (SAS) (2023).
Krishna Teja Chitty-Venkata, M. Emani, V. Vishwanath, Arun Somani. Neural Architecture Search Benchmarks: Insights And Survey. IEEE Access (2023).
L. Pepino, P. Riera, Luciana Ferrer. Encodecmae: Leveraging Neural Codecs For Universal Audio Representation Learning. ArXiv (2023).
L. Turchet, Carlo Zanotto, J. Pauwels. “Give Me Happy Pop Songs In C Major And With A Fast Tempo”: A Vocal Assistant For Content-Based Queries To Online Music Repositories. International Journal of Human-Computer Studies (2023).
L. Turchet, M. Lagrange, C. Rottondi, György Fazekas, Nils Peters, J. Ostergaard, F. Font, T. Backstrom, C. Fischione. The Internet Of Sounds: Convergent Trends, Insights, And Future Directions. IEEE Internet of Things Journal (2023).
Lihua Xue, Hongqing Liu, Yi Zhou, Lu Gan. Resnet-Conformer Network Using Multi-Scale Channel Attention For Sound Event Localization And Detection In Real Scenes. 2023 International Conference on Wireless Communications and Signal Processing (WCSP) (2023).
Louis Blankemeier, Sebastien Baur, Wei-Hung Weng, Jake Garrison, Yossi Matias, Shruthi Prabhakara, Diego Ardila, Zaid Nabulsi. Optimizing Audio Augmentations For Contrastive Learning Of Health-Related Acoustic Signals. ArXiv (2023).
Louis Delebecque, Romain Serizel. Binaurec: A Dataset To Test The Influence Of The Use Of Room Impulse Responses On Binaural Speech Enhancement. 2023 31st European Signal Processing Conference (EUSIPCO) (2023).
Luciano S. Martinez-Rau, José O. Chelotti, M. Ferrero, J. Galli, S. Utsumi, A. Planisich, H. Rufiner, L. Giovanini. A Noise-Robust Acoustic Method For Recognizing Foraging Activities Of Grazing Cattle (2023).
Luciano S. Martínez Rau, José O. Chelotti, M. Ferrero, J. Galli, S. Utsumi, A. Planisich, H. Rufiner, L. Giovanini. A Noise-Robust Acoustic Method For Recognition Of Foraging Activities Of Grazing Cattle. ArXiv (2023).
Mahmoud Salhab, H. Harmanani. Araspot: Arabic Spoken Command Spotting. ArXiv (2023).
Marc-Antoine Maheux, A. Panchea, Philippe Warren, D. Létourneau, François Michaud. T-Top, An Open Source Tabletop Robot With Advanced Onboard Audio, Vision And Deep Learning Capabilities. 2023 IEEE/RSJ International Conference on Intelligent Robots and Systems (IROS) (2023).
Marc-Antoine Maheux, Guillaume Auclair, Philippe Warren, D. Létourneau, François Michaud. Attempting To Aggregate Perceptual Constructs From Deep Neural Networks For Video And Audio Interaction Representation. 2023 32nd IEEE International Conference on Robot and Human Interactive Communication (RO-MAN) (2023).
Marco Pasini, Stefan Lattner, George Fazekas. Self-Supervised Music Source Separation Using Vector-Quantized Source Category Estimates. ArXiv (2023).
Marek Kadlcík, Adam H'ajek, Jürgen Kieslich, Radoslaw Winiecki. A Whisper Transformer For Audio Captioning Trained With Synthetic Captions And Transfer Learning. ArXiv (2023).
Marvin Tammen, S. Doclo. Parameter Estimation Procedures For Deep Multi-Frame Mvdr Filtering For Single-Microphone Speech Enhancement. IEEE/ACM Transactions on Audio, Speech, and Language Processing (2023).
Mateo C'amara, Zhiyuan Xu, Yi-Chen Zong, Jos'e Luis Blanco, J. Reiss. Optimization Techniques For A Physical Model Of Human Vocalisation. ArXiv (2023).
Meelan Bandara, Roshinie Jayasundara, Isuru Ariyarathne, D. Meedeniya, Charith Perera. Forest Sound Classification Dataset: Fsc22. Sensors (2023).
Mengjie Zhao, Junya Ono, Zhi-Wei Zhong, Chieh-Hsin Lai, Yuhta Takida, Naoki Murata, Wei-Hsiang Liao, Takashi Shibuya, Hiromi Wakaki, Yuki Mitsufuji. On The Language Encoder Of Contrastive Cross-Modal Models. ACL (2023).
Mengwei Wang, Zhe Yang. Tfecn: Time-Frequency Enhanced Convnet For Audio Classification. INTERSPEECH 2023 (2023).
Michael Nigro, S. Krishnan. Sardbscene: Dataset And Resnet Baseline For Audio Scene Source Counting And Analysis. ICASSP 2023 - 2023 IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP) (2023).
Michele Esposito, G. Valente, Y. P. Calaña, M. Dumontier, Bruno L. Giordano, E. Formisano. Semantically-Informed Deep Neural Networks For Sound Recognition. ICASSP 2023 - 2023 IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP) (2023).
Mimoun Lamrini, M. Chkouri, A. Touhafi. Evaluating The Performance Of Pre-Trained Convolutional Neural Network For Audio Classification On Embedded Systems For Anomaly Detection In Smart Cities. Sensors (2023).
Moran Aharoni, Assaf Breska, Matthias M. Müller, E. Schröger. Mechanisms Of Sustained Perceptual Entrainment After Stimulus Offset. The European journal of neuroscience (2023).
Muhammad Mamunur Rashid, Guiqing Li, Chengrui Du. Nonspeech7K Dataset: Classification And Analysis Of Human Non‐Speech Sound. IET Signal Processing (2023).
N. Shashaank, Berker Banar, M. Izadi, J. Kemmerer, Shuo Zhang, Chuanzeng Huang. Hissnet: Sound Event Detection And Speaker Identification Via Hierarchical Prototypical Networks For Low-Resource Headphones. ICASSP 2023 - 2023 IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP) (2023).
Nan Che, Chenrui Liu, Fei Yu. Ags: An Dataset And Taxonomy For Domestic Scene Sound Event Recognition. ArXiv (2023).
Nikhil Singh, Chih-Wei Wu, Iroro Orife, M. Kalayeh. Looking Similar, Sounding Different: Leveraging Counterfactual Cross-Modal Pairs For Audiovisual Representation Learning. ArXiv (2023).
Orlem Lima dos Santos, Karen Rosero, R. Lotufo. W2V-Seld: A Sound Event Localization And Detection Framework For Self-Supervised Spatial Audio Pre-Training. ArXiv (2023).
Paul Primus, G. Widmer. On Frequency-Wise Normalizations For Better Recording Device Generalization In Audio Spectrogram Transformers. ArXiv (2023).
Pavan Seshadri, Chaeyeon Han, B. Koo, Noah Posner, S. Guhathakurta, Alexander Lerch. Asped: An Audio Dataset For Detecting Pedestrians. ICASSP 2024 - 2024 IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP) (2023).
Peng Wang, Shijie Wang, Junyang Lin, Shuai Bai, Xiaohuan Zhou, Jingren Zhou, Xinggang Wang, Chang Zhou. One-Peace: Exploring One General Representation Model Toward Unlimited Modalities. ArXiv (2023).
Peyman Goli, S. van de Par. Deep Learning-Based Speech Specific Source Localization By Using Binaural And Monaural Microphone Arrays In Hearing Aids. IEEE/ACM Transactions on Audio, Speech, and Language Processing (2023).
Prateek Verma. Diverse Audio Embeddings -- Bringing Features Back Outperforms Clap! (2023).
Prateek Verma. Diverse Neural Audio Embeddings - Bringing Features Back !. ArXiv (2023).
Prateek Verma, C. Chafe. A Content Adaptive Learnable Time-Frequency Representation For Audio Signal Processing. ICASSP 2023 - 2023 IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP) (2023).
Prateek Verma, C. Chafe. Content Adaptive Front End For Audio Classification (2023).
Prateek Verma, C. Chafe. Content Adaptive Front End For Audio Signal Processing (2023).
Qingchun Jiao, Xiaolong Wang, Lijun Wang, Huihui Bai. Audio Features Based Ads-Cnn Method For Flight Attitude Recognition Of Quadrotor Uav. Applied Acoustics (2023).
Qiu-shi Zhu, J. Zhang, Zitian Zhang, Lirong Dai. A Joint Speech Enhancement And Self-Supervised Representation Learning Framework For Noise-Robust Speech Recognition. IEEE/ACM Transactions on Audio, Speech, and Language Processing (2023).
Qiu-shi Zhu, Yunting Gu, Chao Weng, Yuchen Hu, Lirong Dai, J. Zhang. Rep2Wav: Noise Robust Text-To-Speech Using Self-Supervised Representations. ArXiv (2023).
Qiuqiang Kong, K. Chen, Haohe Liu, Xingjian Du, Taylor Berg-Kirkpatrick, S. Dubnov, MarkD . Plumbley. Universal Source Separation With Weakly Labelled Data. ArXiv (2023).
R. Serizel, Samuele Cornell, Nicolas Turpault. Performance Above All ? Energy Consumption Vs. Performance For Machine Listening, A Study On Dcase Task 4 Baseline (2023).
R. Serizel, Samuele Cornell, Nicolas Turpault. Performance Above All? Energy Consumption Vs. Performance, A Study On Sound Event Detection With Heterogeneous Data. ICASSP 2023 - 2023 IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP) (2023).
R. Viveros-Muñoz, P. Huijse, Victor Vargas, Diego Espejo, Víctor Poblete, Jorge P. Arenas, M. Vernier, Diego Vergara, Enrique Suárez. The Spass Dataset: A New Synthetic Polyphonic Dataset With Spatiotemporal Labels Of Sound Sources. Applied Acoustics (2023).
R. Viveros-Muñoz, P. Huijse, Victor Vargas, Diego Espejo, Víctor Poblete, Jorge P. Arenas, M. Vernier, Diego Vergara, Enrique Suárez. Dataset For Polyphonic Sound Event Detection Tasks In Urban Soundscapes: The Synthetic Polyphonic Ambient Sound Source (Spass) Dataset. Data in brief (2023).
Rajapantula Kranthi, Vasundhara. A Robust Adaptive Filter For Diffusion Strategy-Based Distributed Active Noise Control. IETE Journal of Research (2023).
Rajat Hebbar, Digbalay Bose, Krishna Somandepalli, Veena Vijai, Shrikanth S. Narayanan. A Dataset For Audio-Visual Sound Event Detection In Movies. ArXiv (2023).
Rajat Hebbar, Digbalay Bose, Shrikanth Narayanan. Sear: Semantically-Grounded Audio Representations. ACM Multimedia (2023).
Rishabh Garg, Ruohan Gao, K. Grauman. Visually-Guided Audio Spatialization In Video With Geometry-Aware Multi-Task Learning. International Journal of Computer Vision (2023).
Robin San Roman, Yossi Adi, Antoine Deleforge, R. Serizel, Gabriel Synnaeve, Alexandre D'efossez. From Discrete Tokens To High-Fidelity Audio Using Multi-Band Diffusion. NeurIPS (2023).
Rohit Girdhar, Alaaeldin El-Nouby, Zhuang Liu, Mannat Singh, Kalyan Vasudev Alwala, Armand Joulin, Ishan Misra. Imagebind: One Embedding Space To Bind Them All. ArXiv (2023).
Ruchika Chavhan, H. Gouk, Jan Stuehmer, Calum Heggan, Mehrdad Yaghoobi, Timothy M. Hospedales. Amortised Invariance Learning For Contrastive Self-Supervision. ICLR (2023).
Ruchika Chavhan, Henry G. R. Gouk, Jan Stuehmer, Calum Heggan, Mehrdad Yaghoobi, Timothy M. Hospedales. Amortised Invariance Learning For Contrastive Self-Supervision (2023).
S. Huang, Jianfeng Chen, Jisheng Bai, Yafei Jia, Dongzhe Zhang. Dynamic Kernel Convolution Network With Scene-Dedicate Training For Sound Event Localization And Detection (2023).
S. Latif, Moazzam Shoukat, Fahad Shamshad, M. Usama, Heriberto Cuay'ahuitl, Björn Schuller. Sparks Of Large Audio Models: A Survey And Outlook. ArXiv (2023).
S. Uhlich, Giorgio Fabbro, M. Hirano, Shusuke Takahashi, G. Wichern, Jonathan Le Roux, Dipam Chakraborty, S. Mohanty, Kai Li, Yi Luo, Jianwei Yu, Rongzhi Gu, R. Solovyev, A. Stempkovskiy, T. Habruseva, M. Sukhovei, Yuki Mitsufuji. The Sound Demixing Challenge 2023 - Cinematic Demixing Track. ArXiv (2023).
S. Uhlich, Giorgio Fabbro, M. Hirano, Shusuke Takahashi, G. Wichern, Jonathan Le Roux, Dipam Chakraborty, S. Mohanty, Kai Li, Yi Luo, Jianwei Yu, Rongzhi Gu, R. Solovyev, A. Stempkovskiy, T. Habruseva, M. Sukhovei, Yuki Mitsufuji. The Sound Demixing Challenge 2023 - Cinematic Demixing Track. Trans. Int. Soc. Music. Inf. Retr. (2023).
Saksham Singh Kushwaha, Magdalena Fuentes. A Multimodal Prototypical Approach For Unsupervised Sound Classification (2023).
Saksham Singh Kushwaha, Magdalena Fuentes. A Multimodal Prototypical Approach For Unsupervised Sound Classification. INTERSPEECH 2023 (2023).
Samuele Cornell, Matthew Wiesner, Shinji Watanabe, Desh Raj, Xuankai Chang, Paola García, Yoshiki Masuyama, Zhong-Qiu Wang, S. Squartini, S. Khudanpur. The Chime-7 Dasr Challenge: Distant Meeting Transcription With Multiple Devices In Diverse Scenarios. 7th International Workshop on Speech Processing in Everyday Environments (CHiME 2023) (2023).
Samuele Cornell, Matthew Wiesner, Shinji Watanabe, Desh Raj, Xuankai Chang, Paola García, Yoshiki Masuyama, Zhongqiu Wang, S. Squartini, S. Khudanpur. The Chime-7 Dasr Challenge: Distant Meeting Transcription With Multiple Devices In Diverse Scenarios. ArXiv (2023).
Sandeep Reddy Kothinti, Mounya Elhilali. Are Acoustics Enough? Semantic Effects On Auditory Salience In Natural Scenes. Frontiers in psychology (2023).
Sandipana Dowerah, R. Serizel, D. Jouvet, Mohammad MohammadAmini, D. Matrouf. Joint Optimization Of Diffusion Probabilistic-Based Multichannel Speech Enhancement With Far-Field Speaker Verification. 2022 IEEE Spoken Language Technology Workshop (SLT) (2023).
Sangshin Oh, Minsung Kang, Hyeongi Moon, Keunwoo Choi, Ben Sangbae Chon. A Demand-Driven Perspective On Generative Audio Ai. ArXiv (2023).
Sania Gul, Muhammad Salman Khan. A Survey Of Audio Enhancement Algorithms For Music, Speech, Bioacoustics, Biomedical, Industrial, And Environmental Sounds By Image U-Net. IEEE Access (2023).
Sarthak Yadav, S. Theodoridis, Lars Kai Hansen, Z. Tan. Masked Autoencoders With Multi-Window Local-Global Attention Are Better Audio Learners (2023).
Sarthak Yadav, S. Theodoridis, Lars Kai Hansen, Z. Tan. Masked Autoencoders With Multi-Window Attention Are Better Audio Learners (2023).
Seong-Gyun Leem, D. Fulford, J. Onnela, David E Gard, C. Busso. Computation And Memory Efficient Noise Adaptation Of Wav2Vec2.0 For Noisy Speech Emotion Recognition With Skip Connection Adapters (2023).
Shayan Gharib, Minh Tran, Diep Luong, K. Drossos, T. Virtanen. Adversarial Representation Learning For Robust Privacy Preservation In Audio. ArXiv (2023).
Shichao Wu, Yongru Wang, Zhengxi Hu, Jingtai Liu. Haac: Hierarchical Audio Augmentation Chain For Accdoa Described Sound Event Localization And Detection. Applied Acoustics (2023).
Shuai Tao, Himavanth Reddy, J. Jensen, M. G. Christensen. Frequency Bin-Wise Single Channel Speech Presence Probability Estimation Using Multiple Dnns. ArXiv (2023).
Shuai Tao, Yang Xiang, Himavanth Reddy, Jesper Rindom Jensen, M. G. Christensen. Single Channel Speech Presence Probability Estimation Based On Hybrid Global-Local Information. 2023 IEEE Workshop on Applications of Signal Processing to Audio and Acoustics (WASPAA) (2023).
Shubhr Singh, Christian J. Steinmetz, Emmanouil Benetos, Huy Phan, Dan Stowell. Atgnn: Audio Tagging Graph Neural Network. IEEE Signal Processing Letters (2023).
Siddhant Arora, Hayato Futami, Jee-weon Jung, Yifan Peng, Roshan S. Sharma, Yosuke Kashiwagi, E. Tsunoo, Karen Livescu, Shinji Watanabe. Universlu: Universal Spoken Language Understanding For Diverse Tasks With Natural Language Instructions (2023).
Siddhant Arora, Hayato Futami, Jee-weon Jung, Yifan Peng, Roshan S. Sharma, Yosuke Kashiwagi, E. Tsunoo, Shinji Watanabe. Universlu: Universal Spoken Language Understanding For Diverse Classification And Sequence Generation Tasks With A Single Network. ArXiv (2023).
Sihan Chen, Handong Li, Qunbo Wang, Zijia Zhao, Ming-Ting Sun, Xinxin Zhu, J. Liu. Vast: A Vision-Audio-Subtitle-Text Omni-Modality Foundation Model And Dataset. ArXiv (2023).
Sihan Chen, Handong Li, Qunbo Wang, Zijia Zhao, Ming-Ting Sun, Xinxin Zhu, J. Liu. Vast: A Vision-Audio-Subtitle-Text Omni-Modality Foundation Model And Dataset. NeurIPS (2023).
Soham Deshmukh, Benjamin Elizalde, Rita Singh, Huaming Wang. Pengi: An Audio Language Model For Audio Tasks. ArXiv (2023).
Sreyan Ghosh, Ashish Seth, Sonal Kumar, Utkarsh Tyagi, Chandra Kiran Reddy Evuru, S. Ramaneswaran, S. Sakshi, Oriol Nieto, R. Duraiswami, Dinesh Manocha. Compa: Addressing The Gap In Compositional Reasoning In Audio-Language Models. ArXiv (2023).
Sripathi Sridhar, Mark Cartwright. Multi-Label Open-Set Audio Classification. ArXiv (2023).
Sunghyun Kim, Yong-Hoon Choi. Wavebyol: Self-Supervised Learning For Audio Representation From Raw Waveforms. IEEE Access (2023).
Swapnil Bhosale, Rupayan Chakraborty, S. Kopparapu. A Novel Metric For Evaluating Audio Caption Similarity. ICASSP 2023 - 2023 IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP) (2023).
T. K. Chan, C. Chin. Lightweight Convolutional-Iconformer For Sound Event Detection. IEEE Transactions on Artificial Intelligence (2023).
Tadas Turskis, Marius Teleisa, Ruta Buckiunaite, Dalia Calneryte. Mixed-Type Data Augmentations For Environmental Sound Classification. IVUS (2023).
Tanmay Khandelwal, Rohan Kumar Das. A Multi-Task Learning Framework For Sound Event Detection Using High-Level Acoustic Characteristics Of Sounds (2023).
Tareq Khan. Towards An Indoor Gunshot Detection And Notification System Using Deep Learning. Applied System Innovation (2023).
Vasudha Kowtha, Miquel Espi Marques, Jonathan Huang, Yichi Zhang, C. Avendaño. Learning To Detect Novel And Fine-Grained Acoustic Sequences Using Pretrained Audio Representations. ICASSP 2023 - 2023 IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP) (2023).
Versão Corrigida. Heitor Rodrigues Guimarães On Self-Supervised Representations For 3 D Speech Enhancement (2023).
Vu Linh Le, Daewoo Kim, Eunsung Cho, Hyeryung Jang, Roben Delos Reyes, Hyunggug Kim, Dongheon Lee, I. Yoon, Joonki Hong, J. Kim. Real-Time Detection Of Sleep Apnea Based On Breathing Sounds And Prediction Reinforcement Using Home Noises: Algorithm Development And Validation.. Journal of medical Internet research (2023).
Wataru Kawabe, Yuri Nakao, Akihisa Shitara, Yusuke Sugano. Technical Understanding From Iml Hands-On Experience: A Study Through A Public Event For Science Museum Visitors. ArXiv (2023).
Wei-xin Xie, Yanxiong Li, Qianhua He, Wenchang Cao. Few-Shot Class-Incremental Audio Classification Via Discriminative Prototype Learning. Expert Systems with Applications (2023).
Weiming Huang, Qinghua Huang, Liyan Ma, Chuan Wang. Swg-Former: A Sliding-Window Graph Convolutional Network For Simultaneous Spatial-Temporal Information Extraction In Sound Event Localization And Detection (2023).
William Aris, Franccois Grondin. Efficient Face Detection With Audio-Based Region Proposals. ArXiv (2023).
Xian Li, Nian Shao, Xiaofei Li. Self-Supervised Audio Teacher-Student Transformer For Both Clip-Level And Frame-Level Tasks. ArXiv (2023).
Xiao-Yuan Guo, Chun-Xian Gao, Hui Liu. Voice Activity Detection In The Presence Of Transient Based On Graph. EURASIP Journal on Audio, Speech, and Music Processing (2023).
Xilin Jiang, Cong Han, Y. Li, N. Mesgarani. Exploring Self-Supervised Contrastive Learning Of Spatial Sound Event Representation. ICASSP 2024 - 2024 IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP) (2023).
Xinhao Mei, Chutong Meng, Haohe Liu, Qiuqiang Kong, Tom Ko, Chengqi Zhao, MarkD . Plumbley, Yuexian Zou, Wenwu Wang. Wavcaps: A Chatgpt-Assisted Weakly-Labelled Audio Captioning Dataset For Audio-Language Multimodal Research. ArXiv (2023).
Xiyuxing Zhang, Yuntao Wang, Jingru Zhang, Yaqing Yang, Shwetak N. Patel, Yuanchun Shi. Earcough: Enabling Continuous Subject Cough Event Detection On Hearables. CHI Extended Abstracts (2023).
Xubo Liu, Qiuqiang Kong, Yan Zhao, Haohe Liu, Yiitan Yuan, Yuzhuo Liu, Rui Xia, Yuxuan Wang, Mark D. Plumbley, Wenwu Wang. Separate Anything You Describe. IEEE Transactions on Audio, Speech and Language Processing (2023).
Xubo Liu, Zhongkai Zhu, Haohe Liu, Yiitan Yuan, Meng Cui, Qiushi Huang, Jinhua Liang, Yin Cao, Qiuqiang Kong, M. Plumbley, Wenwu Wang. Wavjourney: Compositional Audio Creation With Large Language Models. ArXiv (2023).
Xuenan Xu, Zhiling Zhang, Zelin Zhou, Pingyue Zhang, Zeyu Xie, Mengyue Wu, Ke Zhu. Blat: Bootstrapping Language-Audio Pre-Training Based On Audioset Tag-Guided Synthetic Data. ACM Multimedia (2023).
Y. Shin, Yong Guk Kim, Chang-Ho Choi, Dae-Joong Kim, Chanjun Chun. Seld U-Net: Joint Optimization Of Sound Event Localization And Detection With Noise Reduction. IEEE Access (2023).
Yang Zhao, Zhijie Lin, Daquan Zhou, Zilong Huang, Jiashi Feng, Bingyi Kang. Bubogpt: Enabling Visual Grounding In Multi-Modal Llms (2023).
Yangyang Shi, Gaël Le Lan, Varun K. Nagaraja, Zhaoheng Ni, Xinhao Mei, Ernie Chang, Forrest N. Iandola, Yang Liu, Vikas Chandra. Enhance Audio Generation Controllability Through Representation Similarity Regularization. ArXiv (2023).
Yoon-Ah Park, Joon-Hyuk Chang. Audio Captioning Using Semantic Alignment Enhancer. 2023 8th IEEE International Conference on Network Intelligence and Digital Content (IC-NIDC) (2023).
Yoto Fujita, Yoshiaki Bando, Keisuke Imoto, Masaki Onishi, Kazuyoshi Yoshii. Doa-Aware Audio-Visual Self-Supervised Learning For Sound Event Localization And Detection. 2023 Asia Pacific Signal and Information Processing Association Annual Summit and Conference (APSIPA ASC) (2023).
Youngjun Heo, Sunggu Lee. Supervised Contrastive Learning For Voice Activity Detection. Electronics (2023).
Yuan Gong, Alexander H. Liu, Hongyin Luo, Leonid Karlinsky, James R. Glass. Joint Audio And Speech Understanding. 2023 IEEE Automatic Speech Recognition and Understanding Workshop (ASRU) (2023).
Yuan Gong, Hongyin Luo, Alexander H. Liu, Leonid Karlinsky, James Glass. Listen, Think, And Understand. ArXiv (2023).
Yuan Gong, Hongyin Luo, Alexander H. Liu, Leonid Karlinsky, James Glass. Listen, Think, And Understand. ArXiv (2023).
Yuancheng Wang, Zeqian Ju, Xuejiao Tan, Lei He, Zhizheng Wu, Jiang Bian, Sheng Zhao. Audit: Audio Editing By Following Instructions With Latent Diffusion Models. ArXiv (2023).
Yuhang He, A. Markham. Soundsynp: Sound Source Detection From Raw Waveforms With Multi-Scale Synperiodic Filterbanks. AISTATS (2023).
Yuki Okamoto, Keisuke Imoto, Shinnosuke Takamichi, Ryotaro Nagase, Takahiro Fukumori, Y. Yamashita. Environmental Sound Conversion From Vocal Imitations And Sound Event Labels. ArXiv (2023).
Yuki Okamoto, Keisuke Imoto, Shinnosuke Takamichi, Ryotaro Nagase, Takahiro Fukumori, Y. Yamashita. Environmental Sound Synthesis From Vocal Imitations And Sound Event Labels. ICASSP 2024 - 2024 IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP) (2023).
Yunhao Chen, Yunjie Zhu, Zihui Yan, Jian Shen, Zhen Ren, Yifan Huang. Data Augmentation For Environmental Sound Classification Using Diffusion Probabilistic Model With Top-K Selection Discriminator. ArXiv (2023).
Yusun Shul, Byeongil Ko, Jung-Woo Choi. Divided Spectro-Temporal Attention For Sound Event Localization And Detection In Real Scenes For Dcase2023 Challenge (2023).
Yusun Shul, Jung-Woo Choi. Cst-Former: Transformer With Channel-Spectro-Temporal Attention For Sound Event Localization And Detection. ICASSP 2024 - 2024 IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP) (2023).
Zexu Pan, G. Wichern, Yoshiki Masuyama, François G. Germain, Sameer Khurana, Chiori Hori, Jonathan Le Roux. Scenario-Aware Audio-Visual Tf-Gridnet For Target Speech Extraction. 2023 IEEE Automatic Speech Recognition and Understanding Workshop (ASRU) (2023).
Zhaohui Li, Haitao Wang, Xinghua Jiang. Audioformer: Audio Transformer Learns Audio Feature Representations From Discrete Acoustic Codes. ArXiv (2023).
Zhenze Xie, Xinquan Liang, Canale Roberto. Learning-Based Robotic Grasping: A Review. Frontiers in Robotics and AI (2023).
Zhepei Wang, Cem Subakan, K. Subramani, Junkai Wu, T. Tavares, Fabio Ayres, P. Smaragdis. Unsupervised Improvement Of Audio-Text Cross-Modal Representations. ArXiv (2023).
Zhepei Wang, Cem Subakan, K. Subramani, Junkai Wu, T. Tavares, Fabio Ayres, Paris Smaragdis. Unsupervised Improvement Of Audio-Text Cross-Modal Representations. 2023 IEEE Workshop on Applications of Signal Processing to Audio and Acoustics (WASPAA) (2023).
Zhongqi Miao, Benjamin Elizalde, Soham Deshmukh, Justin Kitzes, Huaming Wang, R. Dodhia, J. Ferres. Zero-Shot Transfer For Wildlife Bioacoustics Detection (2023).
Zhongqiu Wang, Samuele Cornell, Shukjae Choi, Younglo Lee, Byeonghak Kim, Shinji Watanabe. Neural Speech Enhancement With Very Low Algorithmic Latency And Complexity Via Integrated Full- And Sub-Band Modeling. ICASSP 2023 - 2023 IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP) (2023).
Zhongxin Bai, Chao Pan, Gong Chen, Jingdong Chen, J. Benesty. A Weighted Binary Cross-Entropy For Sound Event Representation Learning And Few-Shot Classification. 2023 Asia Pacific Signal and Information Processing Association Annual Summit and Conference (APSIPA ASC) (2023).
Zihan Zhang, Jiayao Sun, Xianjun Xia, Ziqian Wang, Xiaopeng Yan, Yijian Xiao, Lei Xie. An Exploration Of Task-Decoupling On Two-Stage Neural Post Filter For Real-Time Personalized Acoustic Echo Cancellation. 2023 IEEE Automatic Speech Recognition and Understanding Workshop (ASRU) (2023).
Zirun Zhu, Hemin Yang, M. Tang, Ziyi Yang, S. Eskimez, Huaming Wang. Real-Time Audio-Visual End-To-End Speech Enhancement. ICASSP 2023 - 2023 IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP) (2023).

2022 (193)

A. Laptev, Boris Ginsburg. Fast Entropy-Based Methods Of Word-Level Confidence Estimation For End-To-End Automatic Speech Recognition. 2022 IEEE Spoken Language Technology Workshop (SLT) (2022).
A. Madhu, S. K.. Envgan: A Gan-Based Augmentation To Improve Environmental Sound Classification. Artificial Intelligence Review (2022).
A. Politis, Kazuki Shimada, Parthasaarathy Sudarsanam, Sharath Adavanne, Daniel Krause, Yuichiro Koyama, Naoya Takahashi, Shusuke Takahashi, Yuki Mitsufuji, T. Virtanen. Starss22: A Dataset Of Spatial Recordings Of Real Scenes With Spatiotemporal Annotations Of Sound Events. ArXiv (2022).
A. Politis, Kazuki Shimada, Parthasaarathy Sudarsanam, Sharath Adavanne, Daniel Krause, Yuichiro Koyama, Naoya Takahashi, Shusuke Takahashi, Yuki Mitsufuji, T. Virtanen. Starss22: A Dataset Of Spatial Recordings Of Real Scenes With Spatiotemporal Annotations Of Sound Events. ArXiv (2022).
A. Pompili, Tiago Luís, Nuno Monteiro, João Miranda, Carlos Mendes, S. Paulo. On The Detection Of Acoustic Events For Public Security: The Challenges Of The Counter-Terrorism Domain. IberSPEECH 2022 (2022).
Ahmed Omran, Neil Zeghidour, Zalán Borsos, F. D. C. Quitry, M. Slaney, M. Tagliasacchi. Disentangling Speech From Surroundings In A Neural Audio Codec. ArXiv (2022).
Ahmed Omran, Neil Zeghidour, Zalán Borsos, Félix de Chaumont Quitry, M. Slaney, M. Tagliasacchi. Disentangling Speech From Surroundings With Neural Embeddings. ICASSP 2023 - 2023 IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP) (2022).
Alexander Alexander Ponomarchuk Ponomarchuk, Ilya Ilya Burenko Burenko, Elian Elian Malkin Malkin, Ivan Ivan Nazarov Nazarov, Vladimir Vladimir Kokh Kokh, Manvel Manvel Avetisian Avetisian, Leonid Leonid Zhukov Zhukov. Project Achoo: A Practical Model And Application For Covid-19 Detection From Recordings Of Breath, Voice, And Cough. Ieee Journal of Selected Topics in Signal Processing (2022).
Alexandre D'efossez, Jade Copet, Gabriel Synnaeve, Yossi Adi. High Fidelity Neural Audio Compression. ArXiv (2022).
Alison B. Ma, Alexander Lerch. Representation Learning For The Automatic Indexing Of Sound Effects Libraries (2022).
Ammar Ahmed, Y. Serrestou, K. Raoof, J. Diouris. Empirical Mode Decomposition-Based Feature Extraction For Environmental Sound Classification. Sensors (2022).
Ana Elisa Méndez Méndez, M. Cartwright, J. Bello, O. Nov. Eliciting Confidence For Improving Crowdsourced Audio Annotations. Proceedings of the ACM on Human-Computer Interaction (2022).
Ana Filipa Rodrigues Nogueira, Hugo S. Oliveira, J. Machado, J. M. R. Tavares. Sound Classification And Processing Of Urban Environments: A Systematic Literature Review. Sensors (2022).
Anam Bansal, N. Garg. Environmental Sound Classification: A Descriptive Review Of The Literature. Intelligent Systems with Applications (2022).
Andong Li, Guochen Yu, C. Zheng, Wenzhe Liu, Xiaodong Li. A General Unfolding Speech Enhancement Method Motivated By Taylor'S Theorem (2022).
Anna Xambó, Visda Goudarzi. The Mobile Audience As A Digital Musical Persona In Telematic Performance. NIME (2022).
Arsha Nagrani, P. H. Seo, Bryan Seybold, Anja Hauth, Santiago Manén, Chen Sun, C. Schmid. Learning Audio-Video Modalities From Image Captions. ArXiv (2022).
Ashish Seth, Sreyan Ghosh, S. Umesh, Dinesh Manocha. Slicer: Learning Universal Audio Representations Using Low-Resource Self-Supervised Pre-Training. ArXiv (2022).
Ashish Seth, Sreyan Ghosh, S. Umesh, Dinesh Manocha. Slicer: Learning Universal Audio Representations Using Low-Resource Self-Supervised Pre-Training. ICASSP 2023 - 2023 IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP) (2022).
B. Weck, Miguel P'erez Fern'andez, Holger Kirchhoff, Xavier Serra. Matching Text And Audio Embeddings: Exploring Transfer-Learning Strategies For Language-Based Audio Retrieval. DCASE (2022).
Benjamin Elizalde, Soham Deshmukh, Mahmoud Al Ismail, Huaming Wang. Clap: Learning Audio Concepts From Natural Language Supervision. ArXiv (2022).
Byeongil Ko, Hyeonuk Nam, Seong-Hu Kim, Deokki Min, Seung-Deok Choi, Yong-Hwa Park. Data Augmentation And Squeeze-And-Excitation Network On Multiple Dimension For Sound Event Localization And Detection In Real Scenes (2022).
Calum Heggan, S. Budgett, Timothy M. Hospedales, Mehrdad Yaghoobi. Metaaudio: A Few-Shot Audio Classification Benchmark. ICANN (2022).
Calum Heggan, S. Budgett, Timothy M. Hospedales, Mehrdad Yaghoobi. Metaaudio: A Few-Shot Audio Classification Benchmark. ArXiv (2022).
Carlo Aironi, Samuele Cornell, E. Principi, S. Squartini. Graph Node Embeddings For Ontology-Aware Sound Event Classification: An Evaluation Study. 2022 30th European Signal Processing Conference (EUSIPCO) (2022).
Carlotta Anemuller, O. Thiergart, Emanuël Habets. A Data-Driven Approach To Audio Decorrelation. IEEE Signal Processing Letters (2022).
Chi-Chang Lee, Cheng-Hung Hu, Yu-Chen Lin, Chu-Song Chen, Hsin-Min Wang, Yu Tsao. Nastar: Noise Adaptive Speech Enhancement With Target-Conditional Resampling. ArXiv (2022).
D. Jain, Khoa Nguyen, Steven M. Goodman, Rachel Grossman-Kahn, Hung Ngo, Aditya Kusupati, Ruofei Du, A. Olwal, Leah Findlater, Jon E. Froehlich. Protosound: A Personalized And Scalable Sound Recognition System For Deaf And Hard-Of-Hearing Users. CHI (2022).
Daiki Takeuchi, Yasunori Ohishi, Daisuke Niizumi, N. Harada, K. Kashino. Introducing Auxiliary Text Query-Modifier To Content-Based Audio Retrieval. ArXiv (2022).
Daisuke Niizumi, Daiki Takeuchi, Yasunori Ohishi, N. Harada, K. Kashino. Masked Spectrogram Modeling Using Masked Autoencoders For Learning General-Purpose Audio Representation. ArXiv (2022).
Daisuke Niizumi, Daiki Takeuchi, Yasunori Ohishi, N. Harada, K. Kashino. Byol For Audio: Exploring Pre-Trained General-Purpose Audio Representations. ArXiv (2022).
Daisuke Niizumi, Daiki Takeuchi, Yasunori Ohishi, N. Harada, K. Kashino. Masked Spectrogram Modeling Using Masked Autoencoders For Learning General-Purpose Audio Representation. ArXiv (2022).
Daniel Lin. Contrastive Feature Learning For Audio Classification (2022).
Darius Petermann, G. Wichern, A. Subramanian, Zhong-Qiu Wang, Jonathan Le Roux. Tackling The Cocktail Fork Problem For Separation And Transcription Of Real-World Soundtracks. ArXiv (2022).
David Schindler, S. Spors, Burcu Demiray, Frank Krüger. Automatic Behavior Assessment From Uncontrolled Everyday Audio Recordings By Deep Learning. Sensors (2022).
Dianwen Ng, J. Yip, Tanmay Surana, Zhao Yang, Chong Zhang, Yukun Ma, Chongjia Ni, Chng Eng Siong, B. Ma. I2Cr: Improving Noise Robustness On Keyword Spotting Using Inter-Intra Contrastive Regularization. 2022 Asia-Pacific Signal and Information Processing Association Annual Summit and Conference (APSIPA ASC) (2022).
Dianwen Ng, Jia Qi Yip, Tanmay Surana, Zhao Yang, Chong Zhang, Yukun Ma, Chongjia Ni, Chng Eng Siong, B. Ma. I2Cr: Improving Noise Robustness On Keyword Spotting Using Inter-Intra Contrastive Regularization. 2022 Asia-Pacific Signal and Information Processing Association Annual Summit and Conference (APSIPA ASC) (2022).
Diego de Benito-Gorrón, Kateřina Žmolíková, D. Toledano. Source Separation For Sound Event Detection In Domestic Environments Using Jointly Trained Models. 2022 International Workshop on Acoustic Signal Enhancement (IWAENC) (2022).
E. Guizzo, C. Marinoni, Marco Pennese, Xinlei Ren, Xiguang Zheng, Chen Zhang, B. Masiero, A. Uncini, D. Comminiello. L3Das22 Challenge: Learning 3D Audio Sources In A Real Office Environment. ICASSP 2022 - 2022 IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP) (2022).
E. Guizzo, C. Marinoni, Marco Pennese, Xinlei Ren, Xiguang Zheng, Chen Zhang, B. Masiero, A. Uncini, D. Comminiello. L3Das22 Challenge: Learning 3D Audio Sources In A Real Office Environment (2022).
Efthymios Tzinis, G. Wichern, P. Smaragdis, Jonathan Le Roux. Optimal Condition Training For Target Source Separation. ArXiv (2022).
Efthymios Tzinis, Yossi Adi, V. Ithapu, Buye Xu, P. Smaragdis, Anurag Kumar. Remixit: Continual Self-Training Of Speech Enhancement Models Via Bootstrapped Remixing. IEEE Journal of Selected Topics in Signal Processing (2022).
Efthymios Tzinis, Yossi Adi, V. Ithapu, Buye Xu, P. Smaragdis, Anurag Kumar. Remixit: Continual Self-Training Of Speech Enhancement Models Via Bootstrapped Remixing (2022).
Eleonora Grassucci, Gioia Mancini, Christian Brignone, A. Uncini, D. Comminiello. Dual Quaternion Ambisonics Array For Six-Degree-Of-Freedom Acoustic Representation. ArXiv (2022).
Emilian Postolache, Jordi Pons, Santiago Pascual, J. Serrà. Adversarial Permutation Invariant Training For Universal Sound Separation. ICASSP 2023 - 2023 IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP) (2022).
Emilian Postolache, Jordi Pons, Santiago Pascual, Joan Serra. Adversarial Permutation Invariant Training For Universal Sound Separation. ArXiv (2022).
Enric Gus'o, Jordi Pons, Santiago Pascual, J. Serrà. On Loss Functions And Evaluation Metrics For Music Source Separation (2022).
Felix Kreuk, Gabriel Synnaeve, A. Polyak, Uriel Singer, Alexandre D'efossez, Jade Copet, Devi Parikh, Yaniv Taigman, Yossi Adi. Audiogen: Textually Guided Audio Generation. ICLR (2022).
Felix Kreuk, Gabriel Synnaeve, A. Polyak, Uriel Singer, Alexandre D'efossez, Jade Copet, Devi Parikh, Yaniv Taigman, Yossi Adi. Audiogen: Textually Guided Audio Generation. ArXiv (2022).
Femke Vanden Bempt, M. Economou, Ward Dehairs, Maaike Vandermosten, J. Wouters, P. Ghesquière, J. Vanderauwera. Feasibility, Enjoyment, And Language Comprehension Impact Of A Tablet- And Gameflow-Based Story-Listening Game For Kindergarteners: Methodological And Mixed Methods Study. JMIR serious games (2022).
Francesca Incitti, Federico Urli, L. Snidaro. Beyond Word Embeddings: A Survey. Information Fusion (2022).
Francesca Ronchini, R. Serizel. A Benchmark Of State-Of-The-Art Sound Event Detection Systems Evaluated On Synthetic Soundscapes. ArXiv (2022).
Francesca Ronchini, Samuele Cornell, R. Serizel, Nicolas Turpault, Eduardo Fonseca, D. Ellis. Description And Analysis Of Novelties Introduced In Dcase Task 4 2022 On The Baseline System. DCASE (2022).
Gasser Elbanna, Neil Scheidwasser-Clow, M. Kegler, P. Beckmann, Karl El Hajal, M. Cernak. Byol-S: Learning Self-Supervised Speech Representations By Bootstrapping (2022).
Gasser Elbanna, Neil Scheidwasser-Clow, M. Kegler, P. Beckmann, Karl El Hajal, M. Cernak. Byol-S: Learning Self-Supervised Speech Representations By Bootstrapping. ArXiv (2022).
Gasser Elbanna, Neil Scheidwasser-Clow, M. Kegler, P. Beckmann, Karl El Hajal, M. Cernak. Byol-S: Learning Self-Supervised Speech Representations By Bootstrapping. ArXiv (2022).
Gonçalo Bernardo, Gilberto Bernardes. Leveraging Compatibility And Diversity In Computer-Aided Music Mashup Creation. Personal and Ubiquitous Computing (2022).
Grant Van Horn, Rui Qian, Kimberly Wilber, Hartwig Adam, Oisin Mac Aodha, S. Belongie. Exploring Fine-Grained Audiovisual Categorization With The Ssw60 Dataset. ArXiv (2022).
H. Jleed, M. Bouchard. Incremental Multiclass Open-Set Audio Recognition. International Journal of Advances in Intelligent Informatics (2022).
H. Taherian, S. Eskimez, Takuya Yoshioka. Breaking The Trade-Off In Personalized Speech Enhancement With Cross-Task Knowledge Distillation. ArXiv (2022).
Han Liu, H. Liu. When Evil Calls: Targeted Adversarial Voice Over Ip Network (2022).
Han Liu, Zhiyuan Yu, Mingming Zha, Xiaofeng Wang, W. Yeoh, Yevgeniy Vorobeychik, Ning Zhang. When Evil Calls: Targeted Adversarial Voice Over Ip Network. CCS (2022).
Haohe Liu, Qiuqiang Kong, Xubo Liu, Xinhao Mei, Wenwu Wang, MarkD . Plumbley. Ontology-Aware Learning And Evaluation For Audio Tagging. ArXiv (2022).
Haohe Liu, Xubo Liu, Qiuqiang Kong, Wenwu Wang, M. Plumbley. Learning Temporal Resolution In Spectrogram For Audio Classification. AAAI (2022).
Haohe Liu, Xubo Liu, Qiuqiang Kong, Wenwu Wang, Mark D. Plumbley. Learning The Spectrogram Temporal Resolution For Audio Classification. ArXiv (2022).
Haohe Liu, Xubo Liu, Qiuqiang Kong, Wenwu Wang, MarkD . Plumbley. Learning The Spectrogram Temporal Resolution For Audio Classification. ArXiv (2022).
Heinrich Dinkel, Yongqing Wang, Zhiyong Yan, Junbo Zhang, Yujun Wang. Unikw-At: Unified Keyword Spotting And Audio Tagging. INTERSPEECH (2022).
Heinrich Dinkel, Zhiyong Yan, Yongqing Wang, Junbo Zhang, Yujun Wang. An Empirical Study Of Weakly Supervised Audio Tagging Embeddings For General Audio Representations. Odyssey (2022).
Heinrich Dinkel, Zhiyong Yan, Yongqing Wang, Junbo Zhang, Yujun Wang. Pseudo Strong Labels For Large Scale Weakly Supervised Audio Tagging. ICASSP (2022).
Helin Wang, Dongchao Yang, Chao Weng, Jia-yi Yu, Yuexian Zou. Improving Target Sound Extraction With Timestamp Information. ArXiv (2022).
Hira Dhamyal, Benjamin Elizalde, Soham Deshmukh, Huaming Wang, B. Raj, Rita Singh. Describing Emotions With Acoustic Property Prompts For Speech Emotion Recognition. ArXiv (2022).
Hoang-Thi Nguyen-Vo, Huy Nguycn-Gia, Hoan-Duy Nguyen-Tran, Hoang Pham-Minh, Hung Vo-Thanh, Hao Do-Due. Marblenet: A Deep Neural Network Solution For Vietnamese Voice Activity Detection. 2022 9th NAFOSTED Conference on Information and Computer Science (NICS) (2022).
Huang Xie, O. Räsänen, T. Virtanen. On Negative Sampling For Contrastive Audio-Text Retrieval. ArXiv (2022).
Huang Xie, Samuel Lipping, T. Virtanen. Language-Based Audio Retrieval Task In Dcase 2022 Challenge. DCASE (2022).
Huang Xie, Samuel Lipping, T. Virtanen. Dcase 2022 Challenge Task 6B: Language-Based Audio Retrieval (2022).
Huang Xie, Samuel Lipping, T. Virtanen. Dcase 2022 Challenge Task 6B: Language-Based Audio Retrieval Technical (2022).
Hyungchan Song, Sanyuan Chen, Zhuo Chen, Yu Wu, Takuya Yoshioka, M. Tang, Jong Won Shin, Shujie Liu. Exploring Wavlm On Speech Enhancement. 2022 IEEE Spoken Language Technology Workshop (SLT) (2022).
Il-Young Jeong, Jeongsoon Park. Cochlscene: Acquisition Of Acoustic Scene Data Using Crowdsourcing. 2022 Asia-Pacific Signal and Information Processing Association Annual Summit and Conference (APSIPA ASC) (2022).
J. Rulff, Fábio Miranda, Maryam Hosseini, Marcos Lage, M. Cartwright, Graham Dove, J. Bello, Cláudio T. Silva. Urban Rhapsody: Large-Scale Exploration Of Urban Soundscapes. ArXiv (2022).
J. Rulff, Fábio Miranda, Maryam Hosseini, Marcos Lage, M. Cartwright, Graham Dove, J. Bello, Cláudio T. Silva. Urban Rhapsody: Large‐Scale Exploration Of Urban Soundscapes. Comput. Graph. Forum (2022).
Janek Ebbers, R. Serizel, Reinhold Haeb-Umbach. Threshold Independent Evaluation Of Sound Event Detection Scores. ArXiv (2022).
Jinbo Hu, Yin Cao, Ming Wu, Qiuqiang Kong, Feiran Yang, MarkD . Plumbley, J. Yang. Sound Event Localization And Detection For Real Spatial Sound Scenes: Event-Independent Network And Data Augmentation Chains. DCASE (2022).
Jingdong Li, Yuanyuan Zhu, Dawei Luo, Yun Liu, Guohui Cui, Zhaoxia Li. The Pcg-Aiid System For L3Das22 Challenge: Mimo And Miso Convolutional Recurrent Network For Multi Channel Speech Enhancement And Speech Recognition (2022).
Jinhua Liang, Huy Phan, Emmanouil Benetos. Leveraging Label Hierachies For Few-Shot Everyday Sound Recognition. DCASE (2022).
Jinhua Liang, Huy Phan, Emmanouil Benetos. Learning From Taxonomy: Multi-Label Few-Shot Classification For Everyday Sound Recognition. ArXiv (2022).
Johann Kay Ann Tan, Y. Hasegawa, S. Lau. A Comprehensive Environmental Sound Categorization Scheme Of An Urban City. Applied Acoustics (2022).
Jonathan Svirsky, O. Lindenbaum. Sg-Vad: Stochastic Gates Based Speech Activity Detection. ArXiv (2022).
Joseph P. Turian, Jordie Shier, H. Khan, B. Raj, Björn Schuller, C. Steinmetz, C. Malloy, G. Tzanetakis, Gissel Velarde, K. McNally, Max Henry, Nicolas Pinto, Camille Noufi, Christian Clough, Dorien Herremans, Eduardo Fonseca, Jesse Engel, J. Salamon, P. Esling, Pranay Manocha, Shinji Watanabe, Zeyu Jin, Yonatan Bisk. Hear: Holistic Evaluation Of Audio Representations (2022).
Joseph P. Turian, Jordie Shier, H. Khan, B. Raj, Björn Schuller, C. Steinmetz, C. Malloy, G. Tzanetakis, Gissel Velarde, K. McNally, Max Henry, Nicolas Pinto, Camille Noufi, Christian Clough, Dorien Herremans, Eduardo Fonseca, Jesse Engel, J. Salamon, P. Esling, Pranay Manocha, Shinji Watanabe, Zeyu Jin, Yonatan Bisk. Hear 2021: Holistic Evaluation Of Audio Representations. ArXiv (2022).
Joseph P. Turian, Jordie Shier, H. Khan, B. Raj, Björn Schuller, C. Steinmetz, C. Malloy, G. Tzanetakis, Gissel Velarde, K. McNally, Max Henry, Nicolas Pinto, Camille Noufi, Christian Clough, Dorien Herremans, Eduardo Fonseca, Jesse Engel, J. Salamon, P. Esling, Pranay Manocha, Shinji Watanabe, Zeyu Jin, Yonatan Bisk. Hear 2021: Holistic Evaluation Of Audio Representations. ArXiv (2022).
Ju-ho Kim, Ju-Sung Heo, Hyun-seo Shin, Chanmann Lim, Ha-jin Yu. Integrated Parameter-Efficient Tuning For General-Purpose Audio Models. ArXiv (2022).
Julia Berezutskaya, L. Ambrogioni, N. Ramsey, M. Gerven. Towards Naturalistic Speech Decoding From Intracranial Brain Data. 2022 44th Annual International Conference of the IEEE Engineering in Medicine & Biology Society (EMBC) (2022).
Jun Shen, M. Khodak, Ameet S. Talwalkar. Efficient Architecture Search For Diverse Tasks. ArXiv (2022).
Jun Shen, M. Khodak, Ameet S. Talwalkar. Efficient Architecture Search For Diverse Tasks. ArXiv (2022).
Karn Nichakarn Watcharasupat, Kenneth Ooi, Bhan Lam, Trevor Wong, Zhen-Ting Ong, W. Gan. Autonomous In-Situ Soundscape Augmentation Via Joint Selection Of Masker And Gain. IEEE Signal Processing Letters (2022).
Karn Nichakarn Watcharasupat, Kenneth Ooi, Bhan Lam, Trevor Wong, Zhen-Ting Ong, W. Gan. Autonomous In-Situ Soundscape Augmentation Via Joint Selection Of Masker And Gain. ArXiv (2022).
Kenneth Ooi, Bhan Lam, J. Hong, Karn Nichakarn Watcharasupat, Zhen-Ting Ong, W. Gan. Singapore Soundscape Site Selection Survey (S5): Identification Of Characteristic Soundscapes Of Singapore Via Weighted K-Means Clustering. Sustainability (2022).
Kenneth Ooi, Zhen-Ting Ong, Karn Nichakarn Watcharasupat, Bhan Lam, J. Hong, Woon-Seng Gan Nanyang Technological University, Singapore, C. University, Daejeon, R. Korea. Araus: A Large-Scale Dataset And Baseline Models Of Affective Responses To Augmented Urban Soundscapes. ArXiv (2022).
Kenneth Ooi, Zhen-Ting Ong, Karn Nichakarn Watcharasupat, Bhan Lam, J. Hong, Woon-Seng Gan Nanyang Technological University, Singapore, Chungnam National University, Daejeon, R. Korea. Araus: A Large-Scale Dataset And Baseline Models Of Affective Responses To Augmented Urban Soundscapes. IEEE Transactions on Affective Computing (2022).
Kevin Kilgour, Beat Gfeller, Qingqing Huang, A. Jansen, Scott Wisdom, M. Tagliasacchi. Text-Driven Separation Of Arbitrary Sounds. ArXiv (2022).
Khaled Koutini, Shahed Masoudian, Florian Schmid, Hamid Eghbal-zadeh, Jan Schluter, G. Widmer. Learning General Audio Representations With Large-Scale Training Of Patchout Audio Transformers. ArXiv (2022).
Kohei Suzuki, Shoki Sakamoto, T. Taniguchi, H. Kameoka. Speak Like A Dog: Human To Non-Human Creature Voice Conversion. 2022 Asia-Pacific Signal and Information Processing Association Annual Summit and Conference (APSIPA ASC) (2022).
Kohei Suzuki, Shoki Sakamoto, T. Taniguchi, H. Kameoka. Speak Like A Dog: Human To Non-Human Creature Voice Conversion (2022).
Kuan-Po Huang, Yu-Kuan Fu, Tsung-Yuan Hsu, Fabian Ritter Gutierrez, Fan Wang, Liang-Hsuan Tseng, Yu Zhang, Hung-yi Lee. Improving Generalizability Of Distilled Self-Supervised Speech Processing Models Under Distorted Settings. 2022 IEEE Spoken Language Technology Workshop (SLT) (2022).
Kuan-Po Huang, Yuanbin Fu, Yu Zhang, Hung-yi Lee. Improving Distortion Robustness Of Self-Supervised Speech Processing Tasks With Domain Adaptation. ArXiv (2022).
Kuan-Po Huang, Yuanbin Fu, Yu Zhang, Hung-yi Lee. Improving Distortion Robustness Of Self-Supervised Speech Processing Tasks With Domain Adaptation. ArXiv (2022).
L. Delebecque, R. Serizel, Nicolas Furnon. Towards An Eﬀicient Computation Of Masks For Multichannel Speech Enhancement (2022).
L. Turchet, Marco Carraro, Matteo Tomasetti. Freesoundvr: Soundscape Composition In Virtual Reality Using Online Sound Repositories. Virtual Reality (2022).
Luke Dzwonczyk. Source Separation Methods For Computer-Assisted Orchestration (2022).
Léo Cances, E. Labbé, Thomas Pellegrini. Comparison Of Semi-Supervised Deep Learning Algorithms For Audio Classification. EURASIP Journal on Audio, Speech, and Music Processing (2022).
M. Abdollahi, R. Serizel, A. Rakotomamonjy, G. Gasso. Integrating Isolated Examples With Weakly-Supervised Sound Event Detection: A Direct Approach. DCASE (2022).
M. Neri, F. Battisti, A. Neri, M. Carli. Sound Event Detection For Human Safety And Security In Noisy Environments. IEEE Access (2022).
Madhurananda Pahar, M. Klopper, B. Reeve, R. Warren, G. Theron, A. Diacon, T. Niesler. Automatic Tuberculosis And Covid-19 Cough Classification Using Deep Learning. 2022 International Conference on Electrical, Computer and Energy Technologies (ICECET) (2022).
Madhurananda Pahar, M. Klopper, Byron Reeve, R. Warren, G. Theron, A. Diacon, T. Niesler. Automatic Tuberculosis And Covid-19 Cough Classification Using Deep Learning. ArXiv (2022).
Manthan Thakker, S. Eskimez, T. Yoshioka, Huaming Wang. Fast Real-Time Personalized Speech Enhancement: End-To-End Enhancement Network (E3Net) And Knowledge Distillation. ArXiv (2022).
Marc Delcroix, Jorge Bennasar V'azquez, Tsubasa Ochiai, K. Kinoshita, Yasunori Ohishi, S. Araki. Soundbeam: Target Sound Extraction Conditioned On Sound-Class Labels And Enrollment Clues For Increased Performance And Continuous Learning. IEEE/ACM Transactions on Audio, Speech, and Language Processing (2022).
Marc Delcroix, Jorge Bennasar V'azquez, Tsubasa Ochiai, K. Kinoshita, Yasunori Ohishi, S. Araki. Soundbeam: Target Sound Extraction Conditioned On Sound-Class Labels And Enrollment Clues For Increased Performance And Continuous Learning. ArXiv (2022).
Masato Hagiwara. Aves: Animal Vocalization Encoder Based On Self-Supervision. ArXiv (2022).
Mashrur M. Morshed, Ahmad Omar Ahsan, Hasan Mahmud, Md. Kamrul Hasan. Learning Audio Representations With Mlps. ArXiv (2022).
Matthew Groh, Aruna Sankaranarayanan, Nikhil Singh, Dong Young Kim, A. Lippman, Rosalind W. Picard. Human Detection Of Political Speech Deepfakes Across Transcripts, Audio, And Video (2022).
Michela Cantarini, L. Gabrielli, S. Squartini. Few-Shot Emergency Siren Detection. Sensors (2022).
Michelle Charette, Elizabeth Lima, Denielle Elliott. Sonic Stories, Sensory Ethnography, And Listening With An Injured Mind. Multimodality & Society (2022).
Mohammad MohammadAmini, D. Matrouf, J. Bonastre, Sandipana Dowerah, R. Serizel, D. Jouvet. A Comprehensive Exploration Of Noise Robustness And Noise Compensation In Resnet And Tdnn-Based Speaker Recognition Systems (2022).
Mohammad MohammadAmini, D. Matrouf, J. Bonastre, Sandipana Dowerah, R. Serizel, D. Jouvet. Learning Noise Robust Resnet-Based Speaker Embedding For Speaker Recognition. Odyssey (2022).
Moreno La Quatra, L. Vaiani, Alkis Koudounas, Luca Cagliero, P. Garza, Elena Baralis. How Much Attention Should We Pay To Mosquitoes?. ACM Multimedia (2022).
Muhammad Asif, Muhammad Usaid, Munaf Rashid, Tabarka Rajab, S. Hussain, Sarwar Wasi. Large-Scale Audio Dataset For Emergency Vehicle Sirens And Road Noises. Scientific Data (2022).
Nico M. Schmidt, Jordi Pons, M. Miron. Podcastmix: A Dataset For Separating Music And Speech In Podcasts. ArXiv (2022).
Nikhil Singh, Guillermo Bernal, D. Savchenko, Elena L. Glassman. Where To Hide A Stolen Elephant: Leaps In Creative Writing With Multimodal Machine Intelligence. ACM Trans. Comput. Hum. Interact. (2022).
Nikhil Singh, Guillermo Bernal, D. Savchenko, Elena L. Glassman. A Selective Summary Of Where To Hide A Stolen Elephant: Leaps In Creative Writing With Multimodal Machine Intelligence. IN2WRITING (2022).
Oleg Rybakov, M. Tagliasacchi, Yunpeng Li, Liyang Jiang, Xia Zhang. A S ] 2 8 Ju L 2 02 2 Real Time Spectrogram Inversion Onmobile Phone (2022).
Oleg Rybakov, M. Tagliasacchi, Yunpeng Li, Liyang Jiang, Xia Zhang, Fadi Biadsy. Real Time Spectrogram Inversion On Mobile Phone. ArXiv (2022).
Oleg Rybakov, M. Tagliasacchi, Yunpeng Li, Liyang Jiang, Xia Zhang, Fadi Biadsy. Real Time Spectrogram Inversion On Mobile Phone. ArXiv (2022).
P. Tremblay, Gerard Roma, Owen Green. Enabling Programmatic Data Mining As Musicking: The Fluid Corpus Manipulation Toolkit. Computer Music Journal (2022).
Pranay Manocha, Zeyu Jin, A. Finkelstein. Sqapp: No-Reference Speech Quality Assessment Via Pairwise Preference (2022).
Pritam Sarkar, A. Etemad. Xkd: Cross-Modal Knowledge Distillation With Domain Alignment For Video Representation Learning (2022).
Pritam Sarkar, A. Etemad. Xkd: Cross-Modal Knowledge Distillation With Domain Alignment For Video Representation Learning. ArXiv (2022).
Qingqing Huang, A. Jansen, Joonseok Lee, R. Ganti, Judith Yue Li, D. Ellis. Mulan: A Joint Embedding Of Music Audio And Natural Language (2022).
Qiu-shi Zhu, J. Zhang, Zitian Zhang, Lirong Dai. Joint Training Of Speech Enhancement And Self-Supervised Model For Noise-Robust Asr. ArXiv (2022).
Qiu-shi Zhu, Jie Zhang, Zi-qiang Zhang, Ming Wu, Xin Fang, Lirong Dai. A Noise-Robust Self-Supervised Pre-Training Model Based Speech Representation Learning For Automatic Speech Recognition (2022).
R. B. Singh, H. Zhuang. Measurements, Analysis, Classification, And Detection Of Gunshot And Gunshot-Like Sounds. Sensors (2022).
R. Biswas, K. Nathwani. Optimal Near-End Speech Intelligibility Improvement Using Clpso-Based Voice Transformation In Realistic Noisy Environments. Circuits, Systems, and Signal Processing (2022).
Rajapantula Kranthi, Vasundhara. Distributed Active Noise Control Based On Inverse Tangent Robust Least Mean Logarithmic Square. 2022 IEEE International Symposium on Smart Electronic Systems (iSES) (2022).
Roberto San Millán-Castillo, L. Martino, E. Morgado, F. Llorente. An Exhaustive Variable Selection Study For Linear Models Of Soundscape Emotions: Rankings And Gibbs Analysis. IEEE/ACM Transactions on Audio, Speech, and Language Processing (2022).
Robin Scheibler, Tatsuya Komatsu, Yusuke Fujita, Michael Hentschel. On Sorting And Padding Multiple Targets For Sound Event Localization And Detection With Permutation Invariant And Location-Based Training. 2022 Asia-Pacific Signal and Information Processing Association Annual Summit and Conference (APSIPA ASC) (2022).
Robin Scheibler, Tatsuya Komatsu, Yusuke Fujita, Michael Hentschel. Sound Event Localization And Detection With Pre-Trained Audio Spectrogram Transformer And Multichannel Seperation Network. DCASE (2022).
S. Budgett, Mehrdad Yaghoobi. M Eta A Udio : A F Ew -S Hot A Udio C Lassification B Enchmark ∗ (2022).
S. Eskimez, Takuya Yoshioka, Alex Ju, M. Tang, Tanel Pärnamaa, Huaming Wang. Real-Time Joint Personalized Speech Enhancement And Acoustic Echo Cancellation With E3Net. ArXiv (2022).
S. Eskimez, Takuya Yoshioka, Alex Ju, M. Tang, Tanel Pärnamaa, Huaming Wang. Real-Time Joint Personalized Speech Enhancement And Acoustic Echo Cancellation With E3Net. ArXiv (2022).
Samuel Lipping, Parthasaarathy Sudarsanam, K. Drossos, T. Virtanen. Clotho-Aqa: A Crowdsourced Dataset For Audio Question Answering. ArXiv (2022).
Sandeep Reddy Kothinti, Dimitra Emmanouilidou. Investigations In Audio Captioning: Addressing Vocabulary Imbalance And Evaluating Suitability Of Language-Centric Performance Metrics. ArXiv (2022).
Sandeep Reddy Kothinti, Dimitra Emmanouilidou. Investigations In Audio Captioning: Addressing Vocabulary Imbalance And Evaluating Suitability Of Language-Centric Performance Metrics. ArXiv (2022).
Sandipana Dowerah, R. Serizel, D. Jouvet, Mohammad MohammadAmini, D. Matrouf. How To Leverage Dnn-Based Speech Enhancement For Multi-Channel Speaker Verification?. ArXiv (2022).
Sandipana Dowerah, R. Serizel, D. Jouvet, Mohammad, Mohammadamini, D. Matrouf. Compensating Noise And Reverberation In Far-Field Multichannel Speaker Verification (2022).
Shrishail Baligar, S. Newsam. Cossd - An End-To-End Framework For Multi-Instance Source Separation And Detection. 2022 30th European Signal Processing Conference (EUSIPCO) (2022).
Shubo Lv, Yihui Fu, Yukai Jv, Linfu Xie, Weixin Zhu, Wei Rao, Yannan Wang. Spatial-Dccrn: Dccrn Equipped With Frame-Level Angle Feature And Hybrid Filtering For Multi-Channel Speech Enhancement. 2022 IEEE Spoken Language Technology Workshop (SLT) (2022).
Shuozhen Yang, Long Zhang, Yuhua Wei, Hengyuan Zhang. Multi-Scale Convolution For Sound Event Detection Technology. 2022 IEEE 2nd International Conference on Mobile Networks and Wireless Communications (ICMNWC) (2022).
Shwetank Choudhary, C. Karthik, Punuru Sri Lakshmi, Sumit Kumar. Lean: Light And Efficient Audio Classification Network. 2022 IEEE 19th India Council International Conference (INDICON) (2022).
Slawomir Kapka, J. Tkaczuk. Coloc: Conditioned Localizer And Classifier For Sound Event Localization And Detection. DCASE (2022).
Sreyan Ghosh, Ashish Seth, S. Umesh. Delores: Decorrelating Latent Spaces For Low-Resource Audio Representation Learning. ArXiv (2022).
Sreyan Ghosh, Ashish Seth, S. Umesh. Delores: Decorrelating Latent Spaces For Low-Resource Audio Representation Learning. ArXiv (2022).
Sunghyun Yoon. Reflection Of Conditional Independence Structure To Noise Variability For Noise Robust Text Dependent Speaker Verification. IEEE Access (2022).
Swapnil Bhosale, Rupayan Chakraborty, S. Kopparapu. Text-To-Audio Grounding Based Novel Metric For Evaluating Audio Caption Similarity. ArXiv (2022).
Swapnil Bhosale, Rupayan Chakraborty, S. Kopparapu. Automatic Audio Captioning Using Attention Weighted Event Based Embeddings. ArXiv (2022).
T. K. Chan, R. Das. Cross-Stitch Network With Adaptive Loss Weightage For Sound Event Localization And Detection. L3DAS22: Machine Learning for 3D Audio Signal Processing (2022).
Takuya Koumura, Hiroki Terashima, S. Furukawa. Human-Like Modulation Sensitivity Emerging Through Optimization To Natural Sound Recognition. The Journal of Neuroscience (2022).
Tara Vanhatalo, P. Legrand, M. Desainte-Catherine, P. Hanna, Antoine Brusco, Guillaume Pille, Yann Bayle. A Review Of Neural Network-Based Emulation Of Guitar Amplifiers. Applied Sciences (2022).
Tung-Yu Wu, Chen-An Li, Tzu-Han Lin, Tsung-Yuan Hsu, Hung-yi Lee. The Ability Of Self-Supervised Speech Models For Audio Representations. ArXiv (2022).
Tung-Yu Wu, Chen-An Li, Tzu-Han Lin, Tsung-Yuan Hsu, Hung-yi Lee. The Efficacy Of Self-Supervised Speech Models For Audio Representations (2022).
Xiaokang Zhao, Qiu-shi Zhu, J. Zhang. Speech Enhancement Using Self-Supervised Pre-Trained Model And Vector Quantization. 2022 Asia-Pacific Signal and Information Processing Association Annual Summit and Conference (APSIPA ASC) (2022).
Xinhao Mei, Xubo Liu, MarkD . Plumbley, Wenwu Wang. Automated Audio Captioning: An Overview Of Recent Progress And New Challenges. EURASIP Journal on Audio, Speech, and Music Processing (2022).
Xinhao Mei, Xubo Liu, MarkD . Plumbley, Wenwu Wang. Automated Audio Captioning: An Overview Of Recent Progress And New Challenges (2022).
Xuenan Xu, Mengyue Wu, K. Yu. Beyond The Status Quo: A Contemporary Survey Of Advances And Challenges In Audio Captioning. IEEE/ACM Transactions on Audio, Speech, and Language Processing (2022).
Xuenan Xu, Mengyue Wu, K. Yu. A Comprehensive Survey Of Automated Audio Captioning. ArXiv (2022).
Yang Zhao, Chen Zhang, Haifeng Huang, Haoyuan Li, Zhou Zhao. Towards Effective Multi-Modal Interchanges In Zero-Resource Sounding Object Localization. NeurIPS (2022).
Yen-Ju Lu, Samuele Cornell, Xuankai Chang, Wangyou Zhang, Chenda Li, Zhaoheng Ni, Zhong-Qiu Wang, Shinji Watanabe. Towards Low-Distortion Multi-Channel Speech Enhancement: The Espnet-Se Submission To The L3Das22 Challenge (2022).
Yen-Ju Lu, Xuankai Chang, Chenda Li, Wangyou Zhang, Samuele Cornell, Zhaoheng Ni, Yoshiki Masuyama, Brian Yan, Robin Scheibler, Zhongqiu Wang, Yu Tsao, Y. Qian, Shinji Watanabe. Espnet-Se++: Speech Enhancement For Robust Speech Recognition, Translation, And Understanding. ArXiv (2022).
Yu Wang, M. Cartwright, J. Bello. Active Few-Shot Learning For Sound Event Detection. INTERSPEECH (2022).
Yuan Gong, Jingbo Yu, James R. Glass. Vocalsound: A Dataset For Improving Human Vocal Sounds Recognition. ICASSP (2022).
Yuan Gong, Sameer Khurana, Andrew Rouditchenko, James R. Glass. Cmkd: Cnn/Transformer-Based Cross-Model Knowledge Distillation For Audio Classification. ArXiv (2022).
Yun Jung Lee, Hwayeon Joh, Suhyeon Yoo, U. Oh. Accesscomics2: Understanding The User Experience Of An Accessible Comic Book Reader For Blind People With Textual Sound Effects. ACM Transactions on Accessible Computing (2022).
Yunjung Lee, Hwayeon Joh, Suhyeon Yoo, U. Oh. Accesscomics2: Understanding The User Experience Of An Accessible Comic Book Reader For Blind People With Textual Sound Effects. ACM Transactions on Accessible Computing (2022).
Yusong Wu, K. Chen, Tianyu Zhang, Yuchen Hui, Taylor Berg-Kirkpatrick, S. Dubnov. Large-Scale Contrastive Language-Audio Pretraining With Feature Fusion And Keyword-To-Caption Augmentation. ArXiv (2022).
Yusong Wu, K. Chen, Tianyu Zhang, Yuchen Hui, Taylor Berg-Kirkpatrick, S. Dubnov. Large-Scale Contrastive Language-Audio Pretraining With Feature Fusion And Keyword-To-Caption Augmentation. ICASSP 2023 - 2023 IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP) (2022).
Zexu Pan, G. Wichern, Franccois G. Germain, A. Subramanian, Jonathan Le Roux. Towards End-To-End Speaker Diarization In The Wild. ArXiv (2022).
Zexu Pan, G. Wichern, Franccois G. Germain, A. Subramanian, Jonathan Le Roux. Late Audio-Visual Fusion For In-The-Wild Speaker Diarization (2022).
Zhong-Qiu Wang, G. Wichern, Shinji Watanabe, Jonathan Le Roux. Stft-Domain Neural Speech Enhancement With Very Low Algorithmic Latency. ArXiv (2022).
Zhong-Qiu Wang, G. Wichern, Shinji Watanabe, Jonathan Le Roux. Stft-Domain Neural Speech Enhancement With Very Low Algorithmic Latency. IEEE/ACM Transactions on Audio, Speech, and Language Processing (2022).
Zhong-Qiu Wang, Shinji Watanabe. Improving Frame-Online Neural Speech Enhancement With Overlapped-Frame Prediction. IEEE Signal Processing Letters (2022).
Zhongqiu Wang, Samuele Cornell, Shukjae Choi, Younglo Lee, Byeonghak Kim, Shinji Watanabe. Tf-Gridnet: Integrating Full- And Sub-Band Modeling For Speech Separation. IEEE/ACM Transactions on Audio, Speech, and Language Processing (2022).
Zhongqiu Wang, Samuele Cornell, Shukjae Choi, Younglo Lee, Byeonghak Kim, Shinji Watanabe. Tf-Gridnet: Integrating Full- And Sub-Band Modeling For Speech Separation. ArXiv (2022).
Zhongqiu Wang, Shinji Watanabe. Improving Frame-Online Neural Speech Enhancement With Overlapped-Frame Prediction. IEEE Signal Processing Letters (2022).
Zi-Hua Zhang, Sanyuan Chen, Long Zhou, Yu Wu, Shuo Ren, Shujie Liu, Zhuoyuan Yao, Xun Gong, Lirong Dai, Jinyu Li, Furu Wei. Speechlm: Enhanced Speech Pre-Training With Unpaired Textual Data. IEEE/ACM Transactions on Audio, Speech, and Language Processing (2022).
Zubayer Islam, M. Abdel-Aty. Deep Convolutional Neural Network For Roadway Incident Surveillance Using Audio Data. ArXiv (2022).

2021 (143)

. R Evisiting Transposed Convolutions For In Terpreting Raw Waveform Sound Event Recog Nition Cnn S By Sonification (2021).
A. Aleluia, G. Cabral. Rapid Prototyping: Using Wizard Of Oz To Emulate Machine Learning Features For Interactive Artistic Applications. Anais do XVIII Simpósio Brasileiro de Computação Musical (SBCM 2021) (2021).
A. Copiaco, C. Ritz, S. Fasciani, N. Abdulaziz. Dasee A Synthetic Database Of Domestic Acoustic Scenes And Events In Dementia Patients Environment. ArXiv (2021).
A. Correya, Jorge Marcos-Fernández, Luis Joglar-Ongay, Pablo Alonso-Jiménez, X. Serra, D. Bogdanov. Audio And Music Analysis On The Web Using Essentia.Js. Trans. Int. Soc. Music. Inf. Retr. (2021).
A. Jensenius. Best Versus Good Enough Practices For Open Music Research. Empirical Musicology Review (2021).
A. Madhu, S. Kumaraswamy. Envgan: Adversarial Synthesis Of Environmental Sounds For Data Augmentation. ArXiv (2021).
A. P. Mishra, N. S. Harper, J. Schnupp. Exploring The Distribution Of Statistical Feature Parameters For Natural Sound Textures. PloS one (2021).
A. S. Koepke, Andreea-Maria Oncescu, João F. Henriques, Zeynep Akata, Samuel Albanie. Audio Retrieval With Natural Language Queries: A Benchmark Study. IEEE Transactions on Multimedia (2021).
A. Shams, M. Raihan, Md. Mohi Uddin Khan, Ocean Monjur, Rahat Bin Preo. Telehealthcare And Telepathology In Pandemic: A Noninvasive, Low-Cost Micro-Invasive And Multimodal Real-Time Online Application For Early Diagnosis Of Covid-19 Infection (Preprint) (2021).
Aaron Valero Puche, Sukhan Lee. Caesynth: Real-Time Timbre Interpolation And Pitch Control With Conditional Autoencoders. 2021 IEEE 31st International Workshop on Machine Learning for Signal Processing (MLSP) (2021).
Abdulaziz Saleh Ba Wazir, H. A. Karim, Mohd Haris Lye Abdullah, Nouar AlDahoul, Sarina Mansor, M. F. A. Fauzi, John See, Ahmad Syazwan Naim. Design And Implementation Of Fast Spoken Foul Language Recognition With Different End-To-End Deep Neural Network Architectures. Sensors (2021).
Adri'an Barahona-R'ios, Tom Collins. Specsingan: Sound Effect Variation Synthesis Using Single-Image Gans. ArXiv (2021).
Adri'an Barahona-R'ios, Tom Collins. Specsingan: Sound Effect Variation Synthesis Using Single-Image Gans. ArXiv (2021).
Alexander Ponomarchuk, I. Burenko, Elian Malkin, I. Nazarov, V. Kokh, Manvel Avetisian, L. Zhukov. Project Achoo: A Practical Model And Application For Covid-19 Detection From Recordings Of Breath, Voice, And Cough. IEEE Journal of Selected Topics in Signal Processing (2021).
Alexander Ponomarchuk, I. Burenko, Elian Malkin, Ivan Nazarov, V. Kokh, Manvel Avetisian, L. Zhukov. Project Achoo: A Practical Model And Application For Covid-19 Detection From Recordings Of Breath, Voice, And Cough. ArXiv (2021).
Andreea-Maria Oncescu, A. S. Koepke, João F. Henriques, Zeynep Akata, Samuel Albanie. Audio Retrieval With Natural Language Queries. Interspeech 2021 (2021).
Anis Haron. Tone Color 音色排序的计算分类 (2021).
Anna Xambó. A Live Coding Session With The Cloud And A Virtual Agent (2021).
Anna Xambó, Gerard Roma, Sam Roig, Eduard Solaz. Live Coding With The Cloud And A Virtual Agent (2021).
Archiki Prasad, P. Jyothi, R. Velmurugan. An Investigation Of End-To-End Models For Robust Speech Recognition. ArXiv (2021).
Ariane Stolfi, D. P. S. D. Novais. Improvisation In Isolation: Quarentena Liv(R)E And Noise Symphony With The Playsound Online Music Making Tool (2021).
Aswin Sivaraman, Minje Kim. Efficient Personalized Speech Enhancement Through Self-Supervised Learning. IEEE Journal of Selected Topics in Signal Processing (2021).
Aswin Sivaraman, Sunwoo Kim, Minje Kim. Personalized Speech Enhancement Through Self-Supervised Data Augmentation And Purification. Interspeech 2021 (2021).
B. Weck, Xavier Favory, Konstantinos Drossos, X. Serra. Evaluating Off-The-Shelf Machine Listening And Natural Language Models For Automated Audio Captioning. ArXiv (2021).
Chandan K. A. Reddy, Vishak Gopa, Harishchandra Dubey, Sergiy Matusevych, Ross Cutler, R. Aichner. Musicnet: Compact Convolutional Neural Network For Real-Time Background Music Detection. ArXiv (2021).
Chandan K.A. Reddy, Vishak Gopa, Harishchandra Dubey, Sergiy Matusevych, Ross Cutler, R. Aichner. Musicnet: Compact Convolutional Neural Network For Real-Time Background Music Detection. ArXiv (2021).
Chao Xie, Yi-Chiao Wu, Patrick Lumban Tobing, Wen-Chin Huang, Tomoki Toda. Noisy-To-Noisy Voice Conversion Framework With Denoising Model. ArXiv (2021).
Clarity, Xi Chen, Yupeng Shi, Wei Xiao, Tingzhao Wu, Meng Wang, Shidong Shang, N. Zheng, Q. Meng. A Cascaded Speech Enhancement For Hearing Aids In Noisy-Reverberant Conditions (2021).
D. Arteaga, J. Pons. Multichannel-Based Learning For Audio Object Extraction. ArXiv (2021).
D. Arteaga, Jordi Pons. Multichannel-Based Learning For Audio Object Extraction. ICASSP 2021 - 2021 IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP) (2021).
D. Jain. Protosound: A Personalized And Scalable Sound Recognition System For Deaf And Hard-Of-Hearing Users (2021).
Daisuke Niizumi, Daiki Takeuchi, Yasunori Ohishi, N. Harada, K. Kashino. Byol For Audio: Self-Supervised Learning For General-Purpose Audio Representation. 2021 International Joint Conference on Neural Networks (IJCNN) (2021).
Darius Petermann, G. Wichern, Zhong-Qiu Wang, Jonathan Le Roux. The Cocktail Fork Problem: Three-Stem Audio Separation For Real-World Soundtracks. ArXiv (2021).
Darius Petermann, G. Wichern, Zhong-Qiu Wang, Jonathan Le Roux. The Cocktail Fork Problem: Three-Stem Audio Separation For Real-World Soundtracks. ICASSP (2021).
Diego De Benito-Gorrón, Daniel Ramos, D. Toledano. A Multi-Resolution Crnn-Based Approach For Semi-Supervised Sound Event Detection In Dcase 2020 Challenge. IEEE Access (2021).
Diego de Benito-Gorrón, Daniel Ramos, D. Toledano. An Analysis Of Sound Event Detection Under Acoustic Degradation Using Multi-Resolution Systems. IberSPEECH (2021).
E. Guizzo, C. Marinoni, Marco Pennese, Xinlei Ren, Xiguang Zheng, Chen Zhang, B. Masiero, D. Comminiello. L3Das22 Challenge: Machine Learning For 3D Audio Signal Processing (2021).
E. Guizzo, Riccardo F. Gramaccioni, Saeid Jamili, C. Marinoni, Edoardo Massaro, Claudia Medaglia, Giuseppe Nachira, Leonardo Nucciarelli, Ludovica Paglialunga, M. Pennese, Sveva Pepe, Enrico Rocchi, A. Uncini, D. Comminiello. L3Das21 Challenge: Machine Learning For 3D Audio Signal Processing. 2021 IEEE 31st International Workshop on Machine Learning for Signal Processing (MLSP) (2021).
E. Guizzo, Riccardo F. Gramaccioni, Saeid Jamili, C. Marinoni, Edoardo Massaro, Claudia Medaglia, Giuseppe Nachira, Leonardo Nucciarelli, Ludovica Paglialunga, Marco Pennese, Sveva Pepe, Enrico Rocchi, A. Uncini, D. Comminiello. L3Das21 Challenge: Machine Learning For 3D Audio Signal Processing. 2021 IEEE 31st International Workshop on Machine Learning for Signal Processing (MLSP) (2021).
E. Gómez. Deep Noise Suppression For Real Time Speech Enhancement In A Single Channel Wide Band Scenario (2021).
Eduardo Fonseca, Andrés Ferraro, Xavier Serra. Improving Sound Event Classification By Increasing Shift Invariance In Convolutional Neural Networks. ArXiv (2021).
Eduardo Fonseca, Andrés Ferraro, Xavier Serra. J Ul 2 02 1 Improving Sound Event Classification By Increasing Shift Invariance In Convolutional Neural Networks (2021).
Efthymios Tzinis, Jonah Casebeer, Zhepei Wang, P. Smaragdis. Separate But Together: Unsupervised Federated Learning For Speech Enhancement From Non-Iid Data. ArXiv (2021).
Efthymios Tzinis, Yossi Adi, V. Ithapu, Buye Xu, Anurag Kumar. Continual Self-Training With Bootstrapped Remixing For Speech Enhancement. ICASSP 2022 - 2022 IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP) (2021).
Efthymios Tzinis, Yossi Adi, V. Ithapu, Buye Xu, Anurag Kumar. Continual Self-Training With Bootstrapped Remixing For Speech Enhancement. ArXiv (2021).
Efthymios Tzinis, Yossi Adi, Vamsi K. Ithapu, Buye Xu, Anurag Kumar. Continual Self-Training With Bootstrapped Remixing For Speech Enhancement. ArXiv (2021).
F. Font. Source: A Freesound Community Music Sampler. Audio Mostly Conference (2021).
Francesc Lluís, V. Chatziioannou, A. Hofmann. Music Source Separation Conditioned On 3D Point Clouds. ArXiv (2021).
Francesca Ronchini, R. Serizel, Nicolas Turpault, Samuele Cornell. The Impact Of Non-Target Events In Synthetic Soundscapes For Sound Event Detection. ArXiv (2021).
Félix Gontier, Vincent Lostanlen, M. Lagrange, N. Fortin, C. Lavandier, J. Petiot. Polyphonic Training Set Synthesis Improves Self-Supervised Urban Sound Classification.. The Journal of the Acoustical Society of America (2021).
Gonzalo Montero, F. Corbera. Generating Sound Palettes For A Freesound Concatenative Synthesizer To Support Creativity (2021).
Haron Anis, Chee Onn Wong, Soon Hin Hew. Algorithmic Identification Of Tone Color: A Comparison Of Algorithmic Identification And Identification By Survey Respondents. 10th International Conference on Digital and Interactive Arts (2021).
Hassan Taherian, S. Eskimez, T. Yoshioka, Huaming Wang, Zhuo Chen, Xuedong Huang. One Model To Enhance Them All: Array Geometry Agnostic Multi-Channel Personalized Speech Enhancement. ArXiv (2021).
Ho-Hsiang Wu, Prem Seetharaman, Kundan Kumar, J. Bello. Wav2Clip: Learning Robust Audio Representations From Clip. ArXiv (2021).
Ho-Hsiang Wu, Prem Seetharaman, Kundan Kumar, J. Bello. Wav2Clip: Learning Robust Audio Representations From Clip. ArXiv (2021).
J. Abeßer. Usm-Sed - A Dataset For Polyphonic Sound Event Detection In Urban Sound Monitoring Scenarios. ArXiv (2021).
J. Abeßer, Saichand Gourishetti, Andr'as K'atai, Tobias Clauss, Prachi Sharma, Judith Liebetrau. Idmt-Traffic: An Open Benchmark Dataset For Acoustic Traffic Monitoring Research. ArXiv (2021).
Jialu Li, M. Hasegawa-Johnson, Nancy L. McElwain. Analysis Of Acoustic And Voice Quality Features For The Classification Of Infant And Mother Vocalizations. Speech Commun. (2021).
Joseph P. Turian, Jordie Shier, G. Tzanetakis, K. McNally, Max Henry. One Billion Audio Sounds From Gpu-Enabled Modular Synthesis. ArXiv (2021).
Juliette Millet, J. King. Inductive Biases, Pretraining And Fine-Tuning Jointly Account For Brain Responses To Speech. ArXiv (2021).
Jun Deng, Chunhui Gao, Qian Feng, Xinzhou Xu, Zhaopeng Chen. Adaptive Generalized Cross-Entropy Loss For Sound Event Classification With Noisy Labels. 2021 IEEE Workshop on Applications of Signal Processing to Audio and Acoustics (WASPAA) (2021).
Jurgen Vandendriessche, Nick Wouters, Bruno da Silva, Mimoun Lamrini, Mohamed Yassin Chkouri, Abdellah Touhafi. Environmental Sound Recognition On Embedded Systems: From Fpgas To Tpus. Electronics (2021).
Karn Nichakarn Watcharasupat, Thi Ngoc Tho Nguyen, Ngoc Khanh Nguyen, Zhen Jian Lee, Douglas L. Jones, W. Gan. Improving Polyphonic Sound Event Detection On Multichannel Recordings With The Sørensen-Dice Coefficient Loss And Transfer Learning. ArXiv (2021).
Kenneth Ooi, Karn N. Watcharasupat, Santi Peksi, Furi Andi Karnapi, Zhen-Ting Ong, Danny Chua, Hui-Wen Leow, Li-Long Kwok, Xin-Lei Ng, Zhen-Ann Loh, W. Gan. A Strongly-Labelled Polyphonic Dataset Of Urban Sounds With Spatiotemporal Context. ArXiv (2021).
Khaled Koutini, Jan Schlüter, Hamid Eghbal-zadeh, G. Widmer. Efficient Training Of Audio Transformers With Patchout. ArXiv (2021).
Khaled Koutini, Jan Schlüter, Hamid Eghbal-zadeh, G. Widmer. Efficient Training Of Audio Transformers With Patchout. INTERSPEECH (2021).
Kwanghee Choi, Martin Kersner, Jacob Morton, Buru Chang. Temporal Knowledge Distillation For On-Device Audio Classification. ArXiv (2021).
Kwanghee Choi, Martin Kersner, Jacob Morton, Buru Chang. Temporal Knowledge Distillation For On-Device Audio Classification. ArXiv (2021).
Lijian Gao, Qirong Mao, Jingjing Chen, Ming Dong, R. Chinnam, L. Sassatelli, Miguel Fabian Romero-Rondón, Ujjwal Sharma. Reproducibility Companion Paper: On Learning Disentangled Representation For Acoustic Event Detection. ACM Multimedia (2021).
Léo Cances, E. Labbé, T. Pellegrini. Improving Deep-Learning-Based Semi-Supervised Audio Tagging With Mixup. ArXiv (2021).
Léo Cances, E. Labbé, Thomas Pellegrini. Comparison Of Semi-Supervised Deep Learning Algorithms For Audio Classification. EURASIP Journal on Audio, Speech, and Music Processing (2021).
M. Delcroix, Jorge Bennasar V'azquez, Tsubasa Ochiai, K. Kinoshita, S. Araki. Few-Shot Learning Of New Sound Classes For Target Sound Extraction. Interspeech 2021 (2021).
M. Geravanchizadeh, Sepideh Akhtari Khosroshahi, S. Zakeri. Extraction Of Weighted Saliency Maps In Modelling Bottom-Up Auditory Attention (2021).
M. Neumann, Ngoc Thang Vu. Investigations On Audiovisual Emotion Recognition In Noisy Conditions. 2021 IEEE Spoken Language Technology Workshop (SLT) (2021).
Madhurananda Pahar, M. Klopper, Robin Warren, T. Niesler. Covid-19 Detection In Cough, Breath And Speech Using Deep Transfer Learning And Bottleneck Features (2021).
Madhurananda Pahar, T. Niesler. Deep Transfer Learning Based Covid-19 Detection In Cough, Breath And Speech Using Bottleneck Features (2021).
Marc C. Green, MarkD . Plumbley. Federated Learning With Highly Imbalanced Audio Data. ArXiv (2021).
Michael Taenzer, S. Mimilakis, J. Abeßer. Deep Learning-Based Music Instrument Recognition: Exploring Learned Feature Representations (2021).
Mohammad Mohammadamini, D. Matrouf, J. Bonastre, R. Serizel, Sandipana Dowerah, Denis, Jouvet. Compensate Multiple Distortions For Speaker Recognition Systems (2021).
Motohiro Sunouchi, Masaharu Yoshioka. Proposal Of The Aesthetic Experience-Oriented Evaluation Framework For Field-Recording Sound Retrieval System: Experiments Using Acoustic Feature Signatures Based On Multiscale Fractal Dimension. IVSP (2021).
Motohiro Sunouchi, Masaharu Yoshioka. Diversity-Robust Acoustic Feature Signatures Based On Multiscale Fractal Dimension For Similarity Search Of Environmental Sounds. IEICE Transactions on Information and Systems (2021).
Motohiro Sunouchi, Masaharu Yoshioka. Diversity-Robust Acoustic Feature Signatures Based On Multiscale Fractal Dimension For Similarity Search Of Environmental Sounds. ArXiv (2021).
Muddsair Sharif, Mayur Hotwani, Huseyin Seker, Gero Lückemeyer. Imobilakou: The Role Of Machine Listening To Detect Vehicle Using Sound Acoustics. ICAAI (2021).
N. Orio, B. D. Carolis, Francesco Liotard. Locate Your Soundscape: Interacting With The Acoustic Environment. Multim. Tools Appl. (2021).
N. Orio, B. De Carolis, Francesco Liotard. Locate Your Soundscape: Interacting With The Acoustic Environment. Multimedia tools and applications (2021).
N. Siminski, S. Böhme, M. Herrmann. Bnst And Amygdala Activation To Threat: Effects Of Temporal Predictability And Threat Mode. Behavioural Brain Research (2021).
N. Singh. The Sound Sketchpad: Expressively Combining Large And Diverse Audio Collections. IUI (2021).
Neil Zeghidour, Alejandro Luebs, Ahmed Omran, J. Skoglund, M. Tagliasacchi. Soundstream: An End-To-End Neural Audio Codec. IEEE/ACM Transactions on Audio, Speech, and Language Processing (2021).
Nicholas Roberts, Samuel Guo, Cong Xu, Ameet Talwalkar, David Lander, Lvfang Tao, Linhang Cai, Shuaicheng Niu, Jianyu Heng, Hongyang Qin, Minwen Deng, Johannes Hog, Alexander Pfefferle, Sushil Ammanaghatta Shivakumar, Arjun Krishnakumar, Yubo Wang, R. Sukthanker, Frank Hutter, Euxhen Hasanaj, Tien-Dung Le, M. Khodak, Yuriy Nevmyvaka, Kashif Rasul, Frederic Sala, Anderson Schneider, Junhong Shen, Evan R. Sparks. Automl Decathlon: Diverse Tasks, Modern Methods, And Efficiency At Scale. NeurIPS (2021).
Nicolas Furnon, R. Serizel, S. Essid, I. Illina. Attention-Based Distributed Speech Enhancement For Unconstrained Microphone Arrays With Varying Number Of Nodes. ArXiv (2021).
Nicolas Turpault, R. Serizel, E. Vincent. Analysis Of Weak Labels For Sound Event Tagging (2021).
Pablo Zinemanas, Martín Rocamora, M. Miron, F. Font, X. Serra. An Interpretable Deep Learning Model For Automatic Sound Classification (2021).
Pranay Manocha, Buye Xu, Anurag Kumar. Noresqa - A Framework For Speech Quality Assessment Using Non-Matching References. ArXiv (2021).
Prateek Verma. Large Scale Audio Understanding Without Transformers/ Convolutions/ Berts/ Mixers/ Attention/ Rnns Or. ArXiv (2021).
Prateek Verma. Large Scale Audio Understanding Without Transformers/ Convolutions/ Berts/ Mixers/ Attention/ Rnns Or. ArXiv (2021).
Prateek Verma. Attention Is All You Need? Good Embeddings With Statistics Are Enough Audio Understanding Without Convolutions/Transformers/Berts/Mixers/Attention/Rnns (2021).
Prateek Verma, J. Berger. Audio Transformers: Transformer Architectures For Large Scale Audio Understanding. Adieu Convolutions. ArXiv (2021).
Prateek Verma, J. Berger. Audio Transformers: Transformer Architectures For Large Scale Audio Understanding. Adieu Convolutions. ArXiv (2021).
Przemysław Falkowski-Gilski. Digital Transformation Of Terrestrial Radio: An Analysis Of Simulcasted Broadcasts In Fm And Dab+ For A Smart And Successful Switchover. Applied Sciences (2021).
Qichen Han, Weiqiang Yuan, Dong Liu, X. Li, Zhen Yang. Automated Audio Captioning With Weakly Supervised Pre-Training And Word Selection Methods. DCASE (2021).
Qiuying Shi, Jiqing Han. Semantic Feature Extraction Based On Subspace Learning With Temporal Constraints For Acoustic Event Recognition. Digit. Signal Process. (2021).
Renbo Tu, M. Khodak, Nicholas Roberts, Ameet S. Talwalkar. Nas-Bench-360: Benchmarking Diverse Tasks For Neural Architecture Search. ArXiv (2021).
Renbo Tu, Nicholas Roberts, M. Khodak, Jun Shen, Frederic Sala, Ameet S. Talwalkar. Nas-Bench-360: Benchmarking Neural Architecture Search On Diverse Tasks (2021).
Renbo Tu, Nicholas Roberts, M. Khodak, Jun Shen, Frederic Sala, Ameet S. Talwalkar. Nas-Bench-360: Benchmarking Neural Architecture Search On Diverse Tasks (2021).
Ria Sinha. Digital Assistant For Sound Classification Using Spectral Fingerprinting. International Journal for Research in Applied Science and Engineering Technology (2021).
Rishabh Garg, Ruohan Gao, Kristen Grauman. Geometry-Aware Multi-Task Learning For Binaural Audio Generation From Video (2021).
Robert Müller, Steffen Illium, C. Linnhoff-Popien. A Deep And Recurrent Architecture For Primate Vocalization Classification. Interspeech (2021).
S. Eskimez, Takuya Yoshioka, Huaming Wang, Xiaofei Wang, Zhuo Chen, Xuedong Huang. Personalized Speech Enhancement: New Models And Comprehensive Evaluation. ArXiv (2021).
S. Eskimez, Xiaofei Wang, Min Tang, Hemin Yang, Zirun Zhu, Zhuo Chen, Huaming Wang, T. Yoshioka. Human Listening And Live Captioning: Multi-Task Training For Speech Enhancement. Interspeech 2021 (2021).
S. Graetzer, Jon Barker, T. Cox, M. Akeroyd, J. Culling, G. Naylor, Eszter Porter, Rhoddy Viveros Muñoz. Clarity-2021 Challenges: Machine Learning Challenges For Advancing Hearing Aid Processing. Interspeech 2021 (2021).
Sangwoo Park, David K. Han, Mounya Elhilali. Cross-Referencing Self-Training Network For Sound Event Detection In Audio Mixtures. ArXiv (2021).
Sarthak Yadav, M. Foster. Gise-51: A Scalable Isolated Sound Events Dataset. ArXiv (2021).
Sean Perry, Vaibhav Tiwari, Nishant Balaji, Erika Joun, Jacob Ayers, M. Tobler, Ian Ingram, Ryan Kastner, C. Schurgers. Pyrenote: A Web-Based, Manual Annotation Tool For Passive Acoustic Monitoring. 2021 IEEE 18th International Conference on Mobile Ad Hoc and Smart Systems (MASS) (2021).
Seokjin Lee, Minhan Kim, S. Shin, Sooyoung Park, Youngho Jeong. Data-Dependent Feature Extraction Method Based On Non-Negative Matrix Factorization For Weakly Supervised Domestic Sound Event Detection. Applied Sciences (2021).
Siddharth Gururani, Alexander Lerch. Semi-Supervised Audio Classification With Partially Labeled Data. 2021 IEEE International Symposium on Multimedia (ISM) (2021).
Sreyan Ghosh, Ashish Seth, S. Umesh. Decorrelating Feature Spaces For Learning General-Purpose Audio Representations. IEEE Journal of Selected Topics in Signal Processing (2021).
Sreyan Ghosh, Sandesh V Katta, Ashish Seth, S. Umesh. Decorrelating Feature Spaces For Learning General-Purpose Audio Representations. IEEE Journal of Selected Topics in Signal Processing (2021).
Steven M. Goodman, Ping Liu, Emma J. McDonnell, Jon Froehlich, Steven M. Goodman, Ping Liu, Dhruv Jain, Emma J. McDonnell, Jon Froehlich. Toward User-Driven Sound Recognizer Personalization With People Who Are D/Deaf Or Hard Of Hearing. Proc. ACM Interact. Mob. Wearable Ubiquitous Technol. (2021).
Tiago B. Lacerda, Péricles B. C. Miranda, André Câmara, Ana Paula C. Furtado. Deep Learning And Mel-Spectrograms For Physica Violence Detection In Audio. Anais do XVIII Encontro Nacional de Inteligência Artificial e Computacional (ENIAC 2021) (2021).
Tony Liu, A. Amirsoleimani, Jianxiong Xu, F. Alibart, Y. Beilliard, S. Ecoffey, Dominique Drouin, R. Genov. Codex: Stochastic Encoding Method To Relax Resistive Crossbar Accelerator Design Requirements. IEEE Transactions on Circuits and Systems II: Express Briefs (2021).
Tony Liu, A. Amirsoleimani, Jianxiong Xu, F. Alibart, Y. Beilliard, S. Ecoffey, Dominique Drouin, R. Genov. Codex: Stochastic Encoding Method To Relax Resistive Crossbar Accelerator Design Requirements. IEEE Transactions on Circuits and Systems II: Express Briefs (2021).
Turab Iqbal, Yin Cao, A. Bailey, MarkD . Plumbley, Wenwu Wang. Arca23K: An Audio Dataset For Investigating Open-Set Label Noise. DCASE (2021).
Turab Iqbal, Yin Cao, Andrew Bailey, MarkD . Plumbley, Wenwu Wang. Arca23K: An Audio Dataset For Investigating Open-Set Label Noise. ArXiv (2021).
Valeria Mordoh, Y. Zigel. Audio Source Separation To Reduce Sleeping Partner Sounds: A Simulation Study. Physiological measurement (2021).
Vasileios Tsouvalas, Aaqib Saeed, T. Ozcelebi. Federated Self-Training For Semi-Supervised Audio Recognition. ArXiv (2021).
Vasileios Tsouvalas, Aaqib Saeed, T. Ozcelebi. Federated Self-Training For Semi-Supervised Audio Recognition. ACM Transactions on Embedded Computing Systems (2021).
W. Kleijn, Andrew Storus, M. Chinen, T. Denton, Felicia S. C. Lim, Alejandro Luebs, J. Skoglund, Hengchin Yeh. Generative Speech Coding With Predictive Variance Regularization. ArXiv (2021).
Wookey Lee, Jessica Jiwon Seong, Busra Ozlu, B. Shim, Azizbek Marakhimov, Suan Lee. Biosignal Sensors And Deep Learning-Based Speech Recognition: A Review. Sensors (2021).
Xubo Liu, Turab Iqbal, Jinzheng Zhao, Qiushi Huang, Mark D. Plumbley, Wenwu Wang. Conditional Sound Generation Using Neural Discrete Time-Frequency Representation Learning. 2021 IEEE 31st International Workshop on Machine Learning for Signal Processing (MLSP) (2021).
Xubo Liu, Turab Iqbal, Jinzheng Zhao, Qiushi Huang, Mark D. Plumbley, Wenwu Wang. Conditional Sound Generation Using Neural Discrete Time-Frequency Representation Learning. 2021 IEEE 31st International Workshop on Machine Learning for Signal Processing (MLSP) (2021).
Y. Campos-Roca. Multidisciplinary Project-Based Learning: Improving Student Motivation For Learning Signal Processing. IEEE Signal Processing Magazine (2021).
Yanling Li, Jun-yi Cai, Qidi Dong, Linjia Wu, Qibing Chen. Psychophysiological Responses Of Young People To Soundscapes In Actual Rural And City Environments. Journal of the Audio Engineering Society (2021).
Yanpeng Zhao, Jack Hessel, Youngjae Yu, Ximing Lu, Rowan Zellers, Yejin Choi. Connecting The Dots Between Audio And Text Without Parallel Data Through Visual Knowledge Transfer. ArXiv (2021).
Yanpeng Zhao, Jack Hessel, Youngjae Yu, Ximing Lu, Rowan Zellers, Yejin Choi. Connecting The Dots Between Audio And Text Without Parallel Data Through Visual Knowledge Transfer. ArXiv (2021).
Yasha Iravantchi, Karan Ahuja, Mayank Goel, Chris Harrison, A. Sample. Privacymic: Utilizing Inaudible Frequencies For Privacy Preserving Daily Activity Recognition. CHI (2021).
Yu Wang, Nicholas J. Bryan, J. Salamon, M. Cartwright, J. Bello. Who Calls The Shots? Rethinking Few-Shot Learning For Audio. ArXiv (2021).
Yuan Gong, Yu-An Chung, James R. Glass. Psla: Improving Audio Tagging With Pretraining, Sampling, Labeling, And Aggregation. IEEE/ACM Transactions on Audio, Speech, and Language Processing (2021).
Yuan Gong, Yu-An Chung, James R. Glass. Psla: Improving Audio Tagging With Pretraining, Sampling, Labeling, And Aggregation. IEEE/ACM Transactions on Audio, Speech, and Language Processing (2021).
Yui Sudo, Katsutoshi Itoyama, Kenji Nishida, K. Nakadai. Multichannel Environmental Sound Segmentation. Appl. Intell. (2021).
Z. Mnasri, S. Rovetta, F. Masulli. Anomalous Sound Event Detection: A Survey Of Machine Learning Based Methods And Applications. Multimedia Tools and Applications (2021).
Zhong-Qiu Wang, G. Wichern, Jonathan Le Roux. Leveraging Low-Distortion Target Estimates For Improved Speech Enhancement. ArXiv (2021).
Ziqiang Shi, Liu Liu, Huibin Lin, R. Liu. Hodge And Podge: Hybrid Supervised Sound Event Detection With Multi-Hot Mixmatch And Composition Consistence Training. 2020 28th European Signal Processing Conference (EUSIPCO) (2021).
Ziyang Chen, Xixi Hu, Andrew Owens. Structure From Silence: Learning Scene Structure From Ambient Sound. ArXiv (2021).

2020 (103)

A. Correya, D. Bogdanov, Luis Joglar-Ongay, X. Serra. Essentia.Js: A Javascript Library For Music And Audio Analysis On The Web. ISMIR (2020).
Abdulaziz Saleh Ba Wazir, H. A. Karim, Mohd Haris Lye Abdullah, Sarina Mansor, Nouar AlDahoul, M. Fauzi, John See. Spectrogram-Based Classification Of Spoken Foul Language Using Deep Cnn. 2020 IEEE 22nd International Workshop on Multimedia Signal Processing (MMSP) (2020).
Alessandro Ragano, Emmanouil Benetos, A. Hines. Audio Impairment Recognition Using A Correlation-Based Feature Representation. 2020 Twelfth International Conference on Quality of Multimedia Experience (QoMEX) (2020).
Alessandro Ragano, Emmanouil Benetos, Andrew Hines. Audio Impairment Recognition Using A Correlation-Based Feature Representation. 2020 Twelfth International Conference on Quality of Multimedia Experience (QoMEX) (2020).
Ambika P. Mishra, N. S. Harper, Jan W. H. Schnupp. Exploring The Distribution Of Statistical Feature Parameters For Natural Sound Textures (2020).
Andreas Hüwel, K. Adiloglu, Jörg-Hendrik Bach. Hearing Aid Research Data Set For Acoustic Environment Recognition. ICASSP 2020 - 2020 IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP) (2020).
Andrey Guzhov, Federico Raue, J. Hees, Andreas Dengel. Esresnet: Environmental Sound Classification Based On Visual Domain Models. ArXiv (2020).
Ant'onio Ramires, F. Font, D. Bogdanov, Jordan B. L. Smith, Yi-Hsuan Yang, Joann Ching, B. Chen, Yueh-Kao Wu, Hsu Wei-Han, X. Serra. The Freesound Loop Dataset And Annotation Tool. ArXiv (2020).
Ant'onio Ramires, Gilberto Bernardes, M. Davies, X. Serra. Tiv.Lib: An Open-Source Library For The Tonal Description Of Musical Audio. ArXiv (2020).
Ant'onio Ramires, Pritish Chandna, Xavier Favory, E. Gómez, X. Serra. Neural Percussive Synthesis Parameterised By High-Level Timbral Features. ICASSP 2020 - 2020 IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP) (2020).
António Ramires, F. Font, D. Bogdanov, Jordan B. L. Smith, Yi-Hsuan Yang, Joann Ching, Bo-Yu Chen, Yueh-Kao Wu, Hsu Wei-Han, X. Serra. The Freesound Loop Dataset And Annotation Tool. ISMIR (2020).
Beat Gfeller, Dominik Roblek, M. Tagliasacchi. One-Shot Conditional Audio Filtering Of Arbitrary Sounds. (2020).
Beat Gfeller, Dominik Roblek, M. Tagliasacchi. One-Shot Conditional Audio Filtering Of Arbitrary Sounds. ICASSP 2021 - 2021 IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP) (2020).
Bowei Hou, Kacper Radzikowski, A. Farid. Fine-Tuning Using Grid Search & Gradient Visualization Technical Report (2020).
C. Asplund, Takashi Obana, P. Bhatnagar, Xun Quan Koh, Simon T. Perrault. It’S All In The Timing. ACM Trans. Comput. Hum. Interact. (2020).
Charles Bales, C. John, Hasan Farooq, Usama Masood, Muhammad Nabeel, A. Imran. Can Machine Learning Be Used To Recognize And Diagnose Coughs?. 2020 International Conference on e-Health and Bioengineering (EHB) (2020).
Charles Bales, Charles N. John, H. Farooq, Usama Masood, M. Nabeel, A. Imran. Can Machine Learning Be Used To Recognize And Diagnose Coughs?. 2020 International Conference on e-Health and Bioengineering (EHB) (2020).
Chung-il Kim, Yongjang Cho, Seung-Won Jung, Jehyeok Rew, Eenjun Hwang. Animal Sounds Classification Scheme Based On Multi-Feature Network With Mixed Datasets. KSII Transactions on Internet and Information Systems (2020).
D. Elliott, Evan Martino, C. Otero, Anthony O. Smith, A. Peter, Benjamin Luchterhand, Eric Lam, S. Leung. Cyber-Physical Analytics: Environmental Sound Classification At The Edge. 2020 IEEE 6th World Forum on Internet of Things (WF-IoT) (2020).
D. Liang, Wenting Song, E. Thomaz. Characterizing The Effect Of Audio Degradation On Privacy Perception And Inference Performance In Audio-Based Human Activity Recognition. MobileHCI (2020).
Daiki Takeuchi, Y. Koizumi, Y. Ohishi, N. Harada, Kunio Kashino. Effects Of Word-Frequency Based Pre- And Post- Processings For Audio Captioning. ArXiv (2020).
Danula Hettiachchi, Zhanna Sarsenbayeva, F. Allison, N. V. Berkel, Tilman Dingler, Gabriele Marini, V. Kostakos, J. Gonçalves. 'Hi! I Am The Crowd Tasker' Crowdsourcing Through Digital Voice Assistants. CHI (2020).
Dhruv Jain, Hung Q. Ngo, P. Patel, Steven Goodman, Leah Findlater, Jon Froehlich. Soundwatch: Exploring Smartwatch-Based Deep Learning Approaches To Support Sound Awareness For Deaf And Hard Of Hearing Users. ASSETS (2020).
Dhruv Jain, Kelly Mack, Akli Amrous, Matt Wright, S. Goodman, Leah Findlater, Jon Froehlich. Homesound: An Iterative Field Deployment Of An In-Home Sound Awareness System For Deaf Or Hard Of Hearing Users. CHI (2020).
E. Fonseca, Diego Ortego, K. McGuinness, N. O'Connor, X. Serra. Unsupervised Contrastive Learning Of Sound Event Representations. ArXiv (2020).
E. Fonseca, Shawn Hershey, M. Plakal, D. Ellis, A. Jansen, R. C. Moore. Addressing Missing Labels In Large-Scale Sound Event Recognition Using A Teacher-Student Framework With Loss Masking. IEEE Signal Processing Letters (2020).
E. Fonseca, Xavier Favory, J. Pons, F. Font, X. Serra. Fsd50K: An Open Dataset Of Human-Labeled Sound Events. ArXiv (2020).
Eduardo Fonseca, Shawn Hershey, M. Plakal, D. Ellis, A. Jansen, R. C. Moore. Addressing Missing Labels In Large-Scale Sound Event Recognition Using A Teacher-Student Framework With Loss Masking. IEEE Signal Processing Letters (2020).
Eduardo Fonseca, Xavier Favory, Jordi Pons, F. Font, X. Serra. Fsd50K: An Open Dataset Of Human-Labeled Sound Events. IEEE/ACM Transactions on Audio, Speech, and Language Processing (2020).
Etienne Richan, J. Rouat. A Proposal And Evaluation Of New Timbre Visualization Methods For Audio Sample Browsers. Personal and Ubiquitous Computing (2020).
Etienne Richan, Jean Rouat. A Proposal And Evaluation Of New Timbre Visualization Methods For Audio Sample Browsers. Personal and Ubiquitous Computing (2020).
F. Naccari, I. Guarneri, S. Curti, A. Savi. Embedded Acoustic Scene Classification For Low Power Microcontroller Devices. DCASE (2020).
Fei Jia, Somshubra Majumdar, B. Ginsburg. Marblenet: Deep 1D Time-Channel Separable Convolutional Neural Network For Voice Activity Detection. ArXiv (2020).
Fei Jia, Somshubra Majumdar, Boris Ginsburg. Marblenet: Deep 1D Time-Channel Separable Convolutional Neural Network For Voice Activity Detection. ICASSP 2021 - 2021 IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP) (2020).
Felicia Lim, W. Kleijn, M. Chinen, J. Skoglund. Robust Low Rate Speech Coding Based On Cloned Networks And Wavenet. ICASSP 2020 - 2020 IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP) (2020).
Francisco Bernardo. Interactive Machine Learning For User-Innovation Toolkits : An Action Design Research Approach (2020).
G. Lavrentyeva, M. Volkova, A. Avdeeva, S. Novoselov, Artem Gorlanov, Tseren Andzhukaev, A. Ivanov, A. Kozlov. Blind Speech Signal Quality Estimation For Speaker Verification Systems. INTERSPEECH (2020).
Gabriel Meseguer-Brocal, Alice Cohen-Hadria, Geoffroy Peeters. Creating Dali, A Large Dataset Of Synchronized Audio, Lyrics, And Notes. Trans. Int. Soc. Music. Inf. Retr. (2020).
H. Xie, T. Virtanen. Zero-Shot Audio Classification Via Semantic Embeddings. (2020).
Hitham Jleed, M. Bouchard. Open Set Audio Recognition For Multi-Class Classification With Rejection. IEEE Access (2020).
Honglie Chen, Weidi Xie, A. Vedaldi, Andrew Zisserman. Vggsound: A Large-Scale Audio-Visual Dataset. ICASSP 2020 - 2020 IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP) (2020).
Huang Xie, Tuomas Virtanen. Zero-Shot Audio Classification Via Semantic Embeddings. IEEE/ACM Transactions on Audio, Speech, and Language Processing (2020).
Hyeong-Seok Choi, Hye-Seong Heo, J. H. Lee, K. Lee. Phase-Aware Single-Stage Speech Denoising And Dereverberation With U-Net. ArXiv (2020).
Ivo Trowitzsch. Robust Sound Event Detection In Binaural Computational Auditory Scene Analysis (2020).
J. Balam, Jocelyn Huang, V. Lavrukhin, Slyne Deng, Somshubra Majumdar, B. Ginsburg. Improving Noise Robustness Of An End-To-End Neural Model For Automatic Speech Recognition (2020).
Jae-Bin Kim, Seongkyu Mun, Myungwoo Oh, Soyeon Choe, Yong-Hyeok Lee, Hyung-Min Park. Overcoming Label Noise In Audio Event Detection Using Sequential Labeling. ArXiv (2020).
Jiale Yang, Ying Zhang, Yang Hai. Retrieval And Management System For Layer Sound Effect Library (2020).
Jin Sean Lim. Ensemble Learning Of High Dimension Datasets (2020).
Jinta Zheng, Shih-Hsuan Hung, Kyle Hiebel, Y. Zhang. Real-Time Rendering Of Decorative Sound Textures For Soundscapes. ACM Trans. Graph. (2020).
Joann Ching, Ant'onio Ramires, Y. Yang. Instrument Role Classification: Auto-Tagging For Loop Based Music (2020).
Joseph P. Turian, M. Henry. I'M Sorry For Your Loss: Spectrally-Based Audio Distances Are Bad At Pitch. ArXiv (2020).
João Pedro Duarte Galileu. Urban Sound Event Classification For Audio-Based Surveillance Systems (2020).
K. He, Yu-Han Shen, W. Zhang, J. Liu. Staged Training Strategy And Multi-Activation For Audio Tagging With Noisy And Sparse Multi-Label Data. ICASSP 2020 - 2020 IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP) (2020).
K. Miyazaki, Tatsuya Komatsu, T. Hayashi, Shinji Watanabe, T. Toda, K. Takeda. Weakly-Supervised Sound Event Detection With Self-Attention. ICASSP 2020 - 2020 IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP) (2020).
K. Prinz, A. Flexer. End-To-End Adversarial White Box Attacks On Music Instrument Classification. ArXiv (2020).
K. Prinz, A. Flexer, G. Widmer. The Impact Of Label Noise On A Music Tagger. ArXiv (2020).
Kohki Mametani, Xavier Favory, Co-Supervisor Frederic Font. Learning Sound Representations Using Triplet-Loss (2020).
Konstantinos Drossos, Samuel Lipping, T. Virtanen. Clotho: An Audio Captioning Dataset. ICASSP 2020 - 2020 IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP) (2020).
L. Delphin-Poulat, R. Nicol, Cyril Plapous, Katell Peron. Comparative Assessment Of Data Augmentation For Semi-Supervised Polyphonic Sound Event Detection. 2020 27th Conference of Open Innovations Association (FRUCT) (2020).
L. Gao, Kele Xu, H. Wang, Yu-xing Peng. Multi-Representation Knowledge Distillation For Audio Classification. ArXiv (2020).
L. Turchet. Cloud-Smart Musical Instrument Interactions: Querying A Large Music Collection With A Smart Guitar (2020).
L. Turchet, G. Fazekas, M. Lagrange, H. S. Ghadikolaei, C. Fischione. The Internet Of Audio Things: State Of The Art, Vision, And Challenges. IEEE Internet of Things Journal (2020).
L. Turchet, Jhonny Hueller. Promoting Awareness On Sustainable Behavior Through An Ar-Based Art Gallery. AVR (2020).
L. Wijayasingha, J. Stankovic. Robustness To Noise For Speech Emotion Classification Using Cnns And Attention Mechanisms (2020).
L. Zhang, Ziqiang Shi, Jiqing Han. Pyramidal Temporal Pooling With Discriminative Mapping For Audio Classification. IEEE/ACM Transactions on Audio, Speech, and Language Processing (2020).
Lu Cao, Yu-long Chen, Dandan Huang, Y. Zhang. Investigating Rich Feature Sources For Conceptual Representation Encoding. COGALEX (2020).
Luca Turchet, Alex Zanetti. Voice-Based Interface For Accessible Soundscape Composition: Composing Soundscapes By Vocally Querying Online Sounds Repositories. Audio Mostly Conference (2020).
Luca Turchet, J. Pauwels, C. Fischione, György Fazekas. Cloud-Smart Musical Instrument Interactions. ACM Trans. Internet Things (2020).
M. Tagliasacchi, Y. Li, Karolis Misiunas, Dominik Roblek. Seanet: A Multi-Modal Speech Enhancement Network. INTERSPEECH (2020).
M. Tagliasacchi, Yunpeng Li, Karolis Misiunas, Dominik Roblek. Seanet: A Multi-Modal Speech Enhancement Network. INTERSPEECH (2020).
Michael Wand, Jiirgen Schmidhuber. Fusion Architectures For Word-Based Audiovisual Speech Recognition. INTERSPEECH (2020).
Michela Cantarini, L. Serafini, L. Gabrielli, E. Principi, S. Squartini. Emergency Siren Recognition In Urban Scenarios: Synthetic Dataset And Deep Learning Models. ICIC (2020).
Nicolas Furnon, Romain Serizel, I. Illina, S. Essid. Dnn-Based Mask Estimation For Distributed Speech Enhancement In Spatially Unconstrained Microphone Arrays (2020).
Nicolas Turpault, R. Serizel, E. Vincent. Limitations Of Weak Labels For Embedding And Tagging. ICASSP 2020 - 2020 IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP) (2020).
Nicolas Turpault, Romain Serizel. Training Sound Event Detection On A Heterogeneous Dataset. ArXiv (2020).
Nicolas Turpault, Romain Serizel, E. Vincent. Limitations Of Weak Labels For Embedding And Tagging. ICASSP 2020 - 2020 IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP) (2020).
Nicolas Turpault, Romain Serizel, Scott T. Wisdom, H. Erdogan, J. Hershey, E. Fonseca, P. Seetharaman, Justin Salamon. Sound Event Detection And Separation: A Benchmark On Desed Synthetic Soundscapes. ArXiv (2020).
Nicolas Turpault, S. Wisdom, H. Erdogan, J. Hershey, Romain Serizel, E. Fonseca, P. Seetharaman, Justin Salamon. Improving Sound Event Detection In Domestic Environments Using Sound Separation. ArXiv (2020).
R. Guo, Y. Yang, Johnson Kuang, X. Bin, Dhruv Jain, Steven Goodman, Leah Findlater, Jon Froehlich. Holosound: Combining Speech And Sound Identification For Deaf Or Hard Of Hearing Users On A Head-Mounted Display. ASSETS (2020).
Romain Serizel, Nicolas Turpault, Ankit Shah, Justin Salamon. Sound Event Detection In Synthetic Domestic Environments. ICASSP 2020 - 2020 IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP) (2020).
S. Barbosa, P. Chen, Alfredo Cuzzocrea, Xiaoyong Du, Orhun Kara, Ting Liu, K. Sivalingam, D. Slezak, T. Washio, Xiaokang Yang, J. Yuan, R. Prates, S. Bernardi, V. Vittorini, Francesco Flammini, R. Nardone, S. Marrone, R. Adler, Daniel Schneider, P. Schleiss, Nicola Nostro, R. Olsen, Amleto Di Salle, P. Masci. Dependable Computing - Edcc 2020 Workshops: Ai4Rails, Dreams, Dsogri, Serene 2020, Munich, Germany, September 7, 2020, Proceedings. EDCC Workshops (2020).
S. Deshmukh, B. Raj, R. Singh. Multi-Task Learning For Interpretable Weakly Labelled Sound Event Detection. ArXiv (2020).
S. Veena, M. Nerisai, J. Remya, S. SaiTejah.. Challenges And Issues Of Sound Archives For Environmental Sound Classification (2020).
S. Wisdom, Efthymios Tzinis, H. Erdogan, Ron J. Weiss, K. Wilson, J. Hershey. Unsupervised Sound Separation Using Mixture Invariant Training. NeurIPS (2020).
S. Wisdom, Efthymios Tzinis, H. Erdogan, Ron J. Weiss, K. Wilson, J. Hershey. Unsupervised Sound Separation Using Mixtures Of Mixtures. ArXiv (2020).
S. Wisdom, Efthymios Tzinis, Hakan Erdogan, Ron J. Weiss, K. Wilson, J. Hershey. Unsupervised Sound Separation Using Mixture Invariant Training. NeurIPS (2020).
S. Yoon, Min-Sung Koh, Ha-Jin Yu. Fuzzy Restricted Boltzmann Machine Based Probabilistic Linear Discriminant Analysis For Noise-Robust Text-Dependent Speaker Verification On Short Utterances (2020).
Sangwook Park, Ashwin Bellur, Sandeep Reddy Kothinti, Masoumeh Heidari Kapourchali, M. Elhilali. Joint Acoustic And Supervised Inference For Sound Event Detection Technical Report (2020).
Scott T. Wisdom, H. Erdogan, D. Ellis, Romain Serizel, Nicolas Turpault, E. Fonseca, Justin Salamon, P. Seetharaman, J. Hershey. What'S All The Fuss About Free Universal Sound Separation Data?. ArXiv (2020).
Somshubra Majumdar, B. Ginsburg. Matchboxnet: 1D Time-Channel Separable Convolutional Neural Network Architecture For Speech Commands Recognition. INTERSPEECH (2020).
Somshubra Majumdar, Boris Ginsburg. Matchboxnet: 1D Time-Channel Separable Convolutional Neural Network Architecture For Speech Commands Recognition. INTERSPEECH (2020).
T. Iqbal, Yin Cao, Qiuqiang Kong, Mark D. Plumbley, Wenwu Wang. Learning With Out-Of-Distribution Data For Audio Classification. ICASSP 2020 - 2020 IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP) (2020).
Theodoros Psallidas, Alexander Mitsou, George Pikramenos, E. Spyrou, Theodore Giannakopoulos. Archeo: A Dataset For Sound Event Detection In Areas Of Touristic Interest. 2020 15th International Workshop on Semantic and Social Media Adaptation and Personalization (SMA (2020).
Tom Denton, Alejandro Luebs, Felicia S. C. Lim, Andrew Storus, Hengchin Yeh, W. Kleijn, J. Skoglund. Handling Background Noise In Neural Speech Generation. 2020 54th Asilomar Conference on Signals, Systems, and Computers (2020).
Tom Mudd, - KatieWilkie, Mckenna, A. Mcpherson, M. Wanderley. Embodied Musical Interaction Body Physiology, Cross Modality, And Sonic Experience (2020).
Tony Marteau, Sitou Afanou, D. Sodoyer, Sébastien Ambellouis, F. Elbahhar. Audio Events Detection In Noisy Embedded Railway Environments. EDCC Workshops (2020).
Xavier Favory, F. Font, X. Serra. Search Result Clustering In Collaborative Sound Collections. ICMR (2020).
Xavier Favory, Konstantinos Drossos, T. Virtanen, X. Serra. Learning Contextual Tag Embeddings For Cross-Modal Alignment Of Audio And Tags. ArXiv (2020).
Xavier Favory, Konstantinos Drossos, T. Virtanen, X. Serra. Coala: Co-Aligned Autoencoders For Learning Semantically Enriched Audio Representations. ArXiv (2020).
Y. Koizumi, Ryo Masumura, Kyosuke Nishida, M. Yasuda, S. Saito. A Transformer-Based Audio Captioning Model With Keyword Estimation. INTERSPEECH (2020).
You-Siang Chen, Zi Jie Lin, Shang-En Li, Chih-Yuan Koh, M. R. Bai, Jen-Tzung Chien, Yi-Wen Liu. Combined Sound Event Detection And Sound Event Separation Networks For Dcase 2020 Task 4 Technical Report (2020).
Yui Sudo, Katsutoshi Itoyama, Kenji Nishida, K. Nakadai. Multichannel Environmental Sound Segmentation. Applied Intelligence (2020).
Yuma Koizumi, Ryo Masumura, Kyosuke Nishida, Masahiro Yasuda, S. Saito. A Transformer-Based Audio Captioning Model With Keyword Estimation. INTERSPEECH (2020).

2019 (76)

. Development Of Algorithms For Gunshot Detection (2019).
A. Kumar, Ankit Shah, A. Hauptmann, B. Raj. Learning Sound Events From Webly Labeled Data. IJCAI (2019).
A. Salekin, Shabnam Ghaffarzadegan, Zhe Feng, J. Stankovic. A Real-Time Audio Monitoring Framework With Limited Data For Constrained Devices. 2019 15th International Conference on Distributed Computing in Sensor Systems (DCOSS) (2019).
A. Tanaka. Embodied Musical Interaction - Body Physiology, Cross Modality, And Sonic Experience. New Directions in Music and Human-Computer Interaction (2019).
Ant'onio Ramires, X. Serra. Data Augmentation For Instrument Classification Robust To Audio Effects. ArXiv (2019).
António Ramires, Pritish Chandna, Xavier Favory, Emilia G'omez, X. Serra. Neural Percussive Synthesis Parameterised By High-Level Timbral Features. ICASSP 2020 - 2020 IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP) (2019).
Ariane Stolfi, A. Milo, M. Barthet. Playsound.Space: Improvising In The Browser With Semantic Sound Objects (2019).
B. Elizalde, Shuayb Zarar, B. Raj. Cross Modal Audio Search And Retrieval With Joint Embeddings Based On Text And Audio. ICASSP 2019 - 2019 IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP) (2019).
B. H. D. Koh, W. L. Woo. Multi-View Temporal Ensemble For Classification Of Non-Stationary Signals. IEEE Access (2019).
B. McFee, J. Kim, M. Cartwright, Justin Salamon, Rachel M. Bittner, J. Bello. Open-Source Practices For Music Signal Processing Research: Recommendations For Transparent, Sustainable, And Reproducible Audio Research. IEEE Signal Processing Magazine (2019).
B. Silva, Axel W. Happi, An Braeken, A. Touhafi. Evaluation Of Classical Machine Learning Techniques Towards Urban Sound Recognitionon Embedded Systems. Applied Sciences (2019).
B. Zhu, Kele Xu, D. Wang, Mathurin Aché. Detection And Classification Of Acoustic Scenes And Events 2019 Challenge Multi-Label Audio Tagging With Noisy Labels And Variable Length Technical Report (2019).
Boyang Zhang Jared Leitner, Samuel Thornton. Audio Recognition Using Mel Spectrograms And Convolution Neural Networks (2019).
C. Kim, Byeongchang Kim, Hyunmin Lee, Gunhee Kim. Audiocaps: Generating Captions For Audios In The Wild. NAACL (2019).
Ceren Can. Automatic Discrimination Of Domestic Cat Sounds And Imitations (2019).
Chenliang Xu. Preprint-Work In Progress (2019).
D. Liang, E. Thomaz. Audio-Based Activities Of Daily Living (Adl) Recognition With Large-Scale Acoustic Embeddings From Online Videos. Proc. ACM Interact. Mob. Wearable Ubiquitous Technol. (2019).
Dimitra Emmanouilidou, H. Gamper. The Effect Of Room Acoustics On Audio Event Classification (2019).
E. Fonseca, F. Font, Xavier Serra. Model-Agnostic Approaches To Handling Noisy Labels When Training Sound Event Classifiers. 2019 IEEE Workshop on Applications of Signal Processing to Audio and Acoustics (WASPAA) (2019).
E. Fonseca, M. Plakal, D. Ellis, F. Font, Xavier Favory, X. Serra. Learning Sound Event Classifiers From Web Audio With Noisy Labels. ICASSP 2019 - 2019 IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP) (2019).
E. Fonseca, M. Plakal, F. Font, D. Ellis, X. Serra. Audio Tagging With Noisy Labels And Minimal Supervision. ArXiv (2019).
Eero-Pekka Damskägg, Lauri Juvela, Etienne Thuillier, V. Välimäki. Deep Learning For Tube Amplifier Emulation. ICASSP 2019 - 2019 IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP) (2019).
Etienne Richan, J. Rouat. A Study Comparing Shape, Colour And Texture As Visual Labels In Audio Sample Browsers. Audio Mostly Conference (2019).
Evren Kanalici, Gokhan Bilgin. Scattering Wavelet Hash Fingerprints For Musical Audio Recognition (2019).
F. J. M. Ortega, Sergio I. Giraldo, A. Pérez, R. Ramírez. Phrase-Level Modeling Of Expression In Violin Performances. Front. Psychol. (2019).
H. Koh, W. L. Woo. Multi-View Temporal Ensemble For Classification Of Non-Stationary Signals (2019).
H. Xie, T. Virtanen. Zero-Shot Audio Classification Based On Class Label Embeddings. 2019 IEEE Workshop on Applications of Signal Processing to Audio and Acoustics (WASPAA) (2019).
Haikun Huang, M. Solah, Dingzeyu Li, Lap-Fai Yu. Audible Panorama: Automatic Spatial Audio Generation For Panorama Imagery. CHI (2019).
Harishchandra Dubey, Dimitra Emmanouilidou, I. Tashev. Cure Dataset: Ladder Networks For Audio Event Classification. 2019 IEEE Pacific Rim Conference on Communications, Computers and Signal Processing (PACRIM) (2019).
Harsh Purohit, R. Tanabe, K. Ichige, T. Endo, Y. Nikaido, Kaori Suefusa, Y. Kawaguchi. Mimii Dataset: Sound Dataset For Malfunctioning Industrial Machine Investigation And Inspection. ArXiv (2019).
Ivo Trowitzsch, Jalil Taghia, Youssef Kashef, K. Obermayer. The Nigens General Sound Events Database. ArXiv (2019).
J. He, Penghao Rao, B. Sun, Lejun Yu. Audio Tagging With Minimal Supervision Based On Mean Teacher For Dcase 2019 Challenge Task 2 Technical Report (2019).
J. Pons, J. Serrà, X. Serra. Training Neural Audio Classifiers With Few Data. ICASSP 2019 - 2019 IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP) (2019).
J. Ramírez, M. Flores. Machine Learning For Music Genre: Multifaceted Review And Experimentation With Audioset. Journal of Intelligent Information Systems (2019).
Jonas Margraf. Master'S Thesis: Self-Organizing Maps For Sound Corpus Organization (2019).
K. Ahmad, N. Conci. How Deep Features Have Improved Event Recognition In Multimedia. ACM Trans. Multim. Comput. Commun. Appl. (2019).
K. He, Yu-Han Shen, W. Zhang. Multiple Neural Networks With Ensemble Method For Audio Tagging With Noisy Labels And Minimal Supervision (2019).
K. Prinz, A. Flexer. Weak Multi-Label Audio-Tagging With Class Noise (2019).
K. Salo. Modular Audio Platform For Youth Engagement In A Museum Context (2019).
Kele Xu, B. Zhu, Qiuqiang Kong, Haibo Mi, B. Ding, D. Wang, H. Wang. General Audio Tagging With Ensembling Convolutional Neural Network And Statistical Features. The Journal of the Acoustical Society of America (2019).
Kexin He, Yuhan Shen, W. Zhang. Thuee System For Dcase 2019 Challenge Task 2 Technical Report (2019).
L. D. Paolis, P. Bourdot. Augmented Reality, Virtual Reality, And Computer Graphics: 6Th International Conference, Avr 2019, Santa Maria Al Bagno, Italy, June 24–27, 2019, Proceedings, Part Ii. AVR (2019).
L. Gao, Haibo Mi, B. Zhu, Da-wei Feng, Yicong Li, Y. Peng. An Adversarial Feature Distillation Method For Audio Classification. IEEE Access (2019).
L. Gao, Qirong Mao, M. Dong, Y. Jing, R. Chinnam. On Learning Disentangled Representation For Acoustic Event Detection. ACM Multimedia (2019).
L. Lin, X. Wang, Hong Liu, Yueliang Qian. Guided Learning Convolution System For Dcase 2019 Task 4. ArXiv (2019).
Lluis Suros. Clustering Of Multiple-Event Online Sound Collections With The Codebook Approach (2019).
Luca Turchet, M. Barthet. An Ubiquitous Smart Guitar System For Collaborative Musical Practice (2019).
Léo Cances, T. Pellegrini, Patrice Guyot. Multi-Task Learning And Post Processing Optimization For Sound Event Detection Technical Report (2019).
M. Cartwright, Ana Elisa Méndez Méndez, J. Cramer, Vincent Lostanlen, G. Dove, Ho-Hsiang Wu, Justin Salamon, Oded Nov, J. Bello. Sonyc Urban Sound Tagging (Sonyc-Ust): A Multilabel Dataset From An Urban Acoustic Sensor Network (2019).
Masayuki Karasuyama, Masashi Sugiyama. Title Canonical Dependency Analysis Based On Squared-Loss Mutualinformation (2019).
Md. Rahat-uz-Zaman, Shadmaan Hye, M. Hasan. Audio Future Block Prediction With Conditional Generative Adversarial Network. 2019 3rd International Conference on Electrical, Computer & Telecommunication Engineering (ICECTE) (2019).
Miles Thorogood. Soundscape Generation Systems (2019).
Miles Thorogood, Jianyu Fan, P. Pasquier. A Framework For Computer-Assisted Sound Design Systems Supported By Modelling Affective And Perceptual Properties Of Soundscape (2019).
Nicolas Turpault, R. Serizel, Ankit Shah, Justin Salamon. Sound Event Detection In Domestic Environments With Weakly Labeled Data And Soundscape Synthesis (2019).
Nicolas Turpault, R. Serizel, E. Vincent. Semi-Supervised Triplet Loss Based Learning Of Ambient Audio Embeddings. ICASSP 2019 - 2019 IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP) (2019).
Nicolas Turpault, R. Serizel, E. Vincent. Semi-Supervised Triplet Loss Based Learning Of Ambient Audio Embeddings. ICASSP 2019 - 2019 IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP) (2019).
O. Akiyama, J. Sato. Dcase 2019 Task 2: Multitask Learning, Semi-Supervised Learning And Model Ensemble With Noisy Data For Audio Tagging (2019).
Qiuqiang Kong, Yin Cao, T. Iqbal, Y. Xu, W. Wang, Mark D. Plumbley. Cross-Task Learning For Audio Tagging, Sound Event Detection And Spatial Localization: Dcase 2019 Baseline Systems. ArXiv (2019).
S. A. Shahriyar, M. Akhand, N. Siddique, T. Shimamura. Speech Enhancement Using Convolutional Denoising Autoencoder. 2019 International Conference on Electrical, Computer and Communication Engineering (ECCE) (2019).
S. Astapov, G. Svirskiy, A. Lavrentyev, Tatyana Prisyach, D. Popov, Dmitriy Ubskiy, Vladimir Kabarov. Acoustic Event Mixing To Multichannel Ami Data For Distant Speech Recognition And Acoustic Event Classification Benchmarking. SPECOM (2019).
S. Singh, A. Pankajakshan, Emmanouil Benetos, Events. Audio Tagging Using A Linear Noise Modelling Layer (2019).
Shota Ikawa, Kunio Kashino. Neural Audio Captioning Based On Conditional Sequence-To-Sequence Model (2019).
Slawomir Kapka, M. Lewandowski. Sound Source Detection, Localization And Classification Using Consecutive Ensemble Of Crnn Models. DCASE (2019).
Szu-Yu Chou, Kai-Hsiang Cheng, J. Jang, Y. Yang. Learning To Match Transient Sound Events Using Attentional Similarity For Few-Shot Sound Recognition. ICASSP 2019 - 2019 IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP) (2019).
Tobias Goehring, M. Keshavarzi, R. Carlyon, B. Moore. Using Recurrent Neural Networks To Improve The Perception Of Speech In Non-Stationary Noise By People With Cochlear Implants.. The Journal of the Acoustical Society of America (2019).
W. Wang, F. Seraj, N. Meratnia, P. Havinga. Privacy-Aware Environmental Sound Classification For Indoor Human Activity Recognition. PETRA (2019).
Wootaek Lim. Specaugment For Sound Event Detection In Domestic Environments Using Ensemble Of Convolutional Recurrent Neural Networks (2019).
Wootaek Lim, S. Suh, Sooyoung Park, Youngho Jeong. Sound Event Detection In Domestic Environments Using Ensemble Of Convolutional Recurrent Neural Networks Technical Report (2019).
Xavier Favory, X. Serra. Multi Web Audio Sequencer: Collaborative Music Making. ArXiv (2019).
Yapeng Tian, Chenliang Xu, Dingzeyu Li. Deep Audio Prior. ArXiv (2019).
Yapeng Tian, Chenliang Xu, Dingzeyu Li. Deep Audio Prior. ArXiv (2019).
Yapeng Tian, Chenliang Xu, Dingzeyu Li. Deep Audio Prior. ArXiv (2019).
Yuma Koizumi, S. Saito, H. Uematsu, N. Harada, Keisuke Imoto. Toyadmos: A Dataset Of Miniature-Machine Operating Sounds For Anomalous Sound Detection. 2019 IEEE Workshop on Applications of Signal Processing to Audio and Acoustics (WASPAA) (2019).
Z. Podwinska, B. Fazenda, W. Davies. Testing Spatial Aspects Of Auditory Salience (2019).
Ziqiang Shi. Hodgepodge: Sound Event Detection Based On Ensemble Of Semi-Supervised Learning Methods Technical Report (2019).
Ziqiang Shi, L. Liu, Huibin Lin, R. Liu, Anyan Shi. Hodgepodge: Sound Event Detection Based On Ensemble Of Semi-Supervised Learning Methods. ArXiv (2019).

2018 (38)

Andreu Boadas Rabassedas. Study Of The Signal Properties Of Music Genres (2018).
Aniel Rossi. Event Recognition Of Domestic Sounds Using Semi-Supervised Learning (2018).
Anna Xambó, G. Roma, Alexander Lerch, M. Barthet, György Fazekas. Live Repurposing Of Sounds: Mir Explorations With Personal And Crowdsourced Databases. NIME (2018).
Ariane de Souza Stolfi, Miguel Ceriani, Luca Turchet, M. Barthet. Playsound.Space: Inclusive Free Music Improvisations Using Audio Commons. NIME (2018).
Chris Baume. Semantic Audio Tools For Radio Production (2018).
E. Fonseca, M. Plakal, F. Font, D. Ellis, Xavier Favory, J. Pons, X. Serra. General-Purpose Tagging Of Freesound Audio With Audioset Labels: Task Description, Dataset, And Baseline. ArXiv (2018).
F. Viola, A. Stolfi, A. Milo, Miguel Ceriani, M. Barthet, György Fazekas. Playsound.Space: Enhancing A Live Music Performance Tool With Semantic Recommendations. SAAM@ISWC (2018).
F. Viola, Ariane Stolfi, A. Milo, Miguel Ceriani, M. Barthet, György Fazekas. Playsound.Space: Enhancing A Live Performance Tool With Semantic Recommendations (2018).
G. Roma, Owen Green, Anna Xambó, P. Tremblay. A Javascript Library For Flexible Visualization Of Audio Descriptors (2018).
Gabriel Meseguer-Brocal, Alice Cohen-Hadria, Geoffroy Peeters. Dali: A Large Dataset Of Synchronized Audio, Lyrics And Notes, Automatically Created Using Teacher-Student Machine Learning Paradigm. ISMIR (2018).
Gerard Llorach, G. Grimm, Maartje M. E. Hendrikse, V. Hohmann. Towards Realistic Immersive Audiovisual Simulations For Hearing Research: Capture, Virtual Scenes And Reproduction. AVSU@MM (2018).
Gierad Laput, K. Ahuja, Mayank Goel, C. Harrison. Ubicoustics: Plug-And-Play Acoustic Activity Recognition. UIST (2018).
Gierad Laput, Karan Ahuja, Mayank Goel, Chris Harrison. Ubicoustics. Proceedings of the 31st Annual ACM Symposium on User Interface Software and Technology (2018).
Henry Kvinge, Elin Farnell, M. Kirby, C. Peterson. Monitoring The Shape Of Weather, Soundscapes, And Dynamical Systems: A New Statistic For Dimension-Driven Data Analysis On Large Datasets. 2018 IEEE International Conference on Big Data (Big Data) (2018).
J. Palomaki, Olivia Rhinehart, Michael Tseng. A Case For A Range Of Acceptable Annotations. SAD/CrowdBias@HCOMP (2018).
Kele Xu, B. Zhu, D. Wang, Yu-xing Peng, H. Wang, Lilun Zhang, B. Li. Meta Learning Based Audio Tagging (2018).
Kevin Wilkinghoff. General-Purpose Audio Tagging By Ensembling Convolutional Neural Networks Based On Multiple Features (2018).
L. Turchet, M. Barthet. Jamming With A Smart Mandolin And Freesound-Based Accompaniment. 2018 23rd Conference of Open Innovations Association (FRUCT) (2018).
Linus Lexfors, Malte Johansson. Audio Representation For Environmental Sound Classification Using Convolutional Neural Networks (2018).
M. Dorfer, G. Widmer. Training General-Purpose Audio Tagging Networks With Noisy Labels And Iterative Self-Verification (2018).
M. Mancas, Christian Frisson, E. al., Noé Tits. Proceedings Of Enterface 2015 Workshop On Intelligent Interfaces. ArXiv (2018).
M. Plumbley, Christian Kroos, J. Bello, G. Richard, D. Ellis, A. Mesaros. Proceedings Of The Detection And Classification Of Acoustic Scenes And Events 2018 Workshop (Dcase2018) (2018).
MeMAD Deliverable. Memad Deliverable D 2 . 1 Libraries And Tools For Multimodal Content Analysis (2018).
Michael Wand, Ngoc Thang Vu, J. Schmidhuber. Investigations On End- To-End Audiovisual Fusion. 2018 IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP) (2018).
Naoya Takahashi, Michael Gygli, L. V. Van Gool. Aenet: Learning Deep Audio Features For Video Analysis. IEEE Transactions on Multimedia (2018).
Philip Tovstogan. Exploring Music Similarity With Acousticbrainz (2018).
Shota Ikawa, Kunio Kashino. Acoustic Event Search With An Onomatopoeic Query: Measuring Distance Between Onomatopoeic Words And Sounds (2018).
Sophie Skach, Anna Xambó, L. Turchet, A. Stolfi, R. Stewart, M. Barthet. Embodied Interactions With E-Textiles And The Internet Of Sounds For Performing Arts. Tangible and Embedded Interaction (2018).
T. Iqbal, Qiuqiang Kong, Mark D. Plumbley, W. Wang. General-Purpose Audio Tagging From Noisy Labels Using Convolutional Neural Networks (2018).
T. Malon, G. Roman-Jimenez, Patrice Guyot, S. Chambon, V. Charvillat, A. Crouzil, A. Péninou, J. Pinquier, F. Sèdes, C. Sénac. Toulouse Campus Surveillance Dataset: Scenarios, Soundtracks, Synchronized Videos With Overlapping And Disjoint Views. MMSys (2018).
Thi Ngoc Tho Nguyen, Ngoc Khanh Nguyen, Douglas L. Jones, W. Gan. Dcase 2018 Task 2: Iterative Training, Label Smoothing, And Background Noise Normalization For Audio Event Tagging. DCASE (2018).
Tian-Xiang Chen, Udit Gupta. Attention-Based Convolutional Neural Network For Audio Event Classification With Feature Transfer Learning (2018).
Turab Iqbal, Qiuqiang Kong, D. Plumbley, Mark D. Plumbley. Stacked Convolutional Neural Networks For General-Purpose Audio Tagging Technical Report (2018).
V. Subramanian, Alexander Lerch. Concert Stitch: Organization And Synchronization Of Crowd Sourced Recordings. ISMIR (2018).
Venkatesh S. Kadandale. Musical Instrument Recognition In Multi-Instrument Audio Contexts (2018).
Xavier Favory, E. Fonseca, F. Font, X. Serra. Facilitating The Manual Annotation Of Sounds When Using Large Taxonomies. ArXiv (2018).
Zhicun Xu. Audio Event Classification Using Deep Learning Methods (2018).
Zhicun Xu, P. Smit, M. Kurimo. The Aalto System Based On Fine-Tuned Audioset Features For Dcase2018 Task2 - General Purpose Audio Tagging (2018).

2017 (17)

A. C. D. C. Junior. Mobile Technologies For Music Interaction (2017).
A. Correya. Retrieving Ambiguous Sounds Using Perceptual Timbral Attributes In Audio Production Environments (2017).
A. Stolfi, M. Barthet, Fábio Goródscy, A. C. D. C. Junior. Open Band: A Platform For Collective Sound Dialogues. Audio Mostly Conference (2017).
Akito van Troyer. Score Instruments : A New Paradigm Of Musical Instruments To Guide Musical Wonderers (2017).
Aleksandr Diment, T. Virtanen. Transfer Learning Of Weakly Labelled Audio. 2017 IEEE Workshop on Applications of Signal Processing to Audio and Acoustics (WASPAA) (2017).
Ashwin K. Vijayakumar, Ramakrishna Vedantam, D. Parikh. Sound-Word2Vec: Learning Word Representations Grounded In Sounds. EMNLP (2017).
D. Hernández-Leo, Kostantinos Michos, B. Cabrero, Daniel, A. Martínez-Rodríguez, M. Muñoz, Carla Ten Ventura, K. Sharma, Manaswi Mishra, S. Bhardwaj, Adrian A Perez, Giorgos Neokleous, Pantelis Stylianides, Vibhor Bajpai, N. Delgado, Tessy Troes, Meghana Sudhindra, H. Cuesta. Phd Selection: Factors To Take Into Account (2017).
Douwe Kiela. Deep Embodiment: Grounding Semantics In Perceptual Modalities (2017).
Douwe Kiela, Stephen Clark. Learning Neural Audio Embeddings For Grounding Semantics In Auditory Perception. J. Artif. Intell. Res. (2017).
E. Cherny. A Method For Automatic Whoosh Sound Description (2017).
E. Fonseca, J. Pons, Xavier Favory, F. Font, D. Bogdanov, Andrés Ferraro, S. Oramas, A. Porter, X. Serra. Freesound Datasets: A Platform For The Creation Of Open Audio Datasets. ISMIR (2017).
Emiel van Miltenburg. Pragmatic Descriptions Of Perceptual Stimuli. EACL (2017).
Georgios Paraskevopoulos, Giannis Karamanolakis, E. Iosif, A. Pikrakis, A. Potamianos. Sensory-Aware Multimodal Fusion For Word Semantic Similarity Estimation (2017).
Hernán Ordiales, Matías Lennie Bruno. Sound Recycling From Public Databases: Another Bigdata Approach To Sound Collections. Audio Mostly Conference (2017).
M. Briani, A. Cuyt, W. Lee. Validated Exponential Analysis For Harmonic Sounds (2017).
S. R. Park, J. Lee. A Fully Convolutional Neural Network For Speech Enhancement. INTERSPEECH (2017).
Vincent Lostanlen. Convolutional Operators In The Time-Frequency Domain (2017).

2016 (21)

Chris Donahue. Extensions To Convolution For Generalized Cross-Synthesis (2016).
Chris Donahue, T. Erbe, M. Puckette. Extended Convolution Techniques For Cross-Synthesis. ICMC (2016).
Douwe Kiela. Mmfeat: A Toolkit For Extracting Multi-Modal Features. ACL (2016).
Elliot Creager. Musical Source Separation By Coherent Frequency Modulation Cues (2016).
Emiel van Miltenburg, Benjamin Timmermans, Lora Aroyo. The Vu Sound Corpus: Adding More Fine-Grained Annotations To The Freesound Database. LREC (2016).
Etto L. Salomons, P. Havinga, H. V. Leeuwen. Inferring Human Activity Recognition With Ambient Sound On Wireless Sensor Nodes. Sensors (2016).
F. Font, T. Brookes, G. Fazekas, M. Guerber, Amaury La Burthe, David Plans, Mark D. Plumbley, Meir Shaashua, W. Wang, X. Serra. Audio Commons: Bringing Creative Commons Audio Content To The Creative Industries (2016).
F. Font, X. Serra. Tempo Estimation For Music Loops And A Simple Confidence Measure. ISMIR (2016).
Giannis Karamanolakis, E. Iosif, A. Zlatintsi, A. Pikrakis, A. Potamianos. Audio-Based Distributional Representations Of Meaning Using A Fusion Of Feature Encodings. INTERSPEECH (2016).
Giuseppe Bandiera, O. Picas, Hiroshi Tokuda, Wataru Hariya, K. Oishi, X. Serra. Good-Sounds.Org: A Framework To Explore Goodness In Instrumental Sounds. ISMIR (2016).
H. Meutzner, D. Kolossa. A Non-Speech Audio Captcha Based On Acoustic Event Detection And Classification. 2016 24th European Signal Processing Conference (EUSIPCO) (2016).
J. R. Delgado-Contreras, J. García-Vázquez, R. Brena. Optimizing The Length Of An Environmental Audio Fingerprint For Place Classification. 2016 International Conference on Electronics, Communications and Computers (CONIELECOMP) (2016).
J. Serrà, Josep Lluís Arcos. Particle Swarm Optimization For Time Series Motif Discovery. Knowl. Based Syst. (2016).
Long-Van Nguyen-Dinh. Wearable Activity Recognition With Crowdsourced Annotation (2016).
M. F. Assaneo, J. Sitt, G. Varoquaux, M. Sigman, L. Cohen, M. Trevisan. Exploring The Anatomical Encoding Of Voice With A Mathematical Model Of The Vocal System. NeuroImage (2016).
M. F. Assaneo, M. F. Assaneo, J. Sitt, G. Varoquaux, G. Varoquaux, Mariano Sigman, Mariano Sigman, L. Cohen, Marcos A. Trevisan. Exploring The Anatomical Encoding Of Voice With A Mathematical Model Of The Vocal System. NeuroImage (2016).
Mark D. Plumbley, C. Kroos, J. Bello, G. Richard, D. Ellis, A. Mesaros. Proceedings Of The Detection And Classification Of Acoustic Scenes And Events 2018 Workshop (Dcase2018) (2016).
Naoya Takahashi, Michael Gygli, B. Pfister, L. Gool. Deep Convolutional Neural Networks And Data Augmentation For Acoustic Event Recognition. INTERSPEECH (2016).
Naoya Takahashi, Michael Gygli, B. Pfister, L. Gool. Deep Convolutional Neural Networks And Data Augmentation For Acoustic Event Detection (2016).
S. Parekh, F. Font, X. Serra. Improving Audio Retrieval Through Loudness Profile Categorization. 2016 IEEE International Symposium on Multimedia (ISM) (2016).
V. Goudarzi, A. Gioti. Engagement And Interaction In Participatory Sound Art (2016).

2015 (20)

A. Lopopolo, Emiel van Miltenburg. Sound-Based Distributional Models. IWCS (2015).
Anna Xambó. Tabletop Tangible Interfaces For Music Performance : Design And Evaluation (2015).
C. Roberts, Matthew Wright, J. Kuchera-Morin. Music Programming In Gibber. ICMC (2015).
Diego Castán, David Tavarez, Paula Lopez-Otero, J. Franco-Pedroso, H. Delgado, E. Navas, L. Fernández, D. Ramos-Castro, J. Serrano, A. Ortega, E. Lleida. Albayzín-2014 Evaluation: Audio Segmentation And Classification In Broadcast News Domains. EURASIP J. Audio Speech Music. Process. (2015).
Diego Castán, David Tavarez, Paula Lopez-Otero, J. Franco-Pedroso, H. Delgado, E. Navas, Laura Docío Fernández, Daniel Ramos, J. Serrano, A. Ortega, EDUARDO LLEIDA SOLANO. Albayzín-2014 Evaluation: Audio Segmentation And Classification In Broadcast News Domains. EURASIP J. Audio Speech Music. Process. (2015).
Douwe Kiela, Stephen Clark. Multi- And Cross-Modal Semantics Beyond Vision: Grounding In Auditory Perception. EMNLP (2015).
F. Font. Tag Recommendation Using Folksonomy Information For Online Sound Sharing Platforms (2015).
F. Font, J. Serrà, X. Serra. Analysis Of The Impact Of A Tag Recommendation System In A Real-World Folksonomy. TIST (2015).
G. Roma, X. Serra. Music Performance By Discovering Community Loops (2015).
G. Roma, X. Serra. Querying Freesound With A Microphone (2015).
H. Nishino, R. Nakatsu. Computer Music Languages And Systems: The Synergy Between Technology And Creativity (2015).
Jainesh Doshi, Vishrant Tripathi, O. Desai, Shreyas Mangalgi. Instrument Classification Using Spiking Neural Networks (2015).
Karol J. Piczak. Esc: Dataset For Environmental Sound Classification. ACM Multimedia (2015).
Niklas Klügel. Collaborative Music-Making With Interactive Tabletops (2015).
O. Picas, H. P. Rodriguez, Dara Dabiri, Hiroshi Tokuda, Wataru Hariya, K. Oishi, X. Serra. A Real-Time System For Measuring Sound Goodness In Instrumental Sounds (2015).
Pablo Villegas. Content-Preserving Reconstruction Of Electronic Music Sessions Using Freely Available Musical Building-Blocks (2015).
Qingchang Zhu, Z. Chen, Y. Soh. Using Unlabeled Acoustic Data With Locality-Constrained Linear Coding For Energy-Related Activity Recognition In Buildings. 2015 IEEE International Conference on Automation Science and Engineering (CASE) (2015).
T. Kelkar, Anon Ray, Venkatesh Choppella. Sangeetkosh: An Open Web Platform For Music Education. 2015 IEEE 15th International Conference on Advanced Learning Technologies (2015).
V. Apopei. Detection Dangerous Events In Environmental Sounds - A Preliminary Evaluation. 2015 International Conference on Speech Technology and Human-Computer Dialogue (SpeD) (2015).
Vito Claudio Ostuni, T. D. Noia, E. D. Sciascio, S. Oramas, X. Serra. A Semantic Hybrid Approach For Sound Recommendation. WWW (2015).

2014 (11)

C. Jacoby. Automatic Urban Sound Classification Using Feature Learning Techniques (2014).
D. Wolff. Spot The Odd Song Out : Similarity Model Adaptation And Analysis Using Relative Human Ratings (2014).
F. Font, J. Serrà, X. Serra. Audio Clip Classification Using Social Tags And The Effect Of Tag Expansion. Semantic Audio (2014).
F. Font, J. Serrà, X. Serra. Class-Based Tag Recommendation And User-Based Evaluation In Online Audio Clip Sharing. Knowl. Based Syst. (2014).
F. Font, S. Oramas, György Fazekas, X. Serra. Extending Tagging Ontologies With Domain Specific Knowledge. International Semantic Web Conference (2014).
J. R. Delgado-Contreras, J. García-Vázquez, R. Brena, C. E. Galván-Tejada, J. I. Galván-Tejada. Feature Selection For Place Classification Through Environmental Sounds. EUSPN/ICTH (2014).
J. R. Delgado-Contrerasa, Juan Pablo Garcı́a-Vázqueza, Ramon F. Brenaa, Carlos E. Galván-Tejadaa, Jorge I. Galván-Tejadab. International Conference On Emerging Ubiquitous Systems And Pervasive Networks ( Euspn-2014 ) Feature Selection For Place Classification Through Environmental Sounds (2014).
João Paulo Cordeiro. Sound Based Social Networks (2014).
L. Wyse. Interactive Audio Web Development Workflow. ACM Multimedia (2014).
Ohad Fried, Zeyu Jin, Reid Oda, A. Finkelstein. Audioquilt: 2D Arrangements Of Audio Samples Using Metric Learning And Kernelized Sorting. NIME (2014).
Patrice Guyot. Caractérisation Et Reconnaissance De Sons D'Eau Pour Le Suivi Des Activités De La Vie Quotidienne : Une Approche Fondée Sur Le Signal, L'Acoustique Et La Perception (2014).

2013 (7)

D. Wolff, Tillman Weyde. Learning Music Similarity From Relative User Ratings. Information Retrieval (2013).
F. Font, J. Serrà, X. Serra. Folksonomy-Based Tag Recommendation For Collaborative Tagging Systems. Int. J. Semantic Web Inf. Syst. (2013).
Long-Van Nguyen-Dinh, U. Blanke, G. Tröster. Towards Scalable Activity Recognition: Adapting Zero-Effort Crowdsourced Acoustic Models. MUM (2013).
Miles Thorogood, P. Pasquier. Computationally Created Soundscapes With Audio Metaphor. ICCC (2013).
Motohiro Sunouchi, Yuzuru Tanaka. Similarity Search Of Freesound Environmental Sound Based On Their Enhanced Multiscale Fractal Dimension (2013).
Niklas Klügel, G. Groh. Towards Mapping Timbre To Emotional Affect. NIME (2013).
Patrice Guyot, J. Pinquier, R. André-Obrecht. Water Sound Recognition Based On Physical Models. 2013 IEEE International Conference on Acoustics, Speech and Signal Processing (2013).

2012 (10)

Brandon Mechtley, Andreas Spanias, P. Cook. Shortest Path Techniques For Annotation And Retrieval Of Environmental Sounds. ISMIR (2012).
F. Font, G. Roma, P. Herrera, X. Serra. Characterization Of The Freesound Online Community. 2012 3rd International Workshop on Cognitive Information Processing (CIP) (2012).
F. Font, J. Serrà, X. Serra. Folksonomy-Based Tag Recommendation For Online Audio Clip Sharing. ISMIR (2012).
F. Font, X. Serra. Analysis Of The Folksonomy Of Freesound (2012).
G. Roma, Anna Xambó, P. Herrera, Robin C. Laney. Factors In Human Recognition Of Timbre Lexicons Generated By Data Clustering (2012).
G. Roma, P. Herrera, M. Zanin, S. Marín, F. Font, X. Serra. Small World Networks And Creativity In Audio Clip Sharing. Int. J. Soc. Netw. Min. (2012).
M. Rossi, G. Tröster, O. Amft. Recognizing Daily Life Context Using Web-Collected Audio Data. 2012 16th International Symposium on Wearable Computers (2012).
M. Sordo, Gopala K. Koduri, Sankalp Gulati, X. Serra. A Musically Aware System For Browsing And Interacting With Audio Music Collections (2012).
Masayuki Karasuyama, Masashi Sugiyama. Canonical Dependency Analysis Based On Squared-Loss Mutual Information. Neural Networks (2012).
Miles Thorogood, P. Pasquier, Arne Eigenfeldt. Audio Metaphor: Audio Information Retrieval For Soundscape Composition (2012).

2011 (4)

J. Janer, G. Roma, S. Kersten. Authoring Augmented Soundscapes With User-Contributed Content (2011).
J. Janer, S. Kersten, Mattian Schirosa, G. Roma. An Online Platform For Interactive Soundscapes With User-Contributed Audio Content (2011).
Masayuki Karasuyama, Masashi Sugiyama. Canonical Dependency Analysis Based On Squared-Loss Mutual Information. Neural Networks (2011).
Nuno N. Correia. Av Clash, Online Audiovisual Project: A Case Study Of Evaluation In New Media Art. Advances in Computer Entertainment Technology (2011).

2010 (3)

G. Roma, J. Janer, S. Kersten, Mattia Schirosa, P. Herrera, X. Serra. Ecological Acoustics Perspective For Content-Based Retrieval Of Environmental Sounds. EURASIP J. Audio Speech Music. Process. (2010).
G. Roma, P. Herrera. Graph Grammar Representation For Collaborative Sample-Based Music Creation. Audio Mostly Conference (2010).
G. Roma, P. Herrera. Community Structure In Audio Clip Sharing. 2010 International Conference on Intelligent Networking and Collaborative Systems (2010).

2009 (2)

Gerard Roma Trepat, Perfecto Herrera-Boyer, X. Serra. Freesound Radio: Supporting Music Creation By Exploration Of A Sound Database (2009).
M. Magas, Polina Proutskova. A Location-Tracking Interface For Ethnomusicological Collections (2009).

(1)

. ().