У меня есть 200 текстовых файлов. Каждый текстовый файл содержит один столбец математических чисел (100 тыс. Строк).
Я хочу сделать некоторую статистическую обработку этих данных (поиск пробита или квантиля). Я знаю значение среднего и сигма, связанное для каждого файла. Есть ли какой-либо прямой способ рассчитать пробит или квантиль набора данных?
Если нет, то я знаю формулу для квантиля, которая равна = (сортировка данных) / сигма. например
input_file.txt
12.2 10.11 15.55 5.01 ... ... 12.9
temp.txt
5.01 10.11 12.2 12.9 15.55 ... ...
Конечный выходной файл должен содержать два столбца. Первый столбец тот же, что и temp_output.txt
а второй столбец – следующая математическая функция для каждого элемента:
= (row(i)-mean)/sigma
Где среднее и сигма – это два математических числа, например, 10.1 и 2.02 соответственно. Окончательный выходной файл должен выглядеть так, как указано выше.
output.txt
5.01 -2.51980198 10.11 0.004950495 12.2 1.03960396 12.9 1.386138614 15.55 2.698019802 ... ...
вы что-то вроде этого
mybox $ cat file1.txt 12.2 10.11 15.55 5.01 mybox $ awk -v mean=10.2 -v sigma=2.02 '{printf "%f %f\n",$1,($1-mean)/sigma ; }' file1.txt 12.200000 0.990099 10.110000 -0.044554 15.550000 2.648515 5.010000 -2.569307
загадочная часть
awk -v mean=10.2 -v sigma=2.02 '{printf "%f %f\n",$1,($1-mean)/sigma ; }' file1.txt
как вы собираетесь предоставлять среднее значение1, mean2, … mean200?